තිලංකගේ කවුළුව: December 2009

Optical character recognition වලට Tesseract

Posted by Thilanka Kaushalya comments (1)

කාලෙකින් post එකක් දාන්න බැරි උනේ L3 project වලටයි CIMA exam වලටයි හිරවෙලා හිටපු නිසයි. L3 project එක කලේ sahana project එකක්. පොඩි image processing කෑල්ලකුයි OCR කෑල්ලකුයි තමයි තිබුනෙ. එක කරද්දි මට OCR වලට නියම engine එකක් හමුවුන. එකෙ නම Tesseract.

මෙතන වැඩි විස්තර තියනව.

මෙතනින් බාගන්න පුලුවන්.

මුලින්ම code එක build කර ගන්න බැරිනම් site එකෙන් exe එක සහ language files බාගෙන ( tesseract-2.04.exe.tar.gz , tesseract-2.01..tar.gz ) tesseract එක unzip කරල ඒකට tessdata folder එකක් දාල tessdata folder එකට language files unzip කරන්න. ඊට පස්සෙ command prompt එකෙන් tesseract exe එක මෙ විදියට run කරන්න. tesseract . output file එකට out.txt කියල දෙන්නකො.

අවුලකට තියෙන්නෙ මේක වැඩ කරන්නෙ uncompressed .tif images වලට විතරයි. compressed images වලට කරන හැටි site එකෙ ඇති. tessting වලට image samples, code එකත් එක්ක බාගන්න පුලුවන්. Recognition නියමෙට කෙරෙනව. ඕන නම් වෙන language එකකට train කරන්නත් පුලුවන්. වැඩ කරල බලල හොඳ නරක කියන්නකො.

තිලංකගේ කවුළුව

Optical character recognition වලට Tesseract

Twitter Updates

Twitter Updates

Labels

ආපු අය

My Blog List

Followers

Blog Archive