කාලෙකින් post එකක් දාන්න බැරි උනේ L3 project වලටයි CIMA exam  වලටයි හිරවෙලා හිටපු නිසයි. L3 project එක කලේ sahana project එකක්. පොඩි image processing  කෑල්ලකුයි OCR  කෑල්ලකුයි තමයි තිබුනෙ. එක කරද්දි මට OCR  වලට නියම engine එකක් හමුවුන. එකෙ නම Tesseract. 


 මුලින්ම code එක build කර ගන්න බැරිනම් site එකෙන් exe එක සහ language  files බාගෙන ( tesseract-2.04.exe.tar.gz , tesseract-2.01..tar.gz )  tesseract එක unzip කරල ඒකට tessdata folder එකක් දාල tessdata folder එකට language files unzip කරන්න. ඊට පස්සෙ command prompt  එකෙන් tesseract exe එක  මෙ විදියට run කරන්න. tesseract  . output file එකට out.txt කියල දෙන්නකො. 
අවුලකට තියෙන්නෙ මේක වැඩ කරන්නෙ uncompressed .tif images වලට විතරයි. compressed images වලට කරන හැටි site එකෙ ඇති. tessting වලට image samples, code එකත් එක්ක බාගන්න පුලුවන්. Recognition  නියමෙට කෙරෙනව. ඕන නම් වෙන language  එකකට train  කරන්නත් පුලුවන්. වැඩ කරල බලල හොඳ නරක කියන්නකො. 

1 comments:

Can u tell me what is the exe version and Lang pack versions that you used,in my vertion one lang file doesnt work brother
" Unable to load unicharset file C:\tesseract\tesseract.exetessdata/eng.unicharset
"
can you help me please..!
just drop a mail for me...

Sumith Thushara
sumith.scd@gmail.com

Post a Comment

Twitter Updates

    follow me on Twitter

    ආපු අය

    Followers