Wednesday, November 19, 2008

BanglaOCR V 0.6 | Released

This is the announcement about the release of BanglaOCR V 0.6. We already fixed few problems in V 0.5 and after solving those we moved to the next release. The release information is provided below:

Perquisites:
1. Microsoft .NET Framework Version 2.0 Redistributable Package (x86)
2. Microsoft Visual C++ 2005 Redistributable Package (x86)
3. Java Runtime Environment

User's Manual:
The manual will be available after installing BanglaOCR. Go to Start>> All Programs >> BanglaOCR>> BanglaOCR User Guide.

Feedback:
Any feedback about the application is highly appreciable. At present you can post feedback on the following email address: bangla.ocr@gmail.com
I am planning to build a document image database. So, if you would like, then send us your document images.

Test Images:
A set of test images are also available in the same site where the OCR setup package is available. So, please feel free to download them and test. The images were randomly selected to test the application and obviously not based on the best performance.

Download Link:
BanglaOCR V 0.6
Test Images

13 comments:

Tareq said...

আমি প্রথমে ওয়ার্ডে লেখা একটা ফাইলের লেখার ছবি তুললাম, তারপরে এইটার একটা ছবি তুলে gif ফরমেটে সেভ করে এই ocr দিয়ে ওপেন করে রিকোগনাইজ এ ক্লিক করলাম। দেখলাম আমার লেখার ছবিটার অবস্থা কাহিল, আমিই ভাল চিনতে পারছিনা, ocr কিভাবে চিনবে ;D, চিনলও না

Md. Abul Hasnat said...

Dear Tareq,
thank you very much for your valuable feedback. I already mentioned about the problem in the bangla blog. The possible reason of this low accuracy is because of the low resolution of the input image. Many OCR suggest a least resolution / dpi information for the image. The output will be better if the dpi of image is more than 200. Anyway this is really good feedback. We are considering your comment and looking forward to handle this problem in our OCR.

I would like to request you to send the image that you have tried. This will also help us to understand the problem properly and take necessary steps to solve that. Please send your image to the following email address: bangla.ocr@gmail.com.

Regards,
Hasnat

জয়ন্ত said...

Dear Hasnat,

First of all I congratulate to you for this application.Step by step you reach to near ABBYY.After two days use, I give you some error. Most of the good document can't recognised "া" আ-কার,they recognised most of the time as "।" dari. And I am also trying to send scanned document as early as possible. I give you a link a blog which has describe all bengali Juktakhkhar for you reference.It may be helpful for you to creat data training of combination. Thanks again.
http://nanarokom.blogspot.com/2008/11/blog-post.html

Md. Abul Hasnat said...

Dear Jayanta da,
thank you so much for your feedback and suggestion. I agree with you about the problem of the recognition between aa-kar and daari. I spend 1 month to prepare the training data and I found that the problems appears too often that it will be quite hard to eliminate the problem completely. Then we planned to solve the problem in the post processor where we can easily understand about the presence of aa-kar and daari. Example: A daari cannot appear in the middle of a word, it must be followed by a space. There is still a lot of chance to improve the performance of the OCR. And considering that we just released version 0.6. I am very happy that you are with us and helping us. Honestly speaking that you motivated me to develop the windows version so early. Thanks for the link that you have given as a reference for the juktakkhor.

Al-Mamun said...

অনেকদিন থেকে একটি বাংলা ওসিআর খুজছিলাম। আজ আপনারটা পেয়ে ডাউনলোড করছি। এর ভালমন্দ এখনো জানিনা। তবে এ ধরণের প্রচেষ্টা নি:সন্দেহে সাধুবাদ পাবার যোগ্য। আপনাকে এজন্য অনেক অনেক ধন্যবাদ। Keep on going man! We are with you. আল্লাহ্ আপনার প্রচেষ্টাকে সফল করুন।

আব্দুল্লাহ্ আল-মামুন

Scorpio said...

আমি ভীষণ খুশি এধরনের একটা জিনিস পেয়ে যা আমাদের অনেক Hard copy কে soft copy তে রুপান্তর করতে সাহায্য করবে। কিন্তু আমি কাজ করতে গিয়েই আটকে গেলাম। OCR download করার সময় Image_Collection_for_testing_v2 টাও নামিয়ে নিয়েছি। এবং এর থেকেই একটা নিয়ে কাজ করতে গিয়ে দেখি আমার এররর আসছে - "Access to the path 'C:\Program Files\CRBLP\BanglaOCR\Tesseract\bat.bat' is denied." ...আমি আপনার bangla.ocr@gmail.com এও error image সহ mail করছি, একটু দেখবেন প্লীজ।

আর হ্যা...অসংখ ধন্যবাদ এধরনের একটি software আমাদের উপহার দেবার জন্য।

Md. Abul Hasnat said...

আপনার সমসস্যার সমাধান হলো Administrator হিসাবে লগ ইন করা, তাহলে আপনি ফাইলে লিখার অনুমোদন পাবেন। অথবা আপনি সফটওয়্যারটি Program Files ব্যাতীত অন্য কোন ফোল্ডার এ ইনষ্টল করুন যেখানে ফাইলে লিখার জন্য অনুমোদনের প্রয়জন হয়না। বাংলা ওসিআর এর প্রতি আপনাদের আগ্রহ এবং মতামতের জন্য অসংখ্য ধন্যবাদ।

Muhammod Arifur Rahman said...

অনেক দিন ধরে অপেক্ষা করছিলাম , কবে আমাদের বাংলা ভাষার একটা নিজস্ব OCR system হবে। আজ পত্রিকায় দেখে সাথে সাথে খুজে বের করি। যদি ও পত্রিকায় link টা কাজ করছিল না। Developer সবাইকে জানাই আন্তিরক শুভেচ্ছা। আশা করি সেই দিন দুরে নয় যে দিন OCR এ বাংলা ১০০% error less হবে।

Md. Abul Hasnat said...

আমাদের দেশে রিসার্চ প্রজেক্টগুলোকে সত্তিকারের প্রোডাক্টে রুপান্তরের প্রচলন থাকলে হয়ত আমরা আরো অনেক আগেই এই ধরনের সফটয়্যার পেতাম। আশা করি বাংলাওসিআর এর উন্নয়নে সকলের কাছ থেকে মূল্যবান মতামত প্রাপ্তি অব্যাহত থাকবে। আপনার মতামতের জন্য অসংখ্য ধন্যবাদ।

Partha said...

First of all, thanks for developing this application.I have waited a long for a good bangla OCR software.Hope this will be that one.

Md. Abul Hasnat said...

Dear Partha,
this is indeed the best performance OCR for recognizing Bangla text images. We are hopeful to increase the performance and working continuously on it. Please pray for us and support us.

Md. H said...

It's really great work. Many many tks for your OCR software.

I hope you will more update and post for all of the us.

I wishes with you.

kazi zahir said...

অনেক খুঁজাখুঁজির আজকে বাংলা OCR সফট খুঁজে পেলাম। অনেকদিন যাবত সফটীর আপডেট হচ্ছে না, এটা দেখে আহত হলাম। আশা করব সফটটি সময়ের সাথে পাল্লা দিয়ে আপগ্রেড হবে। সংস্লিস্ট সকলকে ধন্যবাদ।