تبلیغات
همه چیز درباره شبکه - OCRچیست؟

همه چیز درباره شبکه
 
به دوستان خود بگویید www.supnet.blogfa.com


OCRچیست؟

 OCR که سررشته کلمات Optical Character Recognition می باشد، به تکنیکی اطلاق می شود که در طی آن یک برنامه کامپیوتری متون موجود درتصاویر دیجیتالی را شناسایی کرده و آنها را به صورت خودکار به فایلهای متنی قابل ویرایش تبدیل می کند.ترجمة مناسبی که در زبان فارسی برای نرم افزارOCR در نظر گرفته شده است نویسه خوان نوری می باشد و نام نویسه خوان آراکس نیز بر همین مبنا بوجود آمده است.

 

لزوم استفاده از OCR

 فرض کنید شما یک متن کاغذی مانند نام، قرارداد، RFP، مقاله، کتاب و ... را در اختیار دارید و باید آن را وارد کامپیوترکنید تا در مطالعات خود یا تهیه گزارشات و ... مورد استفاده قرار دهید
 اولین راهی که به ذهن می رسد و متأسفانه تا کنون در مورد متون فارسی مورد استفاده قرار گرفته است، این است که متن موجود در این اسناد دوباره بوسیله اپراتور تایپ شود. بدیهی است این کار بسیار وقت گیر است، به علاوه وقتی بخواهیم حجم انبوه اسناد مکتوب را به صورت دیجیتال درآوریم ، این مشکلات نمود بیشتری خواهد داشت. دومین راهی که با گسترش فناوری اطلاعات در سالها ی اخیر در بسیاری از سازمانها مورد استفاده قرار گرفته است ، تصویر برداری از روی اسناد کاغذی به وسیله اسکنرها و انتقال تصاویر دیجیتالی تولید شده به سیستم های کامپیوتری می باشد.
 گر چه در این روش با ایجاد آرشیو الکترونیکی از اسناد بهبود نسبی در فرآیند نگهداری اسناد و دستیابی به آنها ایجاد شده است اما کماکان امکان جستجو در داخل متن این اسناد و بهره برداری از آنها وجود ندارد ، به عبارت دیگر تصاویر دیجیتالی اسناد که با استفاده از اسکنر بدست می آیند فاقد ارزش کافی می باشند مگر آنکه بتوان در متن آنها جستجو نمود.
نرم افزار OCR مشکل فوق را برطرف می کند، به این ترتیب که تصویر دیجیتال اسناد را دریافت کرده و با تحلیل محتوای آنها اطلاعات مختلف موجود را شناسایی کرده و با توجه به نوع آنها، فرآیند تبدیل خودکار تصویر به متن را انجام می دهد.


فناوریOCR

 چنانچه فرآیندOCR  رابه صورت یک (Black Box) در نظر بگیریم ورودی آن تصویر سند مورد نظر و خروجی آن فایل دیجیتالی قابل ویرایش از اطلاعات سند (مثلاً به فرمت MS- Word) می باشد.

شکل زیر فرآیند OCR را با جزئیات بیشتری نشان می دهد. در این شکل مراحل مختلف OCR  که به صورت جعبه سیاه معرفی شده بودند ، تشریح شده است:

به عنوان مثال فرآیند OCR به ترتیب زیر انجام می شود.

با دریافت تصویر یک سند، ابتدا فرآیند، تحلیل محتوا می شود و نواحی مختلف اطلاعاتی در تصویر شناسایی می شوند.شکل زیر نمونه ای از تصویر یک سند را نشان می دهد که شامل 3 نوع ناحیه مختلف می باشد: ناحیه متنی، ناحیه تصویری و ناحیه جدول.

سپس با توجه به نوع ناحیه ، نویسه خوان آراکس اقدام لازم را انجام داده و اطلاعات موجود را شناسایی می کند:

- نواحی متنی پردازش شده ومتن موجود در آنها با حفظ نوع قلم خوانده می شوند.

 

- نواحی تصویری دقیقاً مانند تصویر ورودی حفظ می شوند.

 

- تک تک سلولهای جدول در نواحی جدولی شناسایی شده و متن درون آنها خوانده می شود. سپس به صورت یک جدول قابل ویرایش در خروجی قرار داده می شود.

در مرحله بعد نویسه خوان آراکس اطلاعات خوانده شده را در یک ویرایشگر استاندارد به شما نشان می دهد . می توانید با اعمال غلط یاب فارسی و انگلیسی، اشتباهات احتمالی را به سرعت تصحیح نمایید.

در انتهای فرآیند OCR، فایل خروجی که دارای کلیه اطلاعات سند ورودی است تولید می شود.

  مقایسهOCR فارسی با لاتین

برای زبانهای لاتین مانند انگلیسی و فرانسه از سالها قبل نرم افزارهای OCR بوجود آمده و سیر تکاملی خود را طی نموده اند. اما متأسفانه تا کنون برای زبان فارسی با تاریخ چند هزار ساله، نرم افزار OCR مناسب تولید نشده است.

 یکی از دلایل این امر پیچیدگی بالا و مشکل بودن ساختار و نوشتار زبان فارسی در مقایسه با زبانهای لاتین می باشد.به عنوان مثال از آنجا که در زبانهای لاتین نویسه ها (کاراکترها) به صورت مجزا از هم نوشته می شوند کار شناسایی آنها بسیار ساده است اما در زبان فارسی ابتدا باید کلمات (که دارای کاراکترهای متصل هستند) به کاراکترهای مجزا تبدیل شوند این فرآیند با توجه به تنوع قلم ها در زبان فارسی یکی از مشکل ترین بخش های سیستم OCR است.

نویسه خوان آراکس که حاصل سالها تلاش شبانه روزی در بخش تحقیق و توسعه شرکت هدی سیستم می باشد، بسیاری از مشکلات فرا روی OCR فارسی را برطرف نموده و پس از سالها، زبان فارسی را دارای یکی از قویترین نرم افزارهای OCR موجود کرده است. در این حال به منظور فراهم آوردن حداکثر امکانات، نویسه خوان آراکس به خوبی نرم افزار OCR لاتین می تواند متون انگلیسی را نیز بخواند، بعلاوه نویسه خوان آراکس قادر است متون و عبارات انگلیسی را در متون فارسی شناسایی کرده و آنها را بخواند.



ادامه مطلب

طبقه بندی: در مورد کامپیوتر ...، 
نوشته شده در تاریخ یکشنبه 14 فروردین 1390 توسط SuP NeT
تمامی حقوق این وبلاگ محفوظ است | طراحی : supnet  
قالب وبلاگ