تاریخ انتشار: ۲۵ آذر ۱۳۹۹ - ۱۵:۳۷

OCR یا فناوری تبدیل تصویر به متن چیست؟

آیا تا به حال برای شما هم پیش آمده که نیاز داشته باشید یک فایل PDF، کتاب، سند چاپ شده و... را به متن تبدیل کنید؟ احتمالا در چنین مواقعی ساعت‌ها وقت صرف تایپ کردن دوباره محتوای چنین فایل‌هایی کرده‌اید و تازه پس از آن که کار تایپ کردن تمام شد، زمان زیادی را هم برای تصحیح اشتباهات نگارشی که پیش آمده صرف کردید.

اگر این اتفاق برای شما هم افتاده است، فناوری‌هایی مانند OCR یا همان تبدیل تصویر به متن به وجود آمده‌اند تا به شما کمک کنند و دیگر لازم نباشد تا زمان زیادی را صرف چنین کارهایی کنید. اگر با فناوری OCR آشنایی ندارید و تا به حال از آن استفاده نکرده‌اید، در ادامه با ما همراه باشید تا با این فناوری بیشتر آشنا شوید و علاوه بر آن در انتها یک ابزار تبدیل تصویر به متن ایرانی با کیفیت را هم به شما معرفی خواهیم کرد تا در آینده و در صورت نیاز از آن استفاده کنید.

منظور از تبدیل تصویر به متن یا OCR چیست؟

مکانیزمی که به انسان اجازه می‌دهد تا محیط اطرافش را بشناسد و درک کند هنوز در هاله‌ای از ابهام است اما به طور کلی سه اصلی اساسی وجود دارد که دانشمندان برای تعریف نحوه درک انسان به آن‌ها استناد می‌کنند که عبارتند از: یکپارچگی، هدفمندی و سازگاری. از این سه اصل به نوعی در فناوری OCR نیز استفاده می‌شود و این مسئله موجب می‌شود تا یک سیستم بتواند همانند تشخیص طبیعی انسان محیط اطرافش را درک کند.

OCR مخفف عبارت Optical Character Recognition است که در زبان فارسی به آن نویسه خوان نوری نیز گفته می‌شود. کار اصلی این فناوری تشخیص و فهم کاراکترهای مختلف موجود در یک تصویر است. این فناوری قابلیت آن را دارد که کاراکترهای یک نوشته پرینت شده و حتی دست‌نویس را تشخیص دهد و بشناسد و آن را تبدیل به یک فایل متنی دیجیتال و قابل خواندن برای رایانه کند. هرگونه عدد، کد، علائم نگارشی، حروف الفبا و... می‌تواند به عنوان یک کاراکتر شناسایی و به نسخه دیجیتالی تبدیل شود.

به کمک OCR می‌توانید تمامی کاراکترهای گفته شده را به خروجی دیجیتالی تبدیل کنید. به دلیل اینکه این فناوری توانایی تبدیل کاراکترهای موجود در تصویر به نسخه قابل خواندن برای رایانه را دارد، از آن به عنوان فناوری تبدیل تصویر به متن نیز یاد می‌شود. از این تکنولوژی می‌توان استفاده‌های بسیار متنوعی داشت. اگر بخواهیم فرآیند آن را به سادگی توضیح دهیم، این فناوری در ابتدا بر روی تصویر دریافت شده پردازش انجام می‌دهد، سپس کاراکترهای موجود در آن را استخراج می‌کند و در نهایت نیز این کاراکترهای استخراج شده را شناسایی و تبدیل به متن می‌کند.

توجه داشته باشید که کار OCR این نیست که هر کاراکتری را که مشاهده می‌کند به همان شکل اسکن کند، بلکه این فناوری در ابتدا به تمامی کاراکترهایی که شما برای تبدیل در اختیار آن قرار داده‌اید نگاهی می‌اندازد و سپس آن چه قابل درک و شناسایی است را به نسخه قابل خواندن برای رایانه تبدیل می‌کند. به عنوان مثال اگر شما کلمه‌ای را به وسیله یک سیستم OCR اسکن کنید، حروف را یاد می گیرد و معنی آن را تشخیص می‌دهد.

چه تکنولوژی در پس OCR قرار گرفته است؟

نویسه خوان نوری یا همان OCR، تکنولوژی است که به شما امکان آن را می‌دهد تا بتوانید هر نوع فایل اعم از PDF، تصویر و ... را به یک متن قابل ویرایش و جستجو تبدیل کنید. فرض کنید یک فایل PDF چاپ شده در اختیار دارید و نیاز دارید تا آن را به یک فایل قابل ویرایش تبدیل کرده و تغییراتی در آن ایجاد کنید. کاملا روشن است که با استفاده از یک اسکنر ساده نمی‌توانید فایل را به نسخه‌ی مورد نیاز خود تبدیل کنید و برای این کار به یک نرم‌افزار بخصوص نیاز دارید. تمام کاری که یک اسکنر می‌تواند انجام دهد، تهیه یک تصویر از فایل مورد نظر است.

برای استخراج اطلاعات به شکل مورد نیاز از یک فایل چاپ شده یا یک PDF، باید از فناوری تبدیل تصویر به متن OCR استفاده کرد تا بتواند کاراکترهای موجود در یک تصویر را استخراج کند و آن‌ها را در قالب کلمات بگنجاند و سپس با قرار دادن این کلمه‌ها در کنار یکدیگر آن را تبدیل به یک متن قابل ویرایش نماید و در این صورت شما می‌توانید به تمام اطلاعات نسخه اصلی دسترسی داشته باشید و تمامی تغییرات لازم را اعمال کنید.

OCR یا قابلیت تبدیل تصویر به متن چگونه کار می‌کند؟

بیایید با هم به سه گام اصلی که این فناوری برای تبدیل کاراکترهای موجود در تصویر به متن استفاده می‌کند نگاه بیندازیم. به طور کلی این سه گام عبارتند از: پیش پردازش تصویر، شناسایی کاراکترها و در نهایت پردازش نهایی خروجی‌ها. این گام‌ها در ادامه به طور کامل بررسی می‌شوند.

گام اول: پیش پردازش تصویر

نرم‌افزارهای OCR بیشتر اوقات برای اینکه میزان شانس شناسایی درست کاراکترهای موجود در تصویر را بالا ببرند، بر روی تصاویر دریافتی پیش پردازش انجام می‌دهند. در واقع هدف از این پیش پردازش بهبود داده‌های تصویری دریافتی است. در پیش پردازش تصاویر، اعوجاج‌های ناخواسته موجود در آن‌ها کاهش می‌یابد و ویژگی‌های موجود نیز برجسته می‌شوند. اجرای گام اول برای شروع دو گام بعدی ضروری و مهم است.

گام دوم: شناسایی کاراکترها

برای شناسایی درست کاراکترها لازم است که با مفهوم «استخراج ویژگی‌ها» آشنایی داشته باشیم. زمانی که میزان اطلاعات ورودی بیش از حدی باشد که بتوان آن را پردازش کرد، تنها مجوعه‌ای از ویژگی‌های ساده شده برای پردازش انتخاب می‌شوند. انتظار می‌رود که ویژگی‌های انتخاب شده جزء پر اهمیت‌ترین ویژگی‌ها باشند، اما این در حالی است که مواردی که احتمالا در تصاویر زائد محسوب می‌شوند گاهی اوقات نادیده گرفته خواهند شد. با استفاده از این داده‌های ساده شده به جای داده‌های عظیم اولیه، عملکرد سیستم افزایش خواهد یافت.

در فرآیند یک سرویس OCR، مسئله ذکر شده اهمیت زیادی دارد زیرا الگوریتم مورد نظر باید در نهایت بتواند بخش‌ها یا اشکال خاص موجود در یک تصور دیجیتالی و یا یک ویدئو در حال پخش را تشخیص دهد.

گام سوم: پردازش نهایی

پردازش نهایی نیز یکی از تکنیک‌هایی است که از طریق آن میزان دقت فناوری OCR افزایش می‌یابد. به کمک محدود کردن خروجی‌ها به یک واژه‌نامه نیز می‌توان دقت سیستم را افزایش داد. به این ترتیب الگوریتم محدود به یک لیستی از کلمات می‌شود که قرار است در تصاویر اسکن شده پیدا شوند. فناوری OCR نه تنها در تبدیل کلمات موجود در تصویر به متن کمک می‌کند، بلکه می‌تواند کدها و اعداد موجود در آن فایل را نیز شناسایی و تبدیل نماید. به این صورت می‌توان از فناوری OCR برای شناسایی رشته‌های طولانی از اعداد و حروف استفاده کرد که در صنایع تولیدی می‌تواند بسیار کاربردی باشد.

برای عملکرد بهتر در انواع مختلف ورودی در فناوری OCR ، برخی از ارائه دهندگان یکسری سیستم‌های خاص را برای OCR توسعه داده‌اند. این سیستم ها قادر به شناسایی تصاویری خاص هستند و برای بهبود دقت تشخیص، چند تکنیک مختلف بهینه سازی را ترکیب می کنند. از این روش نیز می‌توان برای بهبود دقت OCR استفاده نمود.

موارد استفاده از فناوری OCR یا تبدیل تصویر به متن

از آن‌جایی که فناوری OCR می‌تواند با تکنولوژی‌های مختلف ادغام و به کار گرفته شود، موارد استفاده از آن بسیار گوناگون است و طیف وسیعی از کاربردهای را شامل می‌شود. در ادامه برخی از کاربردهای جالب این تکنولوژی را در دنیای امروز بررسی می‌کنیم.

استفاده از OCR در فرآیندهای تشخیص هویت

گذرنامه‌ها، کارت‌های شناسایی و... دارای کدهایی هستند که می‌توان آن‌ها را اسکن کرد و به کمک OCR تبدیل به متن نمود. فناوری OCR می‌تواند به فرآیند تشخیص هویت و یا ثبت نام افراد سرعت ببخشد. این مسئله برای نیروهای امنیتی در گذرگاه‌ها و یا فرودگاه‌ها و... بسیار کاربردی خواهد بود. از OCR هم‌چنین می‌توان در فرآیندهای تبلیغاتی برای افزایش میزان درگیر شدن مخاطب با کسب وکارها استفاده نمود مانند استفاده از تبدیل تصویر به متن در پذیرش هتل‌ها، افتتاح حساب در بانک‌ها و غیره.

استفاده از OCR در کمپین‌های بازاریابی

برندهای مطرح در دنیا از فناوری OCR برای ایجاد و اجرای کمپین‌های خلاقانه و درگیر کننده در فرآیندهای بازاریابی خود استفاده می‌کنند. برای مثال تمامی دفعاتی که برای استفاده از تخفیف کدی را که بر روی بدنه یک محصول بوده را اسکن کرده‌اید، جزء مواردی است که آن کسب و کار از فناوری OCR در کمپین خود استفاده کرده است. همه‌ی کمپین‌های تبلیغاتی این چنینی به کمک ادغام فناوری OCR با وب‌سایت یا اپلیکیشن کسب و کار باعث می‌شوند تا از تعداد مراحلی که یک کاربر طی کند کاسته شود و راحت‌تر به کمپین جذب شود.

استفاده از OCR در فرآیند پرداخت

یکی از خدمات بانکی برون مرزی شماره حساب بانکی بین‌المللی است که به آن IBAN یا International Bank Account Number نیز گفته می‌شود و برای شناسایی حساب‌های بانکی در خارج از مرزها استفاده می‌شود. IBAN از یکسری اعداد و حروف تشکیل می‌شود و ممکن است طول متفاوتی داشته باشد. برای سهولت انجام معاملات برون مرزی، برخی برنامه‌های بانکی با نرم‌افزارهای دارای فناوری OCR ادغام می‌شوند و به این ترتیب مشتریان آن‌ها می توانند IBAN خود را بدون نیاز به تایپ کردن و تنها با یک اسکن کردن ساده، وارد سیستم کنند.

آیا سرویس تبدیل تصویر به متن یا OCR در ایران هم وجود دارد؟

خوشبختانه پاسخ این سوال بله است. در سال‌های اخیر هوش مصنوعی در ایران پیشرفت چشم‌گیری داشته و شرکت‌های فعال در این حوزه توانستند محصولات با کیفیتی را به بازار داخلی عرضه کنند. شرکت عامراندیش هوشمند نیز جزء فعالان حوزه هوش مصنوعی در ایران است که توانسته از زمان شروع فعالیت خود محصولات هوشمند متنوعی را برای استفاده کسب و کارهای ایرانی به بازار عرضه کند. این شرکت در سه حوزه پردازش تصویر، متن و گفتار فعالیت می‌کند و یکی از ماژول‌های محصول بینایار آن، که در حقیقت یک موتور پردازش تصویر هوشمند می‌باشد، OCR یا همان نویسه خوان نوری است. محصولات دیگر این شرکت نیز فارس آوا (موتور پردازش گفتار در زبان فارسی)، باتاوا (چت‌بات و دستیار هوشمند سازمانی) و هوشتل (اپراتور هوشمند مرکز تماس) می‌باشد.

Amerandish.com