نرم‌افزار تشخیص گفتار فارسی به بازار می‌آید

گروه دانش: آیا با پیشرفت فناوری‌های نوین بالاخره زمانی خواهد رسید که دیگر نیازی به تایپ کردن با نوشتن متن نباشد و تنها با خواندن متن، بتوان آن را تایپ کرد؟ به‌نظر می‌آید که چنین پیشرفتی در آینده نزدیک محقق خواهد شد.

امروزه نرم‌افزارهای تشخیص فرمان‌های صوتی به صورتی محدود در انواع کامپیوترها و به‌خصوص روی گوشی‌های موبایل نصب شده است.

با کمک این تکنولوژی ارتباط انسان با کامپیوتر بسیار راحت‌تر و سریع‌تر شده‌است و به‌زودی آرزوی بشر در برقراری ارتباط گفتاری با ماشین‌ها تحقق خواهد یافت.

تایپ کامپیوتری هم از جمله کارهای متداول و وقت‌گیر برای کاربرهای عادی و پیشرفته کامپیوتر است؛ به ویژه که این مسئله برای کاربرانی که به هر دلیل مایل به استفاده از صفحه کلید نیستند، کاری خسته‌کننده است و استفاده از قابلیت تشخیص خودکار گفتار توسط کامپیوتر باعث سهولت و صرفه‌جویی در زمان تایپ می‌شود.

تلاش گروه‌های تحقیقاتی و شرکت‌های خارجی برای دستیابی به تکنولوژی تشخیص گفتار به عنوان یکی از تکنولوژی‌های سطح اول دنیا، به چندین دهه می‌رسد، ولی به دلیل پیچیدگی موجود در گفتار انسان هنوز رسیدن به دقت صددرصد امکان‌پذیر نشده است.

نخستین نرم‌افزار فارسی

در کشورمان نیز فعالیت‌هایی در زمینه طراحی و ساخت نرم‌افزارهای تشخیص گفتار به زبان فارسی آغاز شده‌است.

در این راستا گروهی از فارغ‌التحصیلان دانشگاه صنعتی شریف از سال 82 اقدام به تهیه موتور تشخیص گفتار پیوسته فارسی کرده‌اند. برای بالا بردن دقت این نرم‌افزار در تشخیص گفتار فارسی، از مدل‌های آماری و همچنین مدل‌های دستوری زبان استفاده شده است.

ارایی این سامانه که «نویسا» نام دارد، در شرایط آزمایشگاهی و محیط آرام و بدون نویز قابل قبول است، اما زمانی که از آن در عمل و در شرایط عادی مانند داخل اداره، استفاده می‌شود، کارایی سامانه افت شدیدی دارد.

برای جبران این مسئله از راه‌حل‌هایی جهت مقاوم‌سازی سامانه به تغییرات موجود در شرایط آکوستیکی محیط و تغییرات موجود بین گوینده‌های مختلف استفاده شده است، به گونه‌ای که سامانه موجود که مستقل از گوینده و با واژگان بزرگ است، با بهره‌گیری از بهترین روش‌های مقاوم‌سازی می‌تواند خود را با شرایط محیطی جدید و صدای گوینده تطبیق دهد.

این مسئله سامانه جاری را به نمونه‌ای موفق و کاربردی در مقایسه با انواع خارجی مشابه کرده است.

به‌این ترتیب، نسخه جاری این سامانه دارای دقت تشخیص 95درصد در محیط اداری، قابلیت استفاده در همه ویرایشگرها یا قسمت‌هایی که امکان تایپ فارسی دارند، نظیر word و notepad، دایره واژگان 20 هزار کلمه‌ای و همچنین قابلیت تغییر آن برای کاربری‌های خاص (پزشکان، وکلا و ....) است. این نرم‌افزار در عین حال می‌تواند با شرایط محیطی و صدای گوینده نیز انطباق پیدا کند.

سامانه تایپ گفتاری (دیکته) نویسا بر مبنای موتور شناسایی گفتار پیوسته عصر گویش طراحی شده است. این سامانه، اولین سامانه تشخیص گفتار تجاری زبان فارسی است که قادر به تشخیص گفتار پیوسته با واژگان بزرگ و به صورت مستقل از گوینده است.

کاربران می‌تواند از این نرم‌افزار در هر ویرایشگری در محیط ویندوز استفاده کند. این نرم‌افزار سرعت تایپ متون را افزایش می‌دهد و برای کاربران، معلولان نابینا و ناشنوا امکان کاربری راحت‌تر از کامپیوتر و تجهیزات الکترونیکی را فراهم می‌کند.

مزیت‌های تایپ گفتاری

مزیت‌های استفاده از این نوع سامانه‌های تایپ گفتاری عبارتند از: صرفه‌جویی در زمان، کاهش هزینه، افزایش سرعت تایپ و ورود اطلاعات، حفظ امنیت اطلاعات در هنگام ورود داده‌ها، قابلیت استفاده در بسیاری از سامانه‌ها (مستندسازی، ترجمه گفتاری و ...) و جلوگیری از اشتباهات تایپی.

3روش از تکنیکهای به کار گرفته شده در این سامانه تشخیص گفتار، به عنوان اختراع در اداره ثبت ایران شناخته شده است:

1 - مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG(با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
2 - ارائه روشی جدید برای تشخیص کلمات خارج از واژگان (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
3 - روش PC-PMC برای مقاوم سازی سامانه‌های بازشناسی گفتار به نویز (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا).

عمده تلاش این گروه روی مدل‌سازی آکوستیگی گفتار برای تشخیص خودکار آن، بهبود کارایی سامانه‌های تشخیص خودکار گفتار در شرایط محیط واقعی و در حضور نویز، استخراج و بکارگیری اطلاعات زبانی در سامانه‌های موجود و بکارگیری روش‌های پردازشی موجود، به‌ویژه روش‌های تشخیص خودکار روی کامپیوترهای با توان و مصرف محدود مانند موبایل ها و PDAهاست.

فرمان صوتی فارسی

ارتباط کلامی با کامپیوتر تنها محدود به تایپ یا کارهایی از این قبیل نمی‌شود. یکی از مهم‌ترین کاربردهای چنین سامانه‌هایی، همان فرمان‌های صوتی هستند که به صورت محدود در کامپیوترها و موبایل‌ها به‌کار می‌روند.

در این زمینه نیزمحققان ایرانی دستاورهایی موفق داشته‌اند که حاصل آن محصول نرم‌‌افزاری «نیوشا» است که با قابلیت تشخیص اعداد و فرامین صوتی از پشت تلفن، سامانه IVR مبتنی بر گفتار بانک‌ها، اطلاع‌رسانی برای سازمان‌ها، کارآیی بالای 96 درصد و مستقل از گوینده و همچنین قابلیت اضافه‌شدن به عنوان یک واحد مجزا به سامانه‌های تلفنی موجود عرضه شده است.

نویسا و نیوشا قابلیت ترکیب نیز دارند که با استفاده از این کارآیی جدید می‌توان به شماره‌گیری و SMS صوتی، مترجم صوتی گفتار به گفتار، اجرای برنامه‌های کاربردی با گفتار و ... دست یافت.

با استفاده از این نرم‌افزارها و ترکیب آن در سامانه‌های مخابراتی، کاربر با ساده‌ترین وسیله ارتباطی یعنی «گفتار» نیاز خود را مطرح کرده و اپراتور به صورت هوشمند با استفاده از تشخیص گفتار تلفنی و پردازش این گفتار، ارتباط وی را با دستگاه، سرویس یا فرد پاسخگو برقرار می‌کند.

این در حالی است که در شرایط فعلی تکنولوژی مورد استفاده در سامانه مخابراتی کشور به گونه‌ای است که یک اپراتور از کاربر می‌خواهد برای دسترسی به یک فرد یا سرویس خاص، کلیدی مشخص را فشار دهد که این کار بدون توجه به وقت، حقوق، اضطرار و ابهام ذهنی کاربر انجام می‌شود؛ یعنی شخص مجبور است برای انجام یک کار ساده چندین دستور متوالی را انجام دهد.

اما یکی از دغدغه‌های طراحان این سامانه‌های نرم‌افزاری «کپی‌رایت» است. به‌رغم اینکه طراحی نرم‌افزاری که بتواند صحبت افراد را در لحظه تایپ کند، یکی از آرزوهای دیرین و نیاز همیشگی کاربران کامپیوتر بوده است، و از سوی دیگر ارایه این نرم‌افزارها نیز مستلزم صرف هزینه، وقت و انرژی فراوان است، اما همچنان حقوق معنوی این نرم‌افزارها تضمین نشده و به راحتی حاصل تلاش یک گروه توسط سودجویان به تاراج می‌رود.

تیم مجری این نرم‌افزارها از فارغ‌التحصیلان دوره کارشناسی ارشد و دکترای هوش مصنوعی دانشگاه صنعتی شریف هستند و از این‌رو بیش‌تر تمرکز گروه بر کار پژوهشی و علمی است. با این حال، محققان نمی‌توانند هزینه‌ها را از جیب خود بپردازند.

اغلب سودجویان گرانی محصول را بهانه می‌کنند و این در حالی است که اگر تولیدکنندگان محتوای دیجیتال مورد حمایت واقع شوند قطعا قیمت تمام شده این محصولات پایین‌تر خواهد بود.

این فناوری در سومین نشست بین المللی تبادل فناوری در حوزه مخابرات در پارک فناوری پردیس با حضور وزیر ارتباطات از میان طرح های ارائه شده به مقام سومی فناوری برتر سال دست یافت.

کد خبر 33054