امروزه نرمافزارهای تشخیص فرمانهای صوتی به صورتی محدود در انواع کامپیوترها و بهخصوص روی گوشیهای موبایل نصب شده است.
با کمک این تکنولوژی ارتباط انسان با کامپیوتر بسیار راحتتر و سریعتر شدهاست و بهزودی آرزوی بشر در برقراری ارتباط گفتاری با ماشینها تحقق خواهد یافت.
تایپ کامپیوتری هم از جمله کارهای متداول و وقتگیر برای کاربرهای عادی و پیشرفته کامپیوتر است؛ به ویژه که این مسئله برای کاربرانی که به هر دلیل مایل به استفاده از صفحه کلید نیستند، کاری خستهکننده است و استفاده از قابلیت تشخیص خودکار گفتار توسط کامپیوتر باعث سهولت و صرفهجویی در زمان تایپ میشود.
تلاش گروههای تحقیقاتی و شرکتهای خارجی برای دستیابی به تکنولوژی تشخیص گفتار به عنوان یکی از تکنولوژیهای سطح اول دنیا، به چندین دهه میرسد، ولی به دلیل پیچیدگی موجود در گفتار انسان هنوز رسیدن به دقت صددرصد امکانپذیر نشده است.
نخستین نرمافزار فارسی
در کشورمان نیز فعالیتهایی در زمینه طراحی و ساخت نرمافزارهای تشخیص گفتار به زبان فارسی آغاز شدهاست.
در این راستا گروهی از فارغالتحصیلان دانشگاه صنعتی شریف از سال 82 اقدام به تهیه موتور تشخیص گفتار پیوسته فارسی کردهاند. برای بالا بردن دقت این نرمافزار در تشخیص گفتار فارسی، از مدلهای آماری و همچنین مدلهای دستوری زبان استفاده شده است.
ارایی این سامانه که «نویسا» نام دارد، در شرایط آزمایشگاهی و محیط آرام و بدون نویز قابل قبول است، اما زمانی که از آن در عمل و در شرایط عادی مانند داخل اداره، استفاده میشود، کارایی سامانه افت شدیدی دارد.
برای جبران این مسئله از راهحلهایی جهت مقاومسازی سامانه به تغییرات موجود در شرایط آکوستیکی محیط و تغییرات موجود بین گویندههای مختلف استفاده شده است، به گونهای که سامانه موجود که مستقل از گوینده و با واژگان بزرگ است، با بهرهگیری از بهترین روشهای مقاومسازی میتواند خود را با شرایط محیطی جدید و صدای گوینده تطبیق دهد.
این مسئله سامانه جاری را به نمونهای موفق و کاربردی در مقایسه با انواع خارجی مشابه کرده است.
بهاین ترتیب، نسخه جاری این سامانه دارای دقت تشخیص 95درصد در محیط اداری، قابلیت استفاده در همه ویرایشگرها یا قسمتهایی که امکان تایپ فارسی دارند، نظیر word و notepad، دایره واژگان 20 هزار کلمهای و همچنین قابلیت تغییر آن برای کاربریهای خاص (پزشکان، وکلا و ....) است. این نرمافزار در عین حال میتواند با شرایط محیطی و صدای گوینده نیز انطباق پیدا کند.
سامانه تایپ گفتاری (دیکته) نویسا بر مبنای موتور شناسایی گفتار پیوسته عصر گویش طراحی شده است. این سامانه، اولین سامانه تشخیص گفتار تجاری زبان فارسی است که قادر به تشخیص گفتار پیوسته با واژگان بزرگ و به صورت مستقل از گوینده است.
کاربران میتواند از این نرمافزار در هر ویرایشگری در محیط ویندوز استفاده کند. این نرمافزار سرعت تایپ متون را افزایش میدهد و برای کاربران، معلولان نابینا و ناشنوا امکان کاربری راحتتر از کامپیوتر و تجهیزات الکترونیکی را فراهم میکند.
مزیتهای تایپ گفتاری
مزیتهای استفاده از این نوع سامانههای تایپ گفتاری عبارتند از: صرفهجویی در زمان، کاهش هزینه، افزایش سرعت تایپ و ورود اطلاعات، حفظ امنیت اطلاعات در هنگام ورود دادهها، قابلیت استفاده در بسیاری از سامانهها (مستندسازی، ترجمه گفتاری و ...) و جلوگیری از اشتباهات تایپی.
3روش از تکنیکهای به کار گرفته شده در این سامانه تشخیص گفتار، به عنوان اختراع در اداره ثبت ایران شناخته شده است:
1 - مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG(با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
2 - ارائه روشی جدید برای تشخیص کلمات خارج از واژگان (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
3 - روش PC-PMC برای مقاوم سازی سامانههای بازشناسی گفتار به نویز (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا).
عمده تلاش این گروه روی مدلسازی آکوستیگی گفتار برای تشخیص خودکار آن، بهبود کارایی سامانههای تشخیص خودکار گفتار در شرایط محیط واقعی و در حضور نویز، استخراج و بکارگیری اطلاعات زبانی در سامانههای موجود و بکارگیری روشهای پردازشی موجود، بهویژه روشهای تشخیص خودکار روی کامپیوترهای با توان و مصرف محدود مانند موبایل ها و PDAهاست.
فرمان صوتی فارسی
ارتباط کلامی با کامپیوتر تنها محدود به تایپ یا کارهایی از این قبیل نمیشود. یکی از مهمترین کاربردهای چنین سامانههایی، همان فرمانهای صوتی هستند که به صورت محدود در کامپیوترها و موبایلها بهکار میروند.
در این زمینه نیزمحققان ایرانی دستاورهایی موفق داشتهاند که حاصل آن محصول نرمافزاری «نیوشا» است که با قابلیت تشخیص اعداد و فرامین صوتی از پشت تلفن، سامانه IVR مبتنی بر گفتار بانکها، اطلاعرسانی برای سازمانها، کارآیی بالای 96 درصد و مستقل از گوینده و همچنین قابلیت اضافهشدن به عنوان یک واحد مجزا به سامانههای تلفنی موجود عرضه شده است.
نویسا و نیوشا قابلیت ترکیب نیز دارند که با استفاده از این کارآیی جدید میتوان به شمارهگیری و SMS صوتی، مترجم صوتی گفتار به گفتار، اجرای برنامههای کاربردی با گفتار و ... دست یافت.
با استفاده از این نرمافزارها و ترکیب آن در سامانههای مخابراتی، کاربر با سادهترین وسیله ارتباطی یعنی «گفتار» نیاز خود را مطرح کرده و اپراتور به صورت هوشمند با استفاده از تشخیص گفتار تلفنی و پردازش این گفتار، ارتباط وی را با دستگاه، سرویس یا فرد پاسخگو برقرار میکند.
این در حالی است که در شرایط فعلی تکنولوژی مورد استفاده در سامانه مخابراتی کشور به گونهای است که یک اپراتور از کاربر میخواهد برای دسترسی به یک فرد یا سرویس خاص، کلیدی مشخص را فشار دهد که این کار بدون توجه به وقت، حقوق، اضطرار و ابهام ذهنی کاربر انجام میشود؛ یعنی شخص مجبور است برای انجام یک کار ساده چندین دستور متوالی را انجام دهد.
اما یکی از دغدغههای طراحان این سامانههای نرمافزاری «کپیرایت» است. بهرغم اینکه طراحی نرمافزاری که بتواند صحبت افراد را در لحظه تایپ کند، یکی از آرزوهای دیرین و نیاز همیشگی کاربران کامپیوتر بوده است، و از سوی دیگر ارایه این نرمافزارها نیز مستلزم صرف هزینه، وقت و انرژی فراوان است، اما همچنان حقوق معنوی این نرمافزارها تضمین نشده و به راحتی حاصل تلاش یک گروه توسط سودجویان به تاراج میرود.
تیم مجری این نرمافزارها از فارغالتحصیلان دوره کارشناسی ارشد و دکترای هوش مصنوعی دانشگاه صنعتی شریف هستند و از اینرو بیشتر تمرکز گروه بر کار پژوهشی و علمی است. با این حال، محققان نمیتوانند هزینهها را از جیب خود بپردازند.
اغلب سودجویان گرانی محصول را بهانه میکنند و این در حالی است که اگر تولیدکنندگان محتوای دیجیتال مورد حمایت واقع شوند قطعا قیمت تمام شده این محصولات پایینتر خواهد بود.
این فناوری در سومین نشست بین المللی تبادل فناوری در حوزه مخابرات در پارک فناوری پردیس با حضور وزیر ارتباطات از میان طرح های ارائه شده به مقام سومی فناوری برتر سال دست یافت.