بازشناسی گفتار
هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شدهاست، طراحی و پیادهسازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج میکند. فناوری بازشناسی گفتار به رایانهای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را میدهد که گفتار کاربر را متوجه شود.
فناوری تبدیل گفتار به متن ممکن است به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورها مورد استفاده قرار گیرد. سیستمهای واکافتکننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط میتوانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستمها قادرند واژگان گفته شده توسط افراد مختلف یا فقط توسط یک گوینده را تشخیص دهند. به هر حال ایدهآلترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید.
این سیستمها با بهکارگیری روشهای مختلف طبقهبندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده میشود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستمهای تشخیص گفتار مورد استفاده قرار میگیرند و در بخشهای انتهایی سیستم از هوش مصنوعی کمک گرفته میشود.
یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده میشود با چالشهای فراوانی روبروست. از جمله مهمترین این چالشها میتوان به وجود نویز، انتخاب مجموعه ویژگیهای مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و مشکل لهجه در بازشناسی گفتار اشاره نمود. در مورد زبانهای رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالشها انجام شدهاست اما در مورد زبان فارسی هنوز راه زیادی در پیش است.
کاربردها
امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکارگیری نرمافزار تشخیص گفتار میتوان دستورها یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشیهای تلفن همراه از این سیستمها جهت دریافت دستورها به صورت صوتی استفاده میشود.
از آنجا که ارتباط کلامی راحتترین، سادهترین و سریعترین راه ارتباطی میباشد با کمک سیستمهای تشخیص گفتار میتوان با رایانهها از طریق صحبت ارتباط برقرار نمود، با آنها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستمهای خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول یا افرادی با آشنایی محدود با کامپیوتر و زبانهایخارجی نیز میتوانند تنها از طریق صحبتکردن با کامپیوتر ارتباط برقرار نمایند.
- بازشناسی با فاصله و آرایه میکروفنی
تحقیقات گستردهای در زمینه بازشناسی گفتار از راه دور که منبع صوت دور از میکروفن بوده و همچنین در زمینه استفاده از آرایه میکروفنی در حال انجام است.
- روخوانی متن (TTS)
تحقیقات ابتدایی در زمینه روشهای تبدیل متن به گفتار انجام گرفتهاست. کارهای انجام گرفته بیشتر در محدوده مدل زبانی و آماده نمودن برنامههای اولیه TTS است.
بازشناسی گفتار تلفنی
یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستمهای تلفنی میباشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستمهای کامپیوتر- تلفنی به وجود آوردهاست. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت پهنای باند، تنوع نوع گوشیها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگیهای خاص خود است. نیوشا نرمافزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روشهای مختلف مقاومسازی مجهز شدهاست تا قابل استفاده در کاربردهای واقعی باشد. بازشناسی گفتار روی رایانههای جیبی و پردازندههای خاص یکی از پروژههای موجود در گروه تحقیقات شرکت، بازشناسی گفتار روی رایانههای جیبی، گوشیهای همراه و پردازندههای خاصی که عموماً دارای توان پردازشی ضعیفتر بوده و قابلیت پردازش اعداد اعشاری را ندارند، میباشد. موتور بازشناسی گفتار مخصوص اینگونه پردازندهها آماده شدهاست که با سرعت و دقت مناسب کار بازشناسی را انجام میدهد. نرمافزار مترجم صوتی و اجرای برنامه صوتی دو نمونه از این نرمافزارها میباشد که روی PDAهای آماده شدهاست.
تشخیص کلمات کلیدی گفتار
تشخیص کلمات کلیدی گفتار به معنای پیدا کردن یک کلمه یا عبارت خاص در گفتار میباشد که برای کاربردهای امنیتی، آرشیوهای صوتی و جستجوی صوتی قابل استفادهاست. نسخههای تلفنی و غیر تلفنی این نرمافزار آماده شدهاست و تحقیق برای بهبود آن ادامه دارد.
کلمات خارج از دادگان و معیار اطمینان
برای آمادهسازی یک سیستم واقعی، معیار اطمینان یکی از پارامترهای مهم میباشد. به کمک معیار اطمینان میتوان دقت را در موارد خاص بررسی نمود یا در هنگام آموزش از این ویژگی استفاده نمود. کاربرد دیگر معیار اطمینان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان یکی از پارامترهای اصلی سیستمهای تشخیص فرامین صوتی میباشد.
بهبود کیفیت گفتار
در زمینه بهبود کیفیت گفتار روشهای تفریق طیفی، Wiener Filter, Signal sub-space و Array Processing beam-forming پیادهسازی و تست شدهاست.
تشخیص گفتار از غیر گفتار (VAD)
برای بازشناسی گفتار پیوسته یا بازشناسی دستورها صوتی در یک رایانه بدون مشخص بودن شروع یا پایان آواها، لازم است که بدانیم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همین دلیل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روی گفتار انجام گیرد. در این تحقیقات دو روش جدید پیادهسازی شدهاست و از روشهای استاندارد ETSI's AMR, ITU-T's G.722 VAD برای مقایسه و ارزیابی کارایی استفاده میشود.
تشخیص گفتار بومی از غیربومی
این کار تحقیقاتی برای زبان فنلاندی شروع شد و تا حدودی کار برای زبان فارسی انجام شدهاست. با استفاده از این روش میتوان امتیاز، دقت و درست بودن لهجه، بین یک گوینده با لهجه غیربومی و فرد دیگری با لهجه بومی را پیدا نمود.
محاسبه سریع معیار شباهت
یکی از بارهای محاسباتی در الگوریتمهای بازشناسی گفتار بدست آوردن مقدار شباهت است که یکی از گلوگاههای سیستمهای بازشناسی گفتار میباشد. روشهای بهینهای برای محاسبه مقدار شباهت پیادهسازی شده و به کار گرفته شدهاست.
اطلاعات بیشتر
نرمافزار
- ابزار Sphinx یکی از نقاط آغاز برای آزمایش در حوزه بازشناسی گفتار است.
- کتاب اچتیکی و جعبهابزار همراه آن.
- جعبهابزار کالدی نیز قابل استفاده است.[۱]
- کامن وییس[۲][۳] (از تنسورفلو استفاده میکند).[۴]
- Coqui STT[۵] (مشتقشده از کامن وییس و با استفاده از همان پروانه متنباز)[۶][۷]
- جیبورد از بازشناسی گفتار در تمامی برنامههای اندروید پشتیبانی میکند.[۸]
- قابلیت بازشناسی گفتار در سامانهعاملهای مایکروسافت ویندوز در دسترس است.[۹]
- رابطهای برنامهنویسی کاربردی بازشناسی گفتار مبتنی بر ابر بهصورت تجاری بهطور گسترده در دسترس هستند.
منابع
- ↑ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.
- ↑ "Common Voice by Mozilla". voice.mozilla.org. Archived from the original on 27 February 2020. Retrieved 9 November 2019.
- ↑ "A TensorFlow implementation of Baidu's DeepSpeech architecture: mozilla/DeepSpeech". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.
- ↑ "GitHub - tensorflow/docs: TensorFlow documentation". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.
- ↑ "Coqui, a startup providing open speech tech for everyone". GitHub. Archived from the original on 9 September 2024. Retrieved 2022-03-07.
- ↑ Coffey, Donavyn (2021-04-28). "Māori are trying to save their language from Big Tech". Wired UK (به انگلیسی). ISSN 1357-0978. Archived from the original on 9 September 2024. Retrieved 2021-10-16.
- ↑ "Why you should move from DeepSpeech to coqui.ai". Mozilla Discourse (به انگلیسی). 2021-07-07. Retrieved 2021-10-16.
- ↑ "Type with your voice". Archived from the original on 9 September 2024. Retrieved 9 September 2024.
- ↑ "Use voice recognition in Windows". Archived from the original on April 9, 2025.
- 1-کتاب مبانی پردازش سیگنال گفتار بایگانیشده در ۸ فوریه ۲۰۰۹ توسط Wayback Machine
- دکتر سعید آیت، انتشارات دانشگاه پیام نور، ۱۳۸۷.
