بازشناسی گفتار

هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده‌است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند. فناوری بازشناسی گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که گفتار کاربر را متوجه شود.

فناوری تبدیل گفتار به متن ممکن است به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورها مورد استفاده قرار گیرد. سیستم‌های واکافت‌کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستم‌ها قادرند واژگان گفته شده توسط افراد مختلف یا فقط توسط یک گوینده را تشخیص دهند. به هر حال ایده‌آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید.

این سیستم‌ها با به‌کارگیری روش‌های مختلف طبقه‌بندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده می‌شود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستم‌های تشخیص گفتار مورد استفاده قرار می‌گیرند و در بخش‌های انتهایی سیستم از هوش مصنوعی کمک گرفته می‌شود.

یک سیستم بازشناسی گفتار خودکار (Automatic Speech Recognition) که به اختصار ASR نامیده می‌شود با چالشهای فراوانی روبروست. از جمله مهمترین این چالش‌ها می‌توان به وجود نویز، انتخاب مجموعه ویژگی‌های مناسب، انتخاب مدل آکوستیکی مناسب، تنوع زبان، تنوع جنسیت و مشکل لهجه در بازشناسی گفتار اشاره نمود. در مورد زبان‌های رایج مانند انگلیسی کارهای زیادی در جهت مقابله با این چالش‌ها انجام شده‌است اما در مورد زبان فارسی هنوز راه زیادی در پیش است.

کاربردها

امروزه با داشتن میکروفن و کارت صوتی در کامپیوتر و بکارگیری نرم‌افزار تشخیص گفتار می‌توان دستورها یا کلمات را به صورت صوتی به کامپیوتر وارد کرد. حتی در بعضی از گوشی‌های تلفن همراه از این سیستم‌ها جهت دریافت دستورها به صورت صوتی استفاده می‌شود.

از آنجا که ارتباط کلامی راحت‌ترین، ساده‌ترین و سریع‌ترین راه ارتباطی می‌باشد با کمک سیستم‌های تشخیص گفتار می‌توان با رایانه‌ها از طریق صحبت ارتباط برقرار نمود، با آن‌ها حرف زد، دستور داد یا از پشت تلفن و از راه دور بتوان سیستم‌های خانگی را کنترل نمود. با کمک این محصولات، بسیاری از افراد معلول یا افرادی با آشنایی محدود با کامپیوتر و زبان‌های‌خارجی نیز می‌توانند تنها از طریق صحبت‌کردن با کامپیوتر ارتباط برقرار نمایند.

بازشناسی با فاصله و آرایه میکروفنی

تحقیقات گسترده‌ای در زمینه بازشناسی گفتار از راه دور که منبع صوت دور از میکروفن بوده و همچنین در زمینه استفاده از آرایه میکروفنی در حال انجام است.

روخوانی متن (TTS)

تحقیقات ابتدایی در زمینه روش‌های تبدیل متن به گفتار انجام گرفته‌است. کارهای انجام گرفته بیشتر در محدوده مدل زبانی و آماده نمودن برنامه‌های اولیه TTS است.

بازشناسی گفتار تلفنی

یکی از کاربردهای بازشناسی گفتار، استفاده از آن در سیستم‌های تلفنی می‌باشد که کاربر بتواند در پشت تلفن تنها با بیان عنوان موردنظر به صورت گفتاری، کار خود را انجام دهد. این پروژه تحولی در سیستم‌های کامپیوتر- تلفنی به وجود آورده‌است. تشخیص گفتار تلفنی به دلیل شرایط خاص پشت تلفن مانند نویزهای کانال، محدودیت پهنای باند، تنوع نوع گوشی‌ها، تغییرات شدت صدا، تنوع گوینده و تنوع گویش دارای پیچیدگی‌های خاص خود است. نیوشا نرم‌افزار توسعه داده شده برای تشخیص گفتار تلفنی است که به روش‌های مختلف مقاوم‌سازی مجهز شده‌است تا قابل استفاده در کاربردهای واقعی باشد. بازشناسی گفتار روی رایانه‌های جیبی و پردازنده‌های خاص یکی از پروژه‌های موجود در گروه تحقیقات شرکت، بازشناسی گفتار روی رایانه‌های جیبی، گوشی‌های همراه و پردازنده‌های خاصی که عموماً دارای توان پردازشی ضعیف‌تر بوده و قابلیت پردازش اعداد اعشاری را ندارند، می‌باشد. موتور بازشناسی گفتار مخصوص این‌گونه پردازنده‌ها آماده شده‌است که با سرعت و دقت مناسب کار بازشناسی را انجام می‌دهد. نرم‌افزار مترجم صوتی و اجرای برنامه صوتی دو نمونه از این نرم‌افزارها می‌باشد که روی PDA‌های آماده شده‌است.

تشخیص کلمات کلیدی گفتار

تشخیص کلمات کلیدی گفتار به معنای پیدا کردن یک کلمه یا عبارت خاص در گفتار می‌باشد که برای کاربردهای امنیتی، آرشیوهای صوتی و جستجوی صوتی قابل استفاده‌است. نسخه‌های تلفنی و غیر تلفنی این نرم‌افزار آماده شده‌است و تحقیق برای بهبود آن ادامه دارد.

کلمات خارج از دادگان و معیار اطمینان

برای آماده‌سازی یک سیستم واقعی، معیار اطمینان یکی از پارامترهای مهم می‌باشد. به کمک معیار اطمینان می‌توان دقت را در موارد خاص بررسی نمود یا در هنگام آموزش از این ویژگی استفاده نمود. کاربرد دیگر معیار اطمینان در بدست آوردن کلمات خارج از دادگان است. کلمات خارج از دادگان یکی از پارامترهای اصلی سیستم‌های تشخیص فرامین صوتی می‌باشد.

بهبود کیفیت گفتار

در زمینه بهبود کیفیت گفتار روش‌های تفریق طیفی، Wiener Filter, Signal sub-space و Array Processing beam-forming پیاده‌سازی و تست شده‌است.

تشخیص گفتار از غیر گفتار (VAD)

برای بازشناسی گفتار پیوسته یا بازشناسی دستورها صوتی در یک رایانه بدون مشخص بودن شروع یا پایان آواها، لازم است که بدانیم گفتار از کجا شروع شده و تا کجا ادامه دارد. به همین دلیل لازم است قسمت گفتار از سکوت جدا شود تا پردازش فقط روی گفتار انجام گیرد. در این تحقیقات دو روش جدید پیاده‌سازی شده‌است و از روش‌های استاندارد ETSI's AMR, ITU-T's G.722 VAD برای مقایسه و ارزیابی کارایی استفاده می‌شود.

تشخیص گفتار بومی از غیربومی

این کار تحقیقاتی برای زبان فنلاندی شروع شد و تا حدودی کار برای زبان فارسی انجام شده‌است. با استفاده از این روش می‌توان امتیاز، دقت و درست بودن لهجه، بین یک گوینده با لهجه غیربومی و فرد دیگری با لهجه بومی را پیدا نمود.

محاسبه سریع معیار شباهت

یکی از بارهای محاسباتی در الگوریتم‌های بازشناسی گفتار بدست آوردن مقدار شباهت است که یکی از گلوگاه‌های سیستم‌های بازشناسی گفتار می‌باشد. روش‌های بهینه‌ای برای محاسبه مقدار شباهت پیاده‌سازی شده و به کار گرفته شده‌است.

اطلاعات بیشتر

نرم‌افزار

ابزار Sphinx یکی از نقاط آغاز برای آزمایش در حوزه بازشناسی گفتار است.
کتاب اچ‌تی‌کی و جعبه‌ابزار همراه آن.
جعبه‌ابزار کالدی نیز قابل استفاده است.^[۱]
کامن وییس^[۲]^[۳] (از تنسورفلو استفاده می‌کند).^[۴]
Coqui STT^[۵] (مشتق‌شده از کامن وییس و با استفاده از همان پروانه متن‌باز)^[۶]^[۷]
جی‌بورد از بازشناسی گفتار در تمامی برنامه‌های اندروید پشتیبانی می‌کند.^[۸]
قابلیت بازشناسی گفتار در سامانه‌عامل‌های مایکروسافت ویندوز در دسترس است.^[۹]
رابط‌های برنامه‌نویسی کاربردی بازشناسی گفتار مبتنی بر ابر به‌صورت تجاری به‌طور گسترده در دسترس هستند.

منابع

↑ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.
↑ "Common Voice by Mozilla". voice.mozilla.org. Archived from the original on 27 February 2020. Retrieved 9 November 2019.
↑ "A TensorFlow implementation of Baidu's DeepSpeech architecture: mozilla/DeepSpeech". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.
↑ "GitHub - tensorflow/docs: TensorFlow documentation". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.
↑ "Coqui, a startup providing open speech tech for everyone". GitHub. Archived from the original on 9 September 2024. Retrieved 2022-03-07.
↑ Coffey, Donavyn (2021-04-28). "Māori are trying to save their language from Big Tech". Wired UK (به انگلیسی). ISSN 1357-0978. Archived from the original on 9 September 2024. Retrieved 2021-10-16.
↑ "Why you should move from DeepSpeech to coqui.ai". Mozilla Discourse (به انگلیسی). 2021-07-07. Retrieved 2021-10-16.
↑ "Type with your voice". Archived from the original on 9 September 2024. Retrieved 9 September 2024.
↑ "Use voice recognition in Windows". Archived from the original on April 9, 2025.

1-کتاب مبانی پردازش سیگنال گفتار بایگانی‌شده در ۸ فوریه ۲۰۰۹ توسط Wayback Machine
دکتر سعید آیت، انتشارات دانشگاه پیام نور، ۱۳۸۷.

[1] Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.

[2] "Common Voice by Mozilla". voice.mozilla.org. Archived from the original on 27 February 2020. Retrieved 9 November 2019.

[3] "A TensorFlow implementation of Baidu's DeepSpeech architecture: mozilla/DeepSpeech". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.

[4] "GitHub - tensorflow/docs: TensorFlow documentation". 9 November 2019. Archived from the original on 9 September 2024. Retrieved 9 September 2024 – via GitHub.

[5] "Coqui, a startup providing open speech tech for everyone". GitHub. Archived from the original on 9 September 2024. Retrieved 2022-03-07.

[6] Coffey, Donavyn (2021-04-28). "Māori are trying to save their language from Big Tech". Wired UK (به انگلیسی). ISSN 1357-0978. Archived from the original on 9 September 2024. Retrieved 2021-10-16.

[7] "Why you should move from DeepSpeech to coqui.ai". Mozilla Discourse (به انگلیسی). 2021-07-07. Retrieved 2021-10-16.

[8] "Type with your voice". Archived from the original on 9 September 2024. Retrieved 9 September 2024.

[9] "Use voice recognition in Windows". Archived from the original on April 9, 2025.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

پردازش زبان‌های طبیعی
شرایط عمومی	پیکره متنی Speech corpus کلمات توقف مدل بسته کلمات Ai-complete ان-گرم (Bigram, Trigram)
متن‌کاوی	Text segmentation برچسب‌زنی اجزای کلام Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution تجزیه و تحلیل احساسات Concept mining تجزیه‌کننده Word sense disambiguation Terminology extraction Truecasing
خلاصه‌سازی خودکار	Multi-document summarization Sentence extraction Text simplification
ترجمه ماشینی	ترجمه به کمک کامپیوتر Example-based Rule-based
شناسایی خودکار و ضبط داده‌ها	بازشناسی گفتار متن به گفتار نویسه‌خوان نوری Natural language generation
مدل عناوین	Pachinko allocation تخصیص پنهان دیریکله آنالیز پنهان مفهومی
بررسی به کمک کامپیوتر	Automated essay scoring Concordancer Grammar checker Predictive text غلط‌یاب Syntax guessing
زبان طبیعی رابط کاربر	دستیار شخصی هوشمند ربات سخنگو Interactive fiction Question answering