تشخیص گفتار

birhosting-article-speech recognition
توسط

تشخیص گفتار که با نام‌های تشخیص خودکار گفتار (ASR)، تشخیص گفتار رایانه‌ای یا گفتار به متن نیز شناخته می‌شود، قابلیتی است که برنامه را قادر می‌سازد گفتار انسان را شناسایی کرده و آن را به متن قابل خواندن تبدیل کند.

birhosting-article-speech recognition

معرفی

در حالی که نرم افزار تشخیص گفتار پایه واژگان محدودی دارد، ما اکنون شاهد ظهور نرم افزارهای پیچیده تری هستیم که می تواند گفتار طبیعی، لهجه های مختلف و زبان های مختلف را مدیریت کند و در عین حال به نرخ های دقت بسیار بالاتری نیز دست یابد. ما همچنین از فناوری تشخیص گفتار بسیار بیشتر در زندگی روزمره خود استفاده می کنیم، با تعداد فزاینده ای از افراد که از دستیارهای دیجیتال مانند Google Home، Siri و Amazon Alexa استفاده می کنند.

تاریخچه

در سال ۱۹۵۲ اولین سیستم تشخیص گفتار، معروف به "آدری" توسط آزمایشگاه بل ساخته شد. این دستگاه قادر بود صدای یک رقم گفتاری (صفر تا نه) را با دقت بیش از ۹۰ درصد زمانی که توسط یک صدا بیان می شود (توسعه دهنده آن HK David) تشخیص دهد.

شرکت IBM در سال ۱۹۶۲ Shoebox را ایجاد کرد، دستگاهی که می‌توانست ۱۶ کلمه انگلیسی گفتاری را تشخیص دهد و از هم متمایز کند.

در دهه ۱۹۷۰ دانشگاه کارنگی ملون به عنوان بخشی از یک برنامه با بودجه وزارت دفاع ایالات متحده، سیستم "هارپی" را توسعه داد که می توانست جملات کامل را تشخیص دهد و واژگانی ۱۰۱۱ کلمه ای داشت.

در ادامه، در دهه ۱۹۸۰، IBM یک ماشین تحریر فعال با صدا به نام Tangora را توسعه داد که از یک مدل پیش بینی آماری برای شناسایی کلمات با واژگان ۲۰۰۰۰ کلمه استفاده می کرد.

همچنین در سال ۱۹۹۶، IBM دوباره درگیر شد، این بار با VoiceType Simply Speaking، یک برنامه تشخیص گفتار که دارای واژگان ۴۲۰۰۰ کلمه بود، انگلیسی و اسپانیایی را پشتیبانی می کرد و شامل فرهنگ لغت املای ۱۰۰۰۰۰ کلمه بود.

و در آخر در دهه ۲۰۰۰، با دستیابی به سرعت تشخیص گفتار نزدیک به ۸۰٪، دستیارهای صوتی (که معمولاً به آنها دستیار دیجیتال نیز گفته می شود) در صدر قرار گرفتند، اولین بار Google Voice که چند سال بعد با عرضه سیری و آمازون همراه با الکسا عرضه شد.

birhosting-article-speech recognition

چگونه کار می کند

طیف گسترده‌ای از برنامه‌ها و دستگاه‌های تشخیص گفتار در دسترس هستند، با راه‌حل‌های پیشرفته‌تر اکنون از هوش مصنوعی (AI) و یادگیری ماشینی استفاده می‌شود که معمولا بر اساس مدل های زیر هستند:

مدل‌های آکوستیک

تمایز بین سیگنال صوتی و واج‌ها (واحدهای صدا) را ممکن می‌سازد.

مدل‌های تلفظ

تعیین چگونگی ترکیب واج‌ها برای ساختن کلمات.

مدل‌های زبان

تطبیق صداها با دنباله‌های کلمات به منظور تمایز بین کلماتی که صداهای یکسان دارند.

در ابتدا، مدل پنهان مارکوف (HMM) به طور گسترده ای به عنوان یک رویکرد مدل سازی آکوستیک پذیرفته شد. با این حال، تا حد زیادی با شبکه های عصبی عمیق جایگزین شده است. استفاده از یادگیری عمیق در تشخیص گفتار تأثیر قابل توجهی در کاهش میزان خطای کلمات داشته است.

میزان خطای کلمه

یک عامل کلیدی در فناوری تشخیص گفتار، میزان دقت آن است که معمولاً به عنوان نرخ خطای کلمه (WER) شناخته می شود. تعدادی از عوامل می توانند بر WER تأثیر بگذارند، برای مثال الگوهای مختلف گفتار، سبک های گفتاری، زبان ها، لهجه ها و عبارات. چالش الگوریتم‌های نرم‌افزاری که صدا را در متن پردازش و سازماندهی می‌کنند، رسیدگی به این موارد است، در حالی که می‌توانند صدای گفتاری را از نویز پس‌زمینه که اغلب همراه سیگنال است، جدا کنند.

birhosting-article-speech recognition

کاربرد تشخیص گفتار

به لطف لپ تاپ ها، تبلت ها و گوشی های هوشمند، همراه با توسعه سریع هوش مصنوعی، نرم افزار تشخیص گفتار وارد تمام جنبه های زندگی روزمره ما شده است. مثالها عبارتند از:

دستیاران مجازی

با طیف وسیعی از پلتفرم‌های مختلف ادغام می‌شوند و ما را قادر می‌سازند فقط با صحبت کردن به دستگاه‌های خود فرمان دهیم. در سطح شخصی، نمونه هایی مانند سیری، الکسا و دستیار گوگل هستند. در دفتر می توان از آن ها برای تکمیل کار کارکنان انسانی با بر عهده گرفتن مسئولیت کارهای تکراری و وقت گیر استفاده کرد و به کارکنان اجازه داد تا انرژی خود را بر روی فعالیت های با اولویت بیشتر متمرکز کنند.

جستجوی صوتی

فن‌آوری تشخیص گفتار نه تنها بر نحوه انجام وظایف روزانه مشاغل تأثیر می‌گذارد، بلکه بر نحوه دسترسی مشتریان به آنها نیز تأثیر می‌گذارد. جستجوی صوتی معمولاً در دستگاه‌هایی مانند تلفن‌های هوشمند، لپ‌تاپ‌ها و تبلت‌ها استفاده می‌شود و به کاربران اجازه می‌دهد به جای تایپ درخواست خود در موتور جستجو، یک عبارت جستجوی صوتی را وارد کنند. تفاوت بین پرس و جوهای گفتاری و تایپ شده می تواند باعث نتایج متفاوت SERP (صفحه نتایج موتور جستجو) شود، زیرا نحوه صحبت کردن ما کلمات کلیدی جستجوی صوتی جدیدی را ایجاد می کند که بیشتر از کلمات کلیدی تایپ شده محاوره ای هستند.

راه حل های گفتار به متن

و در نهایت، مهم ترین حوزه از نظر کاربران تجاری، نرم افزار گفتار به متن است. این حوزه به سرعت در حال رشد است، به دلیل در دسترس بودن راه‌حل‌های مبتنی بر ابر که کاربران را قادر می‌سازد تا به نسخه‌های کاملاً ویژه گفتار به برنامه‌های متنی از تلفن‌های هوشمند یا تبلت‌ها بدون در نظر گرفتن مکانشان دسترسی داشته باشند. علاوه بر این، فناوری تشخیص گفتار می‌تواند کارهای تکراری را کاهش دهد و حرفه‌ای‌ها را آزاد کند تا از زمان خود به نحو مؤثرتری استفاده کنند، در حالی که به کسب‌وکارها اجازه می‌دهد با خودکارسازی فرآیندها و انجام سریع‌تر وظایف اداری، در هزینه‌های خود صرفه‌جویی کنند.

birhosting-article-speech recognition

پست های توصیه شده