تشخیص گفتار
توسط Ali Raghimi
تشخیص گفتار که با نامهای تشخیص خودکار گفتار (ASR)، تشخیص گفتار رایانهای یا گفتار به متن نیز شناخته میشود، قابلیتی است که برنامه را قادر میسازد گفتار انسان را شناسایی کرده و آن را به متن قابل خواندن تبدیل کند.
معرفی
در حالی که نرم افزار تشخیص گفتار پایه واژگان محدودی دارد، ما اکنون شاهد ظهور نرم افزارهای پیچیده تری هستیم که می تواند گفتار طبیعی، لهجه های مختلف و زبان های مختلف را مدیریت کند و در عین حال به نرخ های دقت بسیار بالاتری نیز دست یابد. ما همچنین از فناوری تشخیص گفتار بسیار بیشتر در زندگی روزمره خود استفاده می کنیم، با تعداد فزاینده ای از افراد که از دستیارهای دیجیتال مانند Google Home، Siri و Amazon Alexa استفاده می کنند.
تاریخچه
در سال ۱۹۵۲ اولین سیستم تشخیص گفتار، معروف به "آدری" توسط آزمایشگاه بل ساخته شد. این دستگاه قادر بود صدای یک رقم گفتاری (صفر تا نه) را با دقت بیش از ۹۰ درصد زمانی که توسط یک صدا بیان می شود (توسعه دهنده آن HK David) تشخیص دهد.
شرکت IBM در سال ۱۹۶۲ Shoebox را ایجاد کرد، دستگاهی که میتوانست ۱۶ کلمه انگلیسی گفتاری را تشخیص دهد و از هم متمایز کند.
در دهه ۱۹۷۰ دانشگاه کارنگی ملون به عنوان بخشی از یک برنامه با بودجه وزارت دفاع ایالات متحده، سیستم "هارپی" را توسعه داد که می توانست جملات کامل را تشخیص دهد و واژگانی ۱۰۱۱ کلمه ای داشت.
در ادامه، در دهه ۱۹۸۰، IBM یک ماشین تحریر فعال با صدا به نام Tangora را توسعه داد که از یک مدل پیش بینی آماری برای شناسایی کلمات با واژگان ۲۰۰۰۰ کلمه استفاده می کرد.
همچنین در سال ۱۹۹۶، IBM دوباره درگیر شد، این بار با VoiceType Simply Speaking، یک برنامه تشخیص گفتار که دارای واژگان ۴۲۰۰۰ کلمه بود، انگلیسی و اسپانیایی را پشتیبانی می کرد و شامل فرهنگ لغت املای ۱۰۰۰۰۰ کلمه بود.
و در آخر در دهه ۲۰۰۰، با دستیابی به سرعت تشخیص گفتار نزدیک به ۸۰٪، دستیارهای صوتی (که معمولاً به آنها دستیار دیجیتال نیز گفته می شود) در صدر قرار گرفتند، اولین بار Google Voice که چند سال بعد با عرضه سیری و آمازون همراه با الکسا عرضه شد.
چگونه کار می کند
طیف گستردهای از برنامهها و دستگاههای تشخیص گفتار در دسترس هستند، با راهحلهای پیشرفتهتر اکنون از هوش مصنوعی (AI) و یادگیری ماشینی استفاده میشود که معمولا بر اساس مدل های زیر هستند:
مدلهای آکوستیک
تمایز بین سیگنال صوتی و واجها (واحدهای صدا) را ممکن میسازد.
مدلهای تلفظ
تعیین چگونگی ترکیب واجها برای ساختن کلمات.
مدلهای زبان
تطبیق صداها با دنبالههای کلمات به منظور تمایز بین کلماتی که صداهای یکسان دارند.
در ابتدا، مدل پنهان مارکوف (HMM) به طور گسترده ای به عنوان یک رویکرد مدل سازی آکوستیک پذیرفته شد. با این حال، تا حد زیادی با شبکه های عصبی عمیق جایگزین شده است. استفاده از یادگیری عمیق در تشخیص گفتار تأثیر قابل توجهی در کاهش میزان خطای کلمات داشته است.
میزان خطای کلمه
یک عامل کلیدی در فناوری تشخیص گفتار، میزان دقت آن است که معمولاً به عنوان نرخ خطای کلمه (WER) شناخته می شود. تعدادی از عوامل می توانند بر WER تأثیر بگذارند، برای مثال الگوهای مختلف گفتار، سبک های گفتاری، زبان ها، لهجه ها و عبارات. چالش الگوریتمهای نرمافزاری که صدا را در متن پردازش و سازماندهی میکنند، رسیدگی به این موارد است، در حالی که میتوانند صدای گفتاری را از نویز پسزمینه که اغلب همراه سیگنال است، جدا کنند.
کاربرد تشخیص گفتار
به لطف لپ تاپ ها، تبلت ها و گوشی های هوشمند، همراه با توسعه سریع هوش مصنوعی، نرم افزار تشخیص گفتار وارد تمام جنبه های زندگی روزمره ما شده است. مثالها عبارتند از:
دستیاران مجازی
با طیف وسیعی از پلتفرمهای مختلف ادغام میشوند و ما را قادر میسازند فقط با صحبت کردن به دستگاههای خود فرمان دهیم. در سطح شخصی، نمونه هایی مانند سیری، الکسا و دستیار گوگل هستند. در دفتر می توان از آن ها برای تکمیل کار کارکنان انسانی با بر عهده گرفتن مسئولیت کارهای تکراری و وقت گیر استفاده کرد و به کارکنان اجازه داد تا انرژی خود را بر روی فعالیت های با اولویت بیشتر متمرکز کنند.
جستجوی صوتی
فنآوری تشخیص گفتار نه تنها بر نحوه انجام وظایف روزانه مشاغل تأثیر میگذارد، بلکه بر نحوه دسترسی مشتریان به آنها نیز تأثیر میگذارد. جستجوی صوتی معمولاً در دستگاههایی مانند تلفنهای هوشمند، لپتاپها و تبلتها استفاده میشود و به کاربران اجازه میدهد به جای تایپ درخواست خود در موتور جستجو، یک عبارت جستجوی صوتی را وارد کنند. تفاوت بین پرس و جوهای گفتاری و تایپ شده می تواند باعث نتایج متفاوت SERP (صفحه نتایج موتور جستجو) شود، زیرا نحوه صحبت کردن ما کلمات کلیدی جستجوی صوتی جدیدی را ایجاد می کند که بیشتر از کلمات کلیدی تایپ شده محاوره ای هستند.
راه حل های گفتار به متن
و در نهایت، مهم ترین حوزه از نظر کاربران تجاری، نرم افزار گفتار به متن است. این حوزه به سرعت در حال رشد است، به دلیل در دسترس بودن راهحلهای مبتنی بر ابر که کاربران را قادر میسازد تا به نسخههای کاملاً ویژه گفتار به برنامههای متنی از تلفنهای هوشمند یا تبلتها بدون در نظر گرفتن مکانشان دسترسی داشته باشند. علاوه بر این، فناوری تشخیص گفتار میتواند کارهای تکراری را کاهش دهد و حرفهایها را آزاد کند تا از زمان خود به نحو مؤثرتری استفاده کنند، در حالی که به کسبوکارها اجازه میدهد با خودکارسازی فرآیندها و انجام سریعتر وظایف اداری، در هزینههای خود صرفهجویی کنند.
پست های توصیه شده
کلان داده
14 مهر, 1402
تحول دیجیتال
14 مهر, 1402
تجزیه و تحلیل داده ها
14 مهر, 1402