هوش مصنوعی مشکلات گفتاری را شناسایی می کند

اقتصاد ایران: با کمک هوش مصنوعی ابزاری توسعه داده شده تا مشکلات گفتار و زبان در کودکان زودتر امکانپذیر شود.

به گزارش خبرگزاری اقتصاد ایران  به نقل از فیز، از قابلیت تبدیل صدا به متن در موبایل گرفته تا زیرنویس‌هایی که ویدیوها را قابل‌دسترس‌تر می‌کنند، تبدیل گفتار به نوشتار در زندگی روزمره جا افتاده است. در پشت صحنه، هوش مصنوعی کارهای سنگین را انجام می‌دهد و کلام گفتاری را با سرعت و دقتی که زمانی غیرممکن به نظر می‌رسید، به متن تبدیل می‌کند.

در همین راستا ابر رایانه Lonestar۶ در مرکز رایانش پیشرفته تگزاس به محققان گفتارشناسی دانشگاه تگزاس در دالاس امکان داد مرزهای شناسایی خودکار زبان(ASR) برای کودکان را ارتقا دهند. پژوهشگران با ابداع انتزاعات ریاضی به نام «واحدهای گفتاری گسسته» از صدا به عنوان نوعی رمزگذاری ناشناس، می‌توانند مشکلات گفتار و زبان را در کودکان خردسال شناسایی و مداخل پزشکی سریع‌تری را برای کمک به آنها فراهم کنند.

ساتویک داتا، دانشجوی دکترای مدرسه مهندسی و علوم کامپیوتر اریک جانسون و بورسیه تحصیلات تکمیلی یوجین مک‌درموت در دانشگاه تگزاس در دالاس می گوید:هدف ما این است که بتوانیم نحوه‌ صحبت کردن کودکان را درک و تحلیل کنیم.

وی در این باره می افزاید:طی سال‌ها، توسعه چنین سیستم‌هایی به خصوص برای کودکان بسیار چالش‌برانگیز بوده است. زیرا کودکان به خصوص کمتر از هشته سال سن هنوز در حال یادگیری مهارت‌های گفتاری و صوتی خود هستند و دانش شان از دستور زبان هم کامل نیست. گفتار آن‌ها تفاوت زیادی با داده‌های گفتاری بزرگسالان دارد که اغلب برای آموزش سیستم‌های ASR متن‌باز استفاده می‌شود و این باعث می‌شود عملکرد مدل‌ها در تشخیص گفتار کودکان ضعیف باشد.

این پروژه با همکاری چند محقق دیگر انجام شد. وقتی پروژه در دوران محدودیت‌های مربوط به کووید-۱۹ آغاز شد، پژوهشگران تنها به مجموعه داده‌های موجود از بیش از هزار کودک دسترسی داشتند که از طریق هدست‌ها در جلسات آموزشی مجازی ضبط شده بود. پس از کاهش محدودیت‌ها، آنها توانستند داده‌های جدیدی را در محیط‌های واقعی جمع‌آوری کند و کودکان پیش‌دبستانی را در محیط‌های پرسر و صدای مراکز مراقبت روزانه با استفاده از دستگاه ضبط کوچکی به نام «لنا» ثبت کنند. این دستگاه به‌طور مخفیانه در جیب تی‌شرت سفارشی آن‌ها قرار گرفته بود.

تحقیق مذکور وجهه ای جدید از تشخیص گفتار خودکار با استفاده از واحدهای گسسته گفتار را بررسی می کند، که می‌توان آنها را به عنوان نمایش‌های انتزاعی ریاضی از گفتار در نظر گرفت. نکته کلیدی این است که تولید توالی خروجی از واحدهای گسسته گفتار، عملا امکان بازگشت به عقب و بازسازی موج اصلی گفتار را غیرممکن و در نتیجه درجه‌ای از حفاظت حریم خصوصی را فراهم می‌کند.

به گفته داتا به محض اینکه گفتار بارگذاری شود، می‌توان آن را به واحدهای گسسته گفتار تبدیل کرد، و در این حالت دیگر نگرانی از بابت نقض حریم خصوصی وجود ندارد، زیرا گفتار اصلی دیگر وجود ندارد و امکان تولید آن مجدداً وجود ندارد.

فرآیند تبدیل به واحدهای گسسته گفتار، لایه‌های افزونگی داده‌ای را حذف کرده و نیازهای کلی آموزش و محاسباتی مدل تشخیص گفتار خودکار (ASR) را کاهش می‌دهد.

نظرات کاربران

  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط خبرگزاری در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.

نرخ ارز

عنوان عنوان قیمت قیمت تغییر تغییر نمودار نمودار
دلار خرید 24759 0 (0%)
یورو خرید 28235 0 (0%)
درهم خرید 6741 0 (0%)
دلار فروش 24984 0 (0%)
یورو فروش 28492 0 (0%)
درهم فروش 6803 0 (0%)
عنوان عنوان قیمت قیمت تغییر تغییر نمودار نمودار
دلار 285000 0.00 (0%)
یورو 300325 0.00 (0%)
درهم امارات 77604 0 (0%)
یوآن چین 41133 0 (0%)
لیر ترکیه 16977 0 (0%)
ﺗﻐﯿﯿﺮات ﺑﺎ ﻣﻮﻓﻘﯿﺖ اﻧﺠﺎم ﺷﺪ