ارائه روشی مبتنی بر یادگیری عمیق جهت واژه‌یابی در گفتار فارسی

نوع مقاله : مقاله پژوهشی

نویسنده

گروه فتا، دانشکده اطلاعات و آگاهی، دانشگاه جامع علوم انتظامی امین

چکیده

با توسعه فناوری‌، تحلیل بر روی گفتار انسان توسط ماشین‌های هوشمند، رشد زیادی پیداکرده است، یکی از پیشنیازها، واژه‌یابی در گفتار است. سیستم های واژه‌یاب وجود و یا عدم وجود کلمات کلیدی را در گفتار بررسی می کند ولی به دلیل ناکافی بودن مجموعه داده، منابع پردازشی، وجود نویزها و ... توسعه‌ یک سیستم واژه‌یاب ایده آل با دقت بالا دشوار است. در این پژوهش با ضبط 42 ساعت از گفتار افراد مختلف به‌صورت اختصاصی در کنار سایر دادگان موجود در این حوزه و با اتکا بر روی الگوریتم‌های شبکه عصبی عمیق طراحی، آموزش و ارزیابی گردید که می‌تواند دقت واژه‌یابی و تولید یک متن متناظر با گفتار را افزایش دهد، معماری و روش پیشنهادی در دو قسمت تشکیل شده قسمت اول، طوری طراحی‌شده که هدفش تولید واج متناظر با گفتار، بدون داشتن اطلاعات مدل زبانی است ولی قسمت دوم با لایه-های متعدد و داشتن مدل زبانی سعی در تولید یک متن صحیح با توجه به دامنه زبان فارسی دارد. روش پیشنهادی ترکیبی ارائه‌شده با دقت 88.01% می‌تواند کلیدواژه‌های موجود در گفتار را تشخیص و با دقت 99.80% عدم وجود واژه‌ها را مشخص نماید و دقت بالاتری نسبت به کارهای مشابه داشته باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A deep learning method for voice word spotting in Persian language

نویسنده [English]

  • Hossein Sahlani
Amin university
چکیده [English]

Abstract: With the development of technologies related to audio data recording and transmission, as well as the advancement of artificial intelligence science, the analysis of human speech by intelligent machines has grown greatly. One of the most important technologies in speech processing in the last decade has been word search in audio. By receiving keywords from the user, the word search system can check the presence or absence of that word in the audio file and report the result to the user. Due to the insufficient data set, it is difficult to develop an ideal software that can find all the user's words exist in the audio. In this research, by collecting 42 hours of Persian audio data along with other data available in this field and relying on deep neural network algorithms were designed, trained and evaluated. These two architectures are complementary and can increase the accuracy of word search. First architecture is designed in such a way that its goal is to produce the phoneme corresponding to the sound, without having the information of the language model, but the second architecture with multiple layers and having a language model tries to produce a correct text according to the domain of the Persian language. The presented combined proposed method can detect the keywords in the audio with 88.01% accuracy and determine the absence of words with 99.80% accuracy and has higher accuracy than similar methods.

کلیدواژه‌ها [English]

  • Audio to text conversion
  • audio word search
  • Persian audio corpus
  • speech processing
  • deep neural networks