سنتز گفتار فارسی با استفاده از فرکانس گام در نرم‌افزار Flite

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه مهندسی برق، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران

2 باشگاه پژوهشگران جوان و نخبگان، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران

چکیده

در این پژوهش، طراحی و پیاده‌سازی سنتز کننده گفتار به زبان فارسی با استفاده از نرم‌افزار Flite ارائه شده است. بدین طریق که ابتدا توسط پایگاه داده جملات فارسی فارس‌دات، میانگین و انحراف معیار فرکانس گام و بزرگترین فرکانس گام هر واج واک‌دار را به‌دست می‌آوریم. سپس تغییرات هر واج عبارت موردنظر را از طریق محاسبه مقدار ارزش آن با توجه به فرمول ارائه شده پیشنهادی، در نرم‌افزار وارد می‌کنیم. ویژگی این سنتز کننده، تبدیل متن به گفتار با لهجه و تلفظ فارسی می‌باشد. در انتهای این مقاله، نتایج حاصل از اجرای الگوریتم پیشنهادی با منحنی فرکانس‌های گام به‌دست آمده توسط پایگاه داده جملات فارسی فارس‌دات، مقایسه شده است. همچنین، در این پژوهش چند نمونه از جملات زبان فارسی مربوط به پایگاه داده جملات فارسی فارس‌دات، با استفاده از روش پیشنهادی بر روی نرم‌افزار Flite، مورد سنتز قرارگرفته است. آزمون‌های شنیداری، برای میزان قابل‌فهم بودن، طبیعی بودن و خوشایند بودن جملات مذکور انجام شده است که نتایج آن‌ها برای جملات آموزش به‌ترتیب 4.4، 4.2 و 4.6 می‌باشد. همچنین برای جملات مجموعه آزمون، به‌ترتیب برابر 4.2، 4.1 و 4.3 می‌باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Farsi Speech Synthesis Using Pitch Frequency in Flite Software

نویسندگان [English]

  • F. Naiemi 1
  • V. Ghods 2
1 Electronic Group, Semnan Branch, Islamic Azad University, Semnan, Iran
2 Young Researchers and Elite Club, Semnan Branch, Islamic Azad University, Semnan, Iran
چکیده [English]

This survey introduces a model and the implementation of a speech synthesizer in Farsi language using Flite software. In this approach, the mean and the standard deviation of pitch frequency of each voiced phoneme are first calculated by a database of Farsi sentences (Fars Dat). Then, the changes of each phoneme of the desired phrase are inserted into the software through the calculation of a value. The main feature of this synthesizer is its ability to change text to speech within Farsi pronunciation and in Farsi dialect. At the end of this paper, the results of this algorithm are compared to the changes of pitch frequencies extracted from the database of Farsi sentences. Some examples of the sentences from the database are also synthesized using our proposed method on Flite Software. The value of MOS test for understandability, naturalness and good sounding of those sentences are 4.4, 4.2, and 4.6 for the training set, respectively, and 4.2, 4.1, and 4.3 for the test set, respectively.

کلیدواژه‌ها [English]

  • Text to speech
  • speech synthesizer
  • Farsi (Persian)
  • pitch frequency
  • Flite software
[1] A. B. Black and K. A. Lenzo, Building synthetic voices, For FestVox 2.1 Edition, 2007.
[2] محمدمهدی همایون پور، محمد ایزدی، «تبدیل حرف به صدا در سیستم‌های تبدیل متن به گفتار فارسی با استفاده از درخت‌های تصمیم‌گیری CART»، دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، 1385.
[3] R. Kurzweil, The singularity is near, Penguin Books, ISBN 9-303788-14-0, 2005.
[4] A.B. Black and K.A. Lenzo, Flite: a small, fast speech synthesis engine, System documentation Edition 1.3, for Flite version 1.3, 2005.
[5] A. B. Black, P. Taylor and R. Caley, The Festival Speech Synthesis System, [Online], Available: http://www.cstr.ed.ac.uk/projects/festival.-html, 1998.
[6] محمدمهدی همایون پور، مجید نم نبات، «تبدیل حرف به صدا در زبان فارسی به کمک شبکه‌های عصبی پرسپترون چندلایه‌ای»، فصلنامه مهندسی برق و مهندسی کامپیوتر ایران، شماره 3، صفحات 147-154، پائیز 1386.
[7] محمدمهدی همایون پور، سیدمصطفی موسوی، «تولید پارامترهای سنتز گفتار فارسی با استفاده از مدل‌های مخفی مارکوف و درخت تصمیم‌گیری»، نشریه علمی - پژوهشی انجمن کامپیوتر ایران، شماره 1 و 3 (الف)، صفحات 19-30، بهار و پائیز 1383.
[8] Y. Sagisaka, “Speech synthesis from text,” IEEE Commun. Mag., pp. 35-41, 1990.
[9] منصور شیخان نصیرزاده. مجید و دفتریان. علی، «طراحی و پیاده‌سازی سیستم تبدیل متن به گفتار طبیعی برای زبان فارسی»، مجله علمی- پژوهشی دانشکده مهندسیدانشگاه فردوسی مشهد، شماره 2، صفحات 31-48، 1384.
[10] محمدمهدی همایون پور، آرمین سلیمی بدر، «تعیین مرز و نوع عبارات نحوی در متون فارسی»، فصلنامه علمی - پژوهشی پردازش علائم و داده‌ها، شماره 2، صفحات 69-86، 1392.
[11] N. Thorensen, “Sentence intonation in textual context-supplementary data,” J. Acoust. Soc. Am., vol. 80, no. 4, pp. 1041-1047, 1986.
[12] Y. Sagisaka, “On the prediction of global F0 shape for Japanese TTS,” In Proc. ICASSP, USA, pp. 325-328, 1990.
[13] J. Buhmann, et al. “Intonation modeling for the synthesis of structured documents,” In Proc. ICSLP, USA, pp. 2089-2092, 2002.
[14] M. Riedi, “A neural-network-based model of segmental duration for speech synthesis,” In Proc. Eurospeech, Spain, pp. 599-602, 1995.
[15] Z. Yiqing, “Syllable duration and its functions in standard Chinese discourse,” In Proc. ICSLP, p. 1097, China, 2000.
[16] C.L. Smith, “Modeling durational variability in reading aloud a connected text,” In Proc. ICSLP, pp. 1769-1772, USA, 2002.
[17] Y. Sagisaka, and Sato H. “Accentuation rules in Japanese TTS conversion,” Rev. Elect. Commun. Lab., vol. 32, no. 2, pp. 188-199, 1984.
[18] P. H. Low and S. Vaseghi, “Application of microprosody models in TTS synthesis,” In Proc. ICSLP, pp. 2413-2416, USA, 2002.
[19] Y. Hifny. and M. Rashwan, “Duration modeling for Arabic TTS synthesis,” In Proc. ICSLP, pp. 1773-1776, 2002.
[20] A. Breen, “Speech synthesis models: a review,” Elect. Commun. Engng. J., pp. 19-31, 1992.
[21] سیدسعید آیت، طراحی و پیاده‌سازی سیستم تولید گفتار فارسی با تأکید بر بهبود هرچه بیشتر کیفیت گفتار تولیدشده، پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، ۱۳۷۹.
[22] S. Lemmetty, Review of Speech Synthesis Technology, Master Thesis, Helsinki University of Technology, 1999.