Farsi Speech Synthesis Using Pitch Frequency in Flite Software

Document Type : Original Article

Authors

1 Electronic Group, Semnan Branch, Islamic Azad University, Semnan, Iran

2 Young Researchers and Elite Club, Semnan Branch, Islamic Azad University, Semnan, Iran

Abstract

This survey introduces a model and the implementation of a speech synthesizer in Farsi language using Flite software. In this approach, the mean and the standard deviation of pitch frequency of each voiced phoneme are first calculated by a database of Farsi sentences (Fars Dat). Then, the changes of each phoneme of the desired phrase are inserted into the software through the calculation of a value. The main feature of this synthesizer is its ability to change text to speech within Farsi pronunciation and in Farsi dialect. At the end of this paper, the results of this algorithm are compared to the changes of pitch frequencies extracted from the database of Farsi sentences. Some examples of the sentences from the database are also synthesized using our proposed method on Flite Software. The value of MOS test for understandability, naturalness and good sounding of those sentences are 4.4, 4.2, and 4.6 for the training set, respectively, and 4.2, 4.1, and 4.3 for the test set, respectively.

Keywords

Main Subjects


[1] A. B. Black and K. A. Lenzo, Building synthetic voices, For FestVox 2.1 Edition, 2007.
[2] محمدمهدی همایون پور، محمد ایزدی، «تبدیل حرف به صدا در سیستم‌های تبدیل متن به گفتار فارسی با استفاده از درخت‌های تصمیم‌گیری CART»، دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، 1385.
[3] R. Kurzweil, The singularity is near, Penguin Books, ISBN 9-303788-14-0, 2005.
[4] A.B. Black and K.A. Lenzo, Flite: a small, fast speech synthesis engine, System documentation Edition 1.3, for Flite version 1.3, 2005.
[5] A. B. Black, P. Taylor and R. Caley, The Festival Speech Synthesis System, [Online], Available: http://www.cstr.ed.ac.uk/projects/festival.-html, 1998.
[6] محمدمهدی همایون پور، مجید نم نبات، «تبدیل حرف به صدا در زبان فارسی به کمک شبکه‌های عصبی پرسپترون چندلایه‌ای»، فصلنامه مهندسی برق و مهندسی کامپیوتر ایران، شماره 3، صفحات 147-154، پائیز 1386.
[7] محمدمهدی همایون پور، سیدمصطفی موسوی، «تولید پارامترهای سنتز گفتار فارسی با استفاده از مدل‌های مخفی مارکوف و درخت تصمیم‌گیری»، نشریه علمی - پژوهشی انجمن کامپیوتر ایران، شماره 1 و 3 (الف)، صفحات 19-30، بهار و پائیز 1383.
[8] Y. Sagisaka, “Speech synthesis from text,” IEEE Commun. Mag., pp. 35-41, 1990.
[9] منصور شیخان نصیرزاده. مجید و دفتریان. علی، «طراحی و پیاده‌سازی سیستم تبدیل متن به گفتار طبیعی برای زبان فارسی»، مجله علمی- پژوهشی دانشکده مهندسیدانشگاه فردوسی مشهد، شماره 2، صفحات 31-48، 1384.
[10] محمدمهدی همایون پور، آرمین سلیمی بدر، «تعیین مرز و نوع عبارات نحوی در متون فارسی»، فصلنامه علمی - پژوهشی پردازش علائم و داده‌ها، شماره 2، صفحات 69-86، 1392.
[11] N. Thorensen, “Sentence intonation in textual context-supplementary data,” J. Acoust. Soc. Am., vol. 80, no. 4, pp. 1041-1047, 1986.
[12] Y. Sagisaka, “On the prediction of global F0 shape for Japanese TTS,” In Proc. ICASSP, USA, pp. 325-328, 1990.
[13] J. Buhmann, et al. “Intonation modeling for the synthesis of structured documents,” In Proc. ICSLP, USA, pp. 2089-2092, 2002.
[14] M. Riedi, “A neural-network-based model of segmental duration for speech synthesis,” In Proc. Eurospeech, Spain, pp. 599-602, 1995.
[15] Z. Yiqing, “Syllable duration and its functions in standard Chinese discourse,” In Proc. ICSLP, p. 1097, China, 2000.
[16] C.L. Smith, “Modeling durational variability in reading aloud a connected text,” In Proc. ICSLP, pp. 1769-1772, USA, 2002.
[17] Y. Sagisaka, and Sato H. “Accentuation rules in Japanese TTS conversion,” Rev. Elect. Commun. Lab., vol. 32, no. 2, pp. 188-199, 1984.
[18] P. H. Low and S. Vaseghi, “Application of microprosody models in TTS synthesis,” In Proc. ICSLP, pp. 2413-2416, USA, 2002.
[19] Y. Hifny. and M. Rashwan, “Duration modeling for Arabic TTS synthesis,” In Proc. ICSLP, pp. 1773-1776, 2002.
[20] A. Breen, “Speech synthesis models: a review,” Elect. Commun. Engng. J., pp. 19-31, 1992.
[21] سیدسعید آیت، طراحی و پیاده‌سازی سیستم تولید گفتار فارسی با تأکید بر بهبود هرچه بیشتر کیفیت گفتار تولیدشده، پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، ۱۳۷۹.
[22] S. Lemmetty, Review of Speech Synthesis Technology, Master Thesis, Helsinki University of Technology, 1999.