Türkçe Konuşma Sentezleme Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama

Mustafa Sami CÜCEN,Saadin Oyucu,Hüseyin Polat

INTERNATIONAL JOURNAL OF INFORMATICS TECHNOLOGIES(2023)

引用 0|浏览0
暂无评分
摘要
Konuşma sentezleme (TTS: Text-to-Speech) sistemleri insan-bilgisayar etkileşiminin önemli bir parçasıdır. TTS işleminde bir dizi metne karşılık gelen bir dizi spektrogram tahmin edilmektedir. Elde edilen spektrogram dizisi insanların duyabileceği ses dalga formuna dönüştürülmektedir. TTS sistemlerinin başarısı, geliştirme kaynaklarının yetersizliği nedeni ile farklı diller için aynı düzeyde değildir. Bir TTS sisteminin verimli şekilde geliştirilebilmesi için ulaşılabilir, büyük boyutlu bir konuşma veri kümesine ihtiyaç duyulmaktadır. Türkçe gibi kaynak yetersizliği olan diller için konuşma veri kümelerinin eksikliği, TTS sistemleri geliştirmenin önündeki en büyük engellerden biridir. Büyük boyutlu bir veri kümesi hazırlama oldukça zaman alan, zorlu ve maliyetli bir görevdir. Bu çalışmada, Türkçe TTS sistemlerinin geliştirilmesinde kullanılabilecek bir veri kümesi hazırlanmıştır. Daha önceden hazırlanan metin verisi, bir erkek konuşmacı tarafından İstanbul Türkçesi kullanılarak duygudan bağımsız olarak seslendirilmiştir. Metin verisi 109.826 kelime içermektedir. Seslendirilen konuşma verisi yaklaşık 12 saat 38 dakika 59 saniye uzunluğundadır ve 22.050 Hz. örnekleme frekansında kaydedilmiştir. Türkçe için hazırlanan bu veri kümesi daha önce İngilizce için hazırlanmış ve başarılı sonuçlar elde edilmiş “The LJ Speech Dataset” isimli veri kümesi ile karşılaştırılmış ve gelecekteki çalışmalar için öneriler sunulmuştur. Bu veri kümesi akademik düzeyde Türkçe TTS çalışmalarını teşvik etmek için hazırlanmıştır. Hazırlanan Türkçe veri kümesinin performans durumunu gözlemlemek için GlowTTS modeli bu veri kümesi kullanılarak eğitilmiştir. Eğitilen GlowTTS modeli ile bir Türkçe TTS sistemi geliştirilmiştir. Geliştirilen Türkçe TTS sistemi kullanılarak sentezlenen konuşmalar ile doğal konuşmaların karşılaştırılması sonucu 2,12’lik bir MOS-LQO değeri elde edilmiştir. Elde edilen ilk sonuçlar hazırlanan veri kümesinin Türkçe TTS sistemi geliştirme çalışmalarına etkin bir katkı sağladığını göstermektedir.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要