Prosody modelling using machine learning techniques for neutral and emotional speech synthesis
In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task. The SVR model outperformed all the other...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | English |
Έκδοση: |
2011
|
Θέματα: | |
Διαθέσιμο Online: | http://nemertes.lis.upatras.gr/jspui/handle/10889/4553 |
id |
nemertes-10889-4553 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
Phone duration modelling Prosody modelling Speech synthesis Machine learning Neutral speech Emotional speech Πρόβλεψη διάρκειας φωνημάτων Μοντελοποίηση προσωδίας Σύνθεση ομιλίας Μηχανική μάθηση Ουδέτερη ομιλία Συναισθηματική ομιλία Μηχανές υποστήριξης διανυσμάτων 006.31 |
spellingShingle |
Phone duration modelling Prosody modelling Speech synthesis Machine learning Neutral speech Emotional speech Πρόβλεψη διάρκειας φωνημάτων Μοντελοποίηση προσωδίας Σύνθεση ομιλίας Μηχανική μάθηση Ουδέτερη ομιλία Συναισθηματική ομιλία Μηχανές υποστήριξης διανυσμάτων 006.31 Λαζαρίδης, Αλέξανδρος Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
description |
In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task.
The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used.
The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individual model (SVR). Furthermore the SVR-fusion model managed to reduce the outliers in respect to the best individual model (SVR).
Moreover, the proposed two-stage scheme using individual phone duration models as feature constructors in the first stage and feature vector extension (FVE) in the second stage, implemented with SVR (SVR-FVE), improved the prediction accuracy over the best individual predictor (SVR), and the SVR-fusion scheme and moreover managed to reduce the outliers in respect to the other two proposed schemes (SVR and SVR-fusion). The SVR two-stage scheme confirms in this way their advantage over all the other algorithms of coping well with high-dimensionality feature sets. The improved accuracy of phone duration modelling contributes to a better control of the prosody, and thus quality of synthetic speech.
Furthermore, the first proposed method (SVR) was also evaluated on the phone duration modelling task in emotional speech, outperforming all the state-of-the-art models in all the emotional categories.
Finally, perceptual tests were performed evaluating the impact of the proposed phone duration models to synthetic speech. The perceptual test for both the databases confirmed the results of objective tests showing the improvement achieved by the proposed models in the naturalness of synthesized speech. |
author2 |
Φακωτάκης, Νικόλαος |
author_facet |
Φακωτάκης, Νικόλαος Λαζαρίδης, Αλέξανδρος |
format |
Thesis |
author |
Λαζαρίδης, Αλέξανδρος |
author_sort |
Λαζαρίδης, Αλέξανδρος |
title |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
title_short |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
title_full |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
title_fullStr |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
title_full_unstemmed |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
title_sort |
prosody modelling using machine learning techniques for neutral and emotional speech synthesis |
publishDate |
2011 |
url |
http://nemertes.lis.upatras.gr/jspui/handle/10889/4553 |
work_keys_str_mv |
AT lazaridēsalexandros prosodymodellingusingmachinelearningtechniquesforneutralandemotionalspeechsynthesis AT lazaridēsalexandros montelopoiēsēprosōdiasmechrēsētechnikōnmēchanikēsmathēsēsstaplaisiaoudeterēskaisynaisthēmatikēssynthetikēsomilias |
_version_ |
1771297282972450817 |
spelling |
nemertes-10889-45532022-09-05T20:44:10Z Prosody modelling using machine learning techniques for neutral and emotional speech synthesis Μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας Λαζαρίδης, Αλέξανδρος Φακωτάκης, Νικόλαος Μουτζόπουλος, Ιωάννης Δερματάς, Ευάγγελος Αναστασόπουλος, Βασίλειος Μπερμπερίδης, Κωνσταντίνος Κουρουπέτρογλου, Γεώργιος Παλιουράς, Βασίλειος Φακωτάκης, Νικόλαος Lazaridis, Alexandros Phone duration modelling Prosody modelling Speech synthesis Machine learning Neutral speech Emotional speech Πρόβλεψη διάρκειας φωνημάτων Μοντελοποίηση προσωδίας Σύνθεση ομιλίας Μηχανική μάθηση Ουδέτερη ομιλία Συναισθηματική ομιλία Μηχανές υποστήριξης διανυσμάτων 006.31 In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task. The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used. The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individual model (SVR). Furthermore the SVR-fusion model managed to reduce the outliers in respect to the best individual model (SVR). Moreover, the proposed two-stage scheme using individual phone duration models as feature constructors in the first stage and feature vector extension (FVE) in the second stage, implemented with SVR (SVR-FVE), improved the prediction accuracy over the best individual predictor (SVR), and the SVR-fusion scheme and moreover managed to reduce the outliers in respect to the other two proposed schemes (SVR and SVR-fusion). The SVR two-stage scheme confirms in this way their advantage over all the other algorithms of coping well with high-dimensionality feature sets. The improved accuracy of phone duration modelling contributes to a better control of the prosody, and thus quality of synthetic speech. Furthermore, the first proposed method (SVR) was also evaluated on the phone duration modelling task in emotional speech, outperforming all the state-of-the-art models in all the emotional categories. Finally, perceptual tests were performed evaluating the impact of the proposed phone duration models to synthetic speech. The perceptual test for both the databases confirmed the results of objective tests showing the improvement achieved by the proposed models in the naturalness of synthesized speech. Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν στο χώρο της τεχνολογίας ομιλίας, με στόχο την μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας. Μελετήθηκαν τρεις καινοτόμες μέθοδοι μοντελοποίησης προσωδίας, οι οποίες αξιολογήθηκαν με αντικειμενικά τεστ και με υποκειμενικά τεστ ποιότητας ομιλίας για την συνεισφορά τους στην βελτίωση της ποιότητα της συνθετικής ομιλίας: Η πρώτη τεχνική μοντελοποίησης διάρκειας φωνημάτων, βασίζεται στην μοντελοποίηση με χρήση Μηχανών Υποστήριξης Διανυσμάτων (Support Vector Regression – SVR). Η μέθοδος αυτή δεν έχει χρησιμοποιηθεί έως σήμερα στην πρόβλεψη διάρκειας φωνημάτων. Η μέθοδος αυτή συγκρίθηκε και ξεπέρασε σε απόδοση όλες τις μεθόδους της επικρατούσας τεχνολογίας (state-of-the-art) στη μοντελοποίηση της διάρκειας φωνημάτων. Η δεύτερη τεχνική, βασίζεται στην μοντελοποίηση διάρκειας φωνημάτων με συνδυαστικό μοντέλο πολλαπλών προβλέψεων. Συγκεκριμένα, οι προβλέψεις διάρκειας φωνημάτων από ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων χρησιμοποιούνται ως είσοδος σε ένα μοντέλο μηχανικής μάθησης, το οποίο συνδυάζει τις εξόδους από τα ανεξάρτητα μοντέλα πρόβλεψης και επιτυγχάνει μοντελοποίηση της διάρκειας φωνημάτων με μεγαλύτερη ακρίβεια, μειώνοντας επιπλέον και τα μεγάλα σφάλματα (outliers), δηλαδή τα σφάλματα που βρίσκονται μακριά από το μέσο όρο των σφαλμάτων. Η τρίτη τεχνική, είναι μια μέθοδος μοντελοποίησης διάρκειας φωνημάτων δύο σταδίων με κατασκευή νέων χαρακτηριστικών και επέκταση του διανύσματος χαρακτηριστικών. Συγκεκριμένα, στο πρώτο στάδιο, ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων που χρησιμοποιούνται ως παραγωγοί νέων χαρακτηριστικών εμπλουτίζουν το διάνυσμα χαρακτηριστικών. Στο δεύτερο στάδιο, το εμπλουτισμένο διάνυσμα χρησιμοποιείται για να εκπαιδευτεί ένα μοντέλο πρόβλεψης διάρκειας φωνημάτων το οποίο επιτυγχάνει υψηλότερη απόδοση σε σχέση με όλες τις προηγούμενες μεθόδους, και μειώνει τα μεγάλα σφάλματα. Επιπλέον εφαρμόστηκε η πρώτη μέθοδος σε συναισθηματική ομιλία. Το προτεινόμενο SVR μοντέλο επιτυγχάνει την υψηλότερη απόδοση συγκρινόμενο με όλα τα state-of-the-art μοντέλα. Τέλος, πραγματοποιήθηκαν υποκειμενικά τεστ ποιότητας ομιλίας ώστε να αξιολογηθεί η συνεισφορά των τριών προτεινόμενων μεθόδων στη βελτίωση της ποιότητας της συνθετικής ομιλίας. Τα τεστ αυτά επιβεβαίωσαν την αξία των προτεινόμενων μεθόδων και τη συνεισφορά τους στη βελτίωση της ποιότητας στην συνθετική ομιλία. 2011-08-11T06:03:19Z 2011-08-11T06:03:19Z 2011-02-01 2011-08-11T06:03:19Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/4553 en Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. 6 application/pdf |