Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής
Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/14893 |
id |
nemertes-10889-14893 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Βαθιά μάθηση Μηχανική μάθηση Αναγνώριση συναισθήματος από ομιλία Ανάλυση συναισθήματος Δίκτυα πεποίθησης μεγάλου βάθους Βαθιά νευρωνικά δίκτυα Συνελικτικά νευρωνικά δίκτυα Νευρώνες μακράς-βραχείας μνήμης Μηχανισμός προσοχής Deep learning Machine learning Speech emotion recognition Sentiment analysis Deep belief networks Deep neural networks Convolutional neural networks LSTM Attention mechanism |
spellingShingle |
Βαθιά μάθηση Μηχανική μάθηση Αναγνώριση συναισθήματος από ομιλία Ανάλυση συναισθήματος Δίκτυα πεποίθησης μεγάλου βάθους Βαθιά νευρωνικά δίκτυα Συνελικτικά νευρωνικά δίκτυα Νευρώνες μακράς-βραχείας μνήμης Μηχανισμός προσοχής Deep learning Machine learning Speech emotion recognition Sentiment analysis Deep belief networks Deep neural networks Convolutional neural networks LSTM Attention mechanism Μουντζούρης, Κωνσταντίνος Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
description |
Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου Βάθους (Deep Belief Networks) που αποτελούν επέκταση της Περιορισμένης Μηχανής Boltzmann ((Restricted Boltzmann Machine -
RBM)), τα Αναδρομικά Νευρωνικά Δίκτυα (Recurrent Neural Networks) που προέρχονται από τα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks) που βασίζονται επίσης στα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), καθώς και τους Αυτόματους Κωδικοποιητές (Auto Encoders). Στη συνέχεια, παρουσιάζουμε τις κατηγορίες των Συναισθηματικών Μοντέλων, οι οποίες διακρίνονται στο Κατηγορηματικό μοντέλο, στο μοντέλο του Τροχού και στο μοντέλο των Διαστάσεων (Valence-Arousal-Dominance Model), για το οποίο ως διαστάσεις θεωρούνται το Σθένος (που ερμηνεύεται ως ευχαρίστηση-δυσαρέσκεια ενός συναισθήματος), ο βαθμός Διέγερσης και η Κυριαρχία-Υποτακτικότητα του εκφραζόμενου συναισθήματος. Ύστερα, αναφέρουμε κάποιες ευρέως χρησιμοποιούμενες Βάσεις Δεδομένων οι οποίες χρησιμοποιούν κάποια από τα παραπάνω μοντέλα Συναισθημάτων. Στο κεντρικό κομμάτι της διπλωματικής δίνουμε έμφαση στα Συνελικτικά Νευρωνικά Δίκτυα για την αναγνώριση συναισθήματος από την ομιλία. Για την ανάδειξη της συνεισφοράς τους στην αναγνώριση συναισθήματος παρουσιάζονται 6 διαφορετικές τεχνικές βαθιάς μάθησης, μία υλοποίηση Δικτύου Πεποίθησης Μεγάλου Βάθους, μία απλή υλοποίηση βαθύ νευρωνικού δικτύου, μία υλοποίηση βαθύ LSTM δικτύου, μία υλοποίηση βαθύ LSTM δικτύου με προσθήκη μηχανισμού προσοχής, μία υλοποίηση Συνελικτικού νευρωνικού δικτύου και τέλος μία υλοποίηση Συνελικτικού νευρωνικού δικτύου με προσθήκη μηχανισμού προσοχής. Επίσης, είναι σημαντικό να αναφέρουμε ότι για τη βελτίωση της ικανότητας γενίκευσης (αποτροπή overfitting) των μοντέλων καθώς και για την επιτάχυνση της διαδικασίας εκπαίδευσης χρησιμοποιούνται οι τεχνικές κανονικοποίησης Dropout και Batch Normalization. Τέλος, παρουσιάζουμε τα συμπεράσματά μας βάσει των αποτελεσμάτων από τις γραφικές και τις μετρικές που εξήχθησαν. |
author2 |
Mountzouris, Konstantinos |
author_facet |
Mountzouris, Konstantinos Μουντζούρης, Κωνσταντίνος |
author |
Μουντζούρης, Κωνσταντίνος |
author_sort |
Μουντζούρης, Κωνσταντίνος |
title |
Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
title_short |
Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
title_full |
Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
title_fullStr |
Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
title_full_unstemmed |
Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
title_sort |
αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/14893 |
work_keys_str_mv |
AT mountzourēskōnstantinos anagnōrisēsynaisthēmatosapoomiliamechrēsēsyneliktikouneurōnikoudiktyoukaimēchanismouprosochēs AT mountzourēskōnstantinos speechemotionrecognitionusingconvolutionalneuralnetworkandattentionmechanism |
_version_ |
1799945015527473152 |
spelling |
nemertes-10889-148932022-09-06T05:12:49Z Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής Speech emotion recognition using convolutional neural network and attention mechanism Μουντζούρης, Κωνσταντίνος Mountzouris, Konstantinos Βαθιά μάθηση Μηχανική μάθηση Αναγνώριση συναισθήματος από ομιλία Ανάλυση συναισθήματος Δίκτυα πεποίθησης μεγάλου βάθους Βαθιά νευρωνικά δίκτυα Συνελικτικά νευρωνικά δίκτυα Νευρώνες μακράς-βραχείας μνήμης Μηχανισμός προσοχής Deep learning Machine learning Speech emotion recognition Sentiment analysis Deep belief networks Deep neural networks Convolutional neural networks LSTM Attention mechanism Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου Βάθους (Deep Belief Networks) που αποτελούν επέκταση της Περιορισμένης Μηχανής Boltzmann ((Restricted Boltzmann Machine - RBM)), τα Αναδρομικά Νευρωνικά Δίκτυα (Recurrent Neural Networks) που προέρχονται από τα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks) που βασίζονται επίσης στα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), καθώς και τους Αυτόματους Κωδικοποιητές (Auto Encoders). Στη συνέχεια, παρουσιάζουμε τις κατηγορίες των Συναισθηματικών Μοντέλων, οι οποίες διακρίνονται στο Κατηγορηματικό μοντέλο, στο μοντέλο του Τροχού και στο μοντέλο των Διαστάσεων (Valence-Arousal-Dominance Model), για το οποίο ως διαστάσεις θεωρούνται το Σθένος (που ερμηνεύεται ως ευχαρίστηση-δυσαρέσκεια ενός συναισθήματος), ο βαθμός Διέγερσης και η Κυριαρχία-Υποτακτικότητα του εκφραζόμενου συναισθήματος. Ύστερα, αναφέρουμε κάποιες ευρέως χρησιμοποιούμενες Βάσεις Δεδομένων οι οποίες χρησιμοποιούν κάποια από τα παραπάνω μοντέλα Συναισθημάτων. Στο κεντρικό κομμάτι της διπλωματικής δίνουμε έμφαση στα Συνελικτικά Νευρωνικά Δίκτυα για την αναγνώριση συναισθήματος από την ομιλία. Για την ανάδειξη της συνεισφοράς τους στην αναγνώριση συναισθήματος παρουσιάζονται 6 διαφορετικές τεχνικές βαθιάς μάθησης, μία υλοποίηση Δικτύου Πεποίθησης Μεγάλου Βάθους, μία απλή υλοποίηση βαθύ νευρωνικού δικτύου, μία υλοποίηση βαθύ LSTM δικτύου, μία υλοποίηση βαθύ LSTM δικτύου με προσθήκη μηχανισμού προσοχής, μία υλοποίηση Συνελικτικού νευρωνικού δικτύου και τέλος μία υλοποίηση Συνελικτικού νευρωνικού δικτύου με προσθήκη μηχανισμού προσοχής. Επίσης, είναι σημαντικό να αναφέρουμε ότι για τη βελτίωση της ικανότητας γενίκευσης (αποτροπή overfitting) των μοντέλων καθώς και για την επιτάχυνση της διαδικασίας εκπαίδευσης χρησιμοποιούνται οι τεχνικές κανονικοποίησης Dropout και Batch Normalization. Τέλος, παρουσιάζουμε τα συμπεράσματά μας βάσει των αποτελεσμάτων από τις γραφικές και τις μετρικές που εξήχθησαν. This dissertation deals with issues of deep learning. More specifically, it deals with Speech Emotion Recognition through the implementation of a Deep Convolutional Neural Network. We begin by introducing basic deep learning techniques, such as Deep Belief Networks, which are an extension of the Restricted Boltzmann Machine (RBM), Recurrent Neural Networks, that came from the Feedforward Neural Networks, Convolutional Neural Networks, also based on the Feedforward Neural Networks, as well as Auto Encoders. Next, we present the categories of Emotional models, which are distinguished in the Categorical model, the Wheel model and the Dimensional Model, for which Dimensions are considered the Valence (which is interpreted as pleasure-dissatisfaction of an emotion), the Arousal (degree of Stimulation) and the Dominance-Submissiveness of the expressed emotion. Next, we list some widely used Datasets that use some of the above Emotion models. In the central part of this dissertation we emphasize the Convolutional Neural Networks for Speech Emotion Recognition. To highlight their contribution to Speech Emotion Recognition, 6 different deep learning techniques are presented, a Deep Belief Network implementation, a simple deep neural network implementation a deep LSTM network implementation, a deep LSTM network implementation with with the addition of an attention mechanism, a Convolutional neural network implementation and finally a Convolutional neural network implementation with the addition of an attention mechanism. It is also important to mention that Dropout and Batch Normalization techniques are used to improve the generalization ability (prevention of overfitting) of the models as well as to speed up the training process. Finally, we present our conclusions based on the results from the graphs and metrics that were extracted. 2021-07-02T08:51:22Z 2021-07-02T08:51:22Z 2021-03-01 http://hdl.handle.net/10889/14893 gr application/pdf |