Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής

Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Μουντζούρης, Κωνσταντίνος
Άλλοι συγγραφείς:	Mountzouris, Konstantinos
Γλώσσα:	Greek
Έκδοση:	2021
Θέματα:	Βαθιά μάθηση Μηχανική μάθηση Αναγνώριση συναισθήματος από ομιλία Ανάλυση συναισθήματος Δίκτυα πεποίθησης μεγάλου βάθους Βαθιά νευρωνικά δίκτυα Συνελικτικά νευρωνικά δίκτυα Νευρώνες μακράς-βραχείας μνήμης Μηχανισμός προσοχής Deep learning Machine learning Speech emotion recognition Sentiment analysis Deep belief networks Deep neural networks Convolutional neural networks LSTM Attention mechanism
Διαθέσιμο Online:	http://hdl.handle.net/10889/14893

Περιγραφή
Περίληψη:	Η διπλωματική αυτή εργασία ασχολείται με θέματα βαθιάς μάθησης. Πιο συγκεκριμένα, ασχολείται με την αναγνώριση συναισθήματος από την ομιλία μέσω της υλοποίησης Βαθύ Συνελικτικού Νευρωνικού Δικτύου. Αρχικά, ξεκινάμε παρουσιάζοντας βασικές τεχνικές της βαθιάς μάθησης, όπως τα Δίκτυα Πεποίθησης Μεγάλου Βάθους (Deep Belief Networks) που αποτελούν επέκταση της Περιορισμένης Μηχανής Boltzmann ((Restricted Boltzmann Machine - RBM)), τα Αναδρομικά Νευρωνικά Δίκτυα (Recurrent Neural Networks) που προέρχονται από τα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks) που βασίζονται επίσης στα Νευρωνικά Δίκτυα Εμπρόσθιας τροφοδότησης (Feedforward Neural Networks), καθώς και τους Αυτόματους Κωδικοποιητές (Auto Encoders). Στη συνέχεια, παρουσιάζουμε τις κατηγορίες των Συναισθηματικών Μοντέλων, οι οποίες διακρίνονται στο Κατηγορηματικό μοντέλο, στο μοντέλο του Τροχού και στο μοντέλο των Διαστάσεων (Valence-Arousal-Dominance Model), για το οποίο ως διαστάσεις θεωρούνται το Σθένος (που ερμηνεύεται ως ευχαρίστηση-δυσαρέσκεια ενός συναισθήματος), ο βαθμός Διέγερσης και η Κυριαρχία-Υποτακτικότητα του εκφραζόμενου συναισθήματος. Ύστερα, αναφέρουμε κάποιες ευρέως χρησιμοποιούμενες Βάσεις Δεδομένων οι οποίες χρησιμοποιούν κάποια από τα παραπάνω μοντέλα Συναισθημάτων. Στο κεντρικό κομμάτι της διπλωματικής δίνουμε έμφαση στα Συνελικτικά Νευρωνικά Δίκτυα για την αναγνώριση συναισθήματος από την ομιλία. Για την ανάδειξη της συνεισφοράς τους στην αναγνώριση συναισθήματος παρουσιάζονται 6 διαφορετικές τεχνικές βαθιάς μάθησης, μία υλοποίηση Δικτύου Πεποίθησης Μεγάλου Βάθους, μία απλή υλοποίηση βαθύ νευρωνικού δικτύου, μία υλοποίηση βαθύ LSTM δικτύου, μία υλοποίηση βαθύ LSTM δικτύου με προσθήκη μηχανισμού προσοχής, μία υλοποίηση Συνελικτικού νευρωνικού δικτύου και τέλος μία υλοποίηση Συνελικτικού νευρωνικού δικτύου με προσθήκη μηχανισμού προσοχής. Επίσης, είναι σημαντικό να αναφέρουμε ότι για τη βελτίωση της ικανότητας γενίκευσης (αποτροπή overfitting) των μοντέλων καθώς και για την επιτάχυνση της διαδικασίας εκπαίδευσης χρησιμοποιούνται οι τεχνικές κανονικοποίησης Dropout και Batch Normalization. Τέλος, παρουσιάζουμε τα συμπεράσματά μας βάσει των αποτελεσμάτων από τις γραφικές και τις μετρικές που εξήχθησαν.

Αναγνώριση συναισθήματος από ομιλία με χρήση συνελικτικού νευρωνικού δικτύου και μηχανισμού προσοχής

Παρόμοια τεκμήρια