Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition

In recent years the field of Sentiment Analysis, and by extension Emotion Recognition, has been met with increased interest due to the rise of social media. Making machines capable of automatically recognizing emotions will be a vital task, as well as a milestone, in Human-Computer Interaction in th...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καρδάκης, Σπυρίδων
Άλλοι συγγραφείς: Kardakis, Spyridon
Γλώσσα:English
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15802
id nemertes-10889-15802
record_format dspace
institution UPatras
collection Nemertes
language English
topic Emotion recognition
Sentiment analysis
Machine learning
Deep learning
Convolutional neural networks
Classification
Multimodal emotion recognition
Facial emotion recognition
Big data
Αναγνώριση συναισθημάτων
Μηχανική μάθηση
Βαθιά μάθηση
Συνελικτικά νευρωνικά δίκτυα
Αλγόριθμοι κατηγοριοποίησης
Πολυτροπική αναγνώριση συναισθημάτων
Αναγνώριση εκφράσεων προσώπου
spellingShingle Emotion recognition
Sentiment analysis
Machine learning
Deep learning
Convolutional neural networks
Classification
Multimodal emotion recognition
Facial emotion recognition
Big data
Αναγνώριση συναισθημάτων
Μηχανική μάθηση
Βαθιά μάθηση
Συνελικτικά νευρωνικά δίκτυα
Αλγόριθμοι κατηγοριοποίησης
Πολυτροπική αναγνώριση συναισθημάτων
Αναγνώριση εκφράσεων προσώπου
Καρδάκης, Σπυρίδων
Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
description In recent years the field of Sentiment Analysis, and by extension Emotion Recognition, has been met with increased interest due to the rise of social media. Making machines capable of automatically recognizing emotions will be a vital task, as well as a milestone, in Human-Computer Interaction in the coming years. Most of the early works focused on data of a single modality, such as a product review or a facial expression. More recent efforts have focused on multimodal fusion since human emotion is expressed through multiple modalities, specifically text, facial expressions and voice. As one can imagine, since recognition of the emotional state of a person can be a very challenging task even for humans, it is even more complex for automated methods, and as a result effective Emotion Recognition is required. In this thesis we study and present the field of Emotion Recognition in-depth. Initially, background topics, related works, methods and approaches are presented for each of the modalities, namely Textual Emotion Recognition and Facial Emotion Recognition. The use of deep learning techniques in the field skyrocketed the performance of classification methods and are the main direction that is currently pursued by researchers, introducing a variety of challenges. In terms of the methodology proposed in this work, a wide variety of architectures and approaches are implemented, leading to different models for the text and the image aspect of the system. Then, the field of Multimodal Emotion Recognition is presented, including its theory and literature. The main goal is to realize an end-to-end deep learning pipeline, in order to address the problem of understanding human emotions and improve the accuracy over the traditional standalone models. An important aspect of the field that is explored is the fusion of modalities which is often performed through a fusion at the feature and/or decision-level. The task at hand is supervised classification. Two additional topics showcased in this work are attention mechanisms and a systematic review of the available datasets in the Emotion Recognition domain. In order to explore the performance of the proposed models in recognizing peoples’ emotions we implement them and evaluate them on a variety of real-world datasets. Thus, we come to conclusions regarding their overall emotion recognition accuracy, when compared to each other, as well as when compared to state-of-the-art approaches. Furthermore, the proposed approach is adapted to a more practical environment by implementing a novel real-world system for Multimodal Emotion Recognition. The user is given the option to enter multiple types of inputs and receives emotion predictions. Overall, we effectively illustrate the different facets of analysis that are performed in the task of Multimodal Emotion Recognition. From the experimental results it is observed that the proposed models consisting of Recurrent and Convolutional Neural Networks achieve very high performance as well as proving that they are potent and suitable tools for practical real-world emotion recognition.
author2 Kardakis, Spyridon
author_facet Kardakis, Spyridon
Καρδάκης, Σπυρίδων
author Καρδάκης, Σπυρίδων
author_sort Καρδάκης, Σπυρίδων
title Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
title_short Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
title_full Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
title_fullStr Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
title_full_unstemmed Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
title_sort multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition
publishDate 2022
url http://hdl.handle.net/10889/15802
work_keys_str_mv AT kardakēsspyridōn multimodalemotionrecognitionusingdeeplearningtechniquesanovelsystemforrealworldemotionrecognition
AT kardakēsspyridōn polytropikēanagnōrisēsynaisthēmatōnmechrēsētechnikōndeeplearningenaneosystēmagiapraktikēanagnōrisēsynaisthēmatos
_version_ 1771297161941614592
spelling nemertes-10889-158022022-09-05T05:38:53Z Multimodal emotion recognition using deep learning techniques : a novel system for real-world emotion recognition Πολυτροπική αναγνώριση συναισθημάτων με χρήση τεχνικών deep learning : ένα νέο σύστημα για πρακτική αναγνώριση συναισθήματος Καρδάκης, Σπυρίδων Kardakis, Spyridon Emotion recognition Sentiment analysis Machine learning Deep learning Convolutional neural networks Classification Multimodal emotion recognition Facial emotion recognition Big data Αναγνώριση συναισθημάτων Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Αλγόριθμοι κατηγοριοποίησης Πολυτροπική αναγνώριση συναισθημάτων Αναγνώριση εκφράσεων προσώπου In recent years the field of Sentiment Analysis, and by extension Emotion Recognition, has been met with increased interest due to the rise of social media. Making machines capable of automatically recognizing emotions will be a vital task, as well as a milestone, in Human-Computer Interaction in the coming years. Most of the early works focused on data of a single modality, such as a product review or a facial expression. More recent efforts have focused on multimodal fusion since human emotion is expressed through multiple modalities, specifically text, facial expressions and voice. As one can imagine, since recognition of the emotional state of a person can be a very challenging task even for humans, it is even more complex for automated methods, and as a result effective Emotion Recognition is required. In this thesis we study and present the field of Emotion Recognition in-depth. Initially, background topics, related works, methods and approaches are presented for each of the modalities, namely Textual Emotion Recognition and Facial Emotion Recognition. The use of deep learning techniques in the field skyrocketed the performance of classification methods and are the main direction that is currently pursued by researchers, introducing a variety of challenges. In terms of the methodology proposed in this work, a wide variety of architectures and approaches are implemented, leading to different models for the text and the image aspect of the system. Then, the field of Multimodal Emotion Recognition is presented, including its theory and literature. The main goal is to realize an end-to-end deep learning pipeline, in order to address the problem of understanding human emotions and improve the accuracy over the traditional standalone models. An important aspect of the field that is explored is the fusion of modalities which is often performed through a fusion at the feature and/or decision-level. The task at hand is supervised classification. Two additional topics showcased in this work are attention mechanisms and a systematic review of the available datasets in the Emotion Recognition domain. In order to explore the performance of the proposed models in recognizing peoples’ emotions we implement them and evaluate them on a variety of real-world datasets. Thus, we come to conclusions regarding their overall emotion recognition accuracy, when compared to each other, as well as when compared to state-of-the-art approaches. Furthermore, the proposed approach is adapted to a more practical environment by implementing a novel real-world system for Multimodal Emotion Recognition. The user is given the option to enter multiple types of inputs and receives emotion predictions. Overall, we effectively illustrate the different facets of analysis that are performed in the task of Multimodal Emotion Recognition. From the experimental results it is observed that the proposed models consisting of Recurrent and Convolutional Neural Networks achieve very high performance as well as proving that they are potent and suitable tools for practical real-world emotion recognition. Τα τελευταία χρόνια το πεδίο της αναγνώρισης συναισθημάτων έχει συναντήσει επαυξημένο ενδιαφέρον λόγω της ανόδου των μέσων κοινωνικής δικτύωσης. Η δημιουργία υπολογιστικών συστημάτων ικανών να αναγνωρίζουν αυτόματα τα συναισθήματα θα είναι ένα έργο ζωτικής σημασίας και θα αποτελέσει ορόσημο, στην αλληλεπίδραση ανθρώπου-υπολογιστή τα επόμενα χρόνια. Οι περισσότερες εκ των πρώτων εργασιών επικεντρώθηκαν σε δεδομένα μονοτροπικού τύπου, όπως μια κριτική προϊόντος ή μια έκφραση του προσώπου. Πιο πρόσφατες προσπάθειες έχουν επικεντρωθεί στην πολυτροπική συγχώνευση, καθώς το ανθρώπινο συναίσθημα εκφράζεται μέσω πολλαπλών τρόπων, συγκεκριμένα μέσω κειμένου, εκφράσεων του προσώπου και φωνής. Όπως μπορούμε να φανταστούμε, δεδομένου ότι η αναγνώριση της συναισθηματικής κατάστασης ενός ατόμου είναι πρακτικά ένα πολύ δύσκολο έργο ακόμη και για τον άνθρωπο, αποτελεί ακόμη πιο περίπλοκο έργο για αυτοματοποιημένες μεθόδους, και ως εκ τούτου καθιστά την επίτευξη αποτελεσματικής αναγνώρισης συναισθημάτων απαραίτητη. Στην παρούσα διπλωματική εργασία μελετάται και παρουσιάζεται σε βάθος το πεδίο της αναγνώρισης συναισθήματος. Αρχικά, παρουσιάζεται η θεωρία, η σχετική βιβλιογραφία, οι μέθοδοι και οι προσεγγίσεις για κάθε έναν από τους τρόπους, δηλαδή συγκεκριμένα για την αναγνώριση συναισθημάτων σε κείμενο και την αναγνώριση εκφράσεων προσώπου. Η χρήση τεχνικών deep learning στον τομέα ανέβασε σημαντικά την απόδοση των μεθόδων ταξινόμησης και είναι η κύρια κατεύθυνση που εξετάζουν σήμερα οι ερευνητές, εισάγοντας με αυτό τον τρόπο μια πληθώρα προκλήσεων. Όσον αφορά τη μεθοδολογία η οποία προτείνεται σε αυτή την εργασία, εφαρμόζεται μια μεγάλη ποικιλία αρχιτεκτονικών και προσεγγίσεων, οι οποίες οδηγούν σε διαφορετικά μοντέλα για το κομμάτι του συστήματος που αφορά το κείμενο σε σχέση με αυτό που αφορά την εικόνα. Στη συνέχεια, παρουσιάζεται το πεδίο της πολυτροπικής αναγνώρισης συναισθημάτων, συμπεριλαμβανομένης της θεωρίας και της βιβλιογραφίας του. Ο κύριος στόχος είναι η υλοποίηση ενός συστήματος deep learning από άκρο σε άκρο, προκειμένου να επιλυθεί το πρόβλημα της κατανόησης ανθρώπινων συναισθημάτων και να βελτιωθεί η ακρίβεια σε σύγκριση με παραδοσιακά αυτόνομα μοντέλα. Μια σημαντική πτυχή του πεδίου η οποία διερευνάται είναι η συγχώνευση τρόπων κάτι που κατά κύριο λόγο εκτελείται μέσω συγχώνευσης σε επίπεδο χαρακτηριστικών και/ή σε επίπεδο απόφασης. Το έργο που καλούμαστε να επιτελέσουμε είναι επιβλεπόμενη κατηγοριοποίηση. Δύο επιπρόσθετα θέματα τα οποία παρουσιάζονται σε αυτή την εργασία είναι οι μηχανισμοί attention καθώς και μια αναλυτική έρευνα των διαθέσιμων datasets στον τομέα της αναγνώρισης συναισθημάτων. Προκειμένου να διερευνήσουμε την απόδοση των προτεινόμενων μοντέλων στην αναγνώριση συναισθημάτων, τα υλοποιούμε και τα αξιολογούμε σε μια ποικιλία συνόλων δεδομένων πραγματικού κόσμου. Έτσι καταλήγουμε σε συμπεράσματα σχετικά με τη συνολική τους ακρίβεια στην αναγνώρισης συναισθημάτων, όταν συγκρίνονται μεταξύ τους, καθώς και όταν συγκρίνονται με μοντέλα που αποτελούν την τελευταία λέξη την τεχνολογίας (state-of-the-art). Επιπλέον, η προτεινόμενη προσέγγιση προσαρμόζεται σε ένα πιο πρακτικό περιβάλλον, υλοποιώντας ένα νέο σύστημα πραγματικού κόσμου για πολυτροπική αναγνώριση συναισθημάτων. Ο χρήστης έχει τη δυνατότητα να εισάγει διάφορους τύπους εισόδου και να λάβει μια πρόβλεψη συναισθήματος. Συνολικά, απεικονίζουμε τις διάφορες πτυχές της ανάλυσης που εκτελούνται κατά την πολυτροπική αναγνώριση συναισθημάτων. Από τα πειραματικά αποτελέσματα παρατηρείται ότι τα προτεινόμενα μοντέλα που αποτελούνται από Recurrent και Convolutional Neural Networks επιτυγχάνουν πολύ υψηλή απόδοση, αποδεικνύοντας ότι είναι ισχυρά και κατάλληλα εργαλεία για πρακτική αναγνώριση συναισθημάτων στον πραγματικό κόσμο. 2022-02-18T12:23:10Z 2022-02-18T12:23:10Z 2021-07-08 http://hdl.handle.net/10889/15802 en_US application/pdf