Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης
Η ανάπτυξη της τεχνητής νοημοσύνης, τα τελευταία χρόνια, έχει αποτελέσει σημαντικό πυλώνα στην εξέλιξη συστημάτων και εφαρμογών σε διάφορους επιστημονικούς και τεχνικούς τομείς. ΄Ενας από αυτούς τους τομείς είναι η όραση των υπολογιστών(Computer Vision). Ο τομέας αυτός αφορά την επίλυση προβλημάτων...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/16435 |
id |
nemertes-10889-16435 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Τεχνητή νοημοσύνη Αναγνώριση έκφρασης προσώπου Βαθιά μάθηση Νευρωνικά δίκτυα με κάψουλες Artificial intelligence Facial expression recognition Deep learning Capsule network |
spellingShingle |
Τεχνητή νοημοσύνη Αναγνώριση έκφρασης προσώπου Βαθιά μάθηση Νευρωνικά δίκτυα με κάψουλες Artificial intelligence Facial expression recognition Deep learning Capsule network Αποστολάτος, Σπυρίδων Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
description |
Η ανάπτυξη της τεχνητής νοημοσύνης, τα τελευταία χρόνια, έχει αποτελέσει σημαντικό πυλώνα στην εξέλιξη συστημάτων και εφαρμογών σε διάφορους επιστημονικούς και τεχνικούς τομείς. ΄Ενας από αυτούς τους τομείς είναι η όραση των υπολογιστών(Computer Vision). Ο τομέας αυτός αφορά την επίλυση προβλημάτων αναγνώρισης προτύπων σε οπτικά μέσα όπως εικόνες και βίντεο.
Το αντικείμενο της συγκεκριμένης διπλωματικής εργασίας πραγματεύεται την αναγνώριση της συναισθηματικής κατάστασης ενός ανθρώπου, μέσω των εκφράσεων του
προσώπου του από εικόνες. Η επίλυση αυτού του προβλήματος μπορεί να έχει σημαντικά οφέλη στον τομέα της επικοινωνίας ανθρώπου - υπολογιστή. Ο τομέας αυτός έχει
ως αντικείμενο την εξερεύνηση του τρόπου με τον οποίο οι άνθρωποι χρησιμοποιούν
τους υπολογιστές με σκοπό τον σχεδιασμό συστημάτων που επιτυγχάνουν τη βελτίωση της εμπειρίας του χρήστη και της καλύτερης διάδρασής του με έναν υπολογιστή.
Αυτό μπορεί να συμβεί καθώς η επικοινωνία με συναισθηματικά όντα είναι δυνατόν να
γίνει πιο εύκολη εφόσον αναγνωριστεί η συναισθηματική τους κατάσταση.
Η αναγνώριση συναισθημάτων βρίσκει εφαρμογές σε διάφορους τομείς και μπορεί να βοηθήσει στην ανάπτυξη πολλών και διαφόρων συστημάτων. Μια συνεισφορά
θα μπορούσε να είναι η ανάπτυξη λογισμικού για αυτοκινούμενα οχήματα, όπως συστήματα προειδοποιήσεων του οδηγού. Για παράδειγμα, θα μπορούσαν να αναπτυχθούν
συστήματα που αξιολογούν την κούραση του οδηγού ή το κατά πόσον βρίσκεται σε
κατάσταση μέθης. Μια άλλη εφαρμογή θα μπορούσε να είναι η δημιουργία πιο αποτελεσματικών ρομπότ, τόσο σε επίπεδο κοινωνικότητας όσο και σε επίπεδο εξυπηρέτησης
πελατών. Κατ΄ επέκταση γίνεται δυνατό να δημιουργηθούν βελτιωμένα συστήματα αυτοματοποιημένης διδασκαλίας και αυτοματοποιημένα τραπεζικά συστήματα. Επίσης, η
αναγνώριση συναισθημάτων θα μπορούσε να διευκολύνει την κατασκευή έξυπνων περιβαλλόντων, όπως έξυπνες πόλεις και έξυπνα σπίτια. Θα μπορούσαν ακόμα να βοηθηθούν τομείς που απαιτούν την αναπαράσταση εκφράσεων προσώπου όπως η ανακατασκευή βίντεο και η δημιουργία avatar animation. Τέλος, η αναγνώριση συναισθημάτων
μπορεί να βρει εφαρμογή και σε άλλα επιστημονικά πεδία όπως το neuromarketing και
τον προσδιορισμό κατάστασης ψυχικής υγείας.
Ο στόχος αυτής της εργασίας είναι η εξερεύνηση και η σύγκριση διαφόρων μεθόδων,
για την επίλυση του θέματος της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Πιο
συγκεκριμένα η εργασία εστιάζει στην κατηγοριοποίηση των φωτογραφιών του fer2013
στα 7 βασικά ανθρώπινα συναισθήματα, που είναι θυμός, αηδία, φόβος, χαρά, λύπη, έκπληξη και ουδέτερη έκφραση με χρήση τεχνητής νοημοσύνης. Με βάση τα παραπάνω,
πραγματοποιήθηκε εκτεταμένη έρευνα πάνω σε υλοποιήσεις και τεχνικές για αυτό το
σύνολο δεδομένων, εξετάστηκαν τέσσερα επιτυχημένα μοντέλα βαθιάς μάθησης και αναπτύχθηκε ένα μοντέλο μηχανικής μάθησης και τέσσερα μοντέλα νευρωνικών δικτύων
με κάψουλες.
Το μοντέλο μηχανικής μάθησης χρησιμοποιεί μηχανή διανυσμάτων υποστήριξης
(support vector machine) και έχει σαν καλύτερο αποτέλεσμα το 46,5%. ΄Οπως είναι
λογικό όλες οι υλοποιήσεις βαθιάς μάθησης, που εξετάστηκαν, αποτελούν υλοποιήσεις
συνελικτικών νευρωνικών δικτύων (convolutional neural networks), καθώς αποτελούν τα πιο επιτυχημένα μοντέλα κατηγοριοποίησης εικόνων. Το πρώτο μοντέλο βαθιάς μάθησης χρησιμοποιεί τη γνωστή αρχιτεκτονική VGG που αποτελείται από κλασσικά επίπεδα επεξεργασίας συνελικτικών νευρωνικών δικτύων και έχει σαν καλύτερο
αποτέλεσμα το 71,6%. Το δεύτερο μοντέλο βαθιάς μάθησης είναι ένα δίκτυο με τεχνικές πολλαπλών μοντέλων πρόβλεψης(Ensemble), που χρησιμοποιεί επτά μοντέλα με
αρχιτεκτονικές βασισμένες στα ResNet50,SeNet50 και VGG16 και έχει σαν καλύτερο αποτέλεσμα το 74,42%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Residual
Masking Network και η ιδιαιτερότητά του είναι ότι χρησιμοποιεί Residual Masking
Block. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 73,307%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Self-curing Network και η ιδιαιτερότητά του είναι ότι
χρησιμοποιεί έναν μηχανισμό τροποποίησης των λάθος ετικετών(labels) του συνόλου
δεδομένων. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 63,49%. Το πρώτο
μοντέλο νευρωνικών δικτύων με κάψουλες που αναπτύχθηκε αποτελεί μια τροποποίηση
του baseline μοντέλου για το MNIST και έχει σαν καλύτερο αποτέλεσμα το 48,08%.
Τα υπόλοιπα μοντέλα αποτελούν τροποποιήσεις του baseline μοντέλου. Στο δεύτερο
μοντέλο προστέθηκε ένα επίπεδο κανονικοποίησης παρτίδας και έχει σαν καλύτερο αποτέλεσμα το 47,18%. Στο τρίτο μοντέλο και τέταρτο μοντέλο προστέθηκαν ένα και
δύο συνελικτικά επίπεδα αντίστοιχα. Τα αποτελέσματα για αυτές τις δύο υλοποιήσεις
ανέρχονται στο 49,21% και 49,91%.
Η δομή της παρούσας διπλωματικής εργασίας αποτελείται από πέντε κεφάλαια. Στο
πρώτο κεφάλαιο παρουσιάζεται το θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα, καθώς και τα προβλήματα που δυσχεραίνουν την επίτευξη αυτού του στόχου.
Ακόμα περιλαμβάνεται μια επεξήγηση για τις έννοιες της τεχνητής νοημοσύνης, της
μηχανικής μάθησης, της βαθιάς μάθησης και των νευρωνικών δικτύων με κάψουλες.
Στο δεύτερο κεφάλαιο γίνεται αναφορά σε σχετικές δουλειές, από άλλους ερευνητές,
πάνω στο θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Το τρίτο κεφάλαιο
περιέχει την επεξήγηση της θεωρίας για της διάφορες τεχνικές και τεχνολογίες που
χρησιμοποιήθηκαν. Στο τέταρτο κεφάλαιο, αρχικά, πραγματοποιείται μια παρουσίαση
των δεδομένων που χρησιμοποιήθηκαν και ο τρόπος σκέψης που επιλέχθηκαν τα μοντέλα. Στη συνέχεια παρουσιάζονται οι διάφορες υλοποιήσεις που χρησιμοποιήθηκαν.
Στο πέμπτο και τελευταίο κεφάλαιο σχολιάζονται τα αποτελέσματα και γίνεται αναφορά
σε μελλοντική έρευνα. |
author2 |
Apostolatos, Spyridon |
author_facet |
Apostolatos, Spyridon Αποστολάτος, Σπυρίδων |
author |
Αποστολάτος, Σπυρίδων |
author_sort |
Αποστολάτος, Σπυρίδων |
title |
Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
title_short |
Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
title_full |
Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
title_fullStr |
Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
title_full_unstemmed |
Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
title_sort |
αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16435 |
work_keys_str_mv |
AT apostolatosspyridōn anagnōrisēsynaisthēmatōnseeikonesmechrēsētechnētēsnoēmosynēs AT apostolatosspyridōn staticfacialexpressionrecognitionwithuseofartificialintelligence |
_version_ |
1771297332163248128 |
spelling |
nemertes-10889-164352022-09-05T20:25:04Z Αναγνώριση συναισθημάτων σε εικόνες με χρήση τεχνητής νοημοσύνης Static facial expression recognition with use of artificial intelligence Αποστολάτος, Σπυρίδων Apostolatos, Spyridon Τεχνητή νοημοσύνη Αναγνώριση έκφρασης προσώπου Βαθιά μάθηση Νευρωνικά δίκτυα με κάψουλες Artificial intelligence Facial expression recognition Deep learning Capsule network Η ανάπτυξη της τεχνητής νοημοσύνης, τα τελευταία χρόνια, έχει αποτελέσει σημαντικό πυλώνα στην εξέλιξη συστημάτων και εφαρμογών σε διάφορους επιστημονικούς και τεχνικούς τομείς. ΄Ενας από αυτούς τους τομείς είναι η όραση των υπολογιστών(Computer Vision). Ο τομέας αυτός αφορά την επίλυση προβλημάτων αναγνώρισης προτύπων σε οπτικά μέσα όπως εικόνες και βίντεο. Το αντικείμενο της συγκεκριμένης διπλωματικής εργασίας πραγματεύεται την αναγνώριση της συναισθηματικής κατάστασης ενός ανθρώπου, μέσω των εκφράσεων του προσώπου του από εικόνες. Η επίλυση αυτού του προβλήματος μπορεί να έχει σημαντικά οφέλη στον τομέα της επικοινωνίας ανθρώπου - υπολογιστή. Ο τομέας αυτός έχει ως αντικείμενο την εξερεύνηση του τρόπου με τον οποίο οι άνθρωποι χρησιμοποιούν τους υπολογιστές με σκοπό τον σχεδιασμό συστημάτων που επιτυγχάνουν τη βελτίωση της εμπειρίας του χρήστη και της καλύτερης διάδρασής του με έναν υπολογιστή. Αυτό μπορεί να συμβεί καθώς η επικοινωνία με συναισθηματικά όντα είναι δυνατόν να γίνει πιο εύκολη εφόσον αναγνωριστεί η συναισθηματική τους κατάσταση. Η αναγνώριση συναισθημάτων βρίσκει εφαρμογές σε διάφορους τομείς και μπορεί να βοηθήσει στην ανάπτυξη πολλών και διαφόρων συστημάτων. Μια συνεισφορά θα μπορούσε να είναι η ανάπτυξη λογισμικού για αυτοκινούμενα οχήματα, όπως συστήματα προειδοποιήσεων του οδηγού. Για παράδειγμα, θα μπορούσαν να αναπτυχθούν συστήματα που αξιολογούν την κούραση του οδηγού ή το κατά πόσον βρίσκεται σε κατάσταση μέθης. Μια άλλη εφαρμογή θα μπορούσε να είναι η δημιουργία πιο αποτελεσματικών ρομπότ, τόσο σε επίπεδο κοινωνικότητας όσο και σε επίπεδο εξυπηρέτησης πελατών. Κατ΄ επέκταση γίνεται δυνατό να δημιουργηθούν βελτιωμένα συστήματα αυτοματοποιημένης διδασκαλίας και αυτοματοποιημένα τραπεζικά συστήματα. Επίσης, η αναγνώριση συναισθημάτων θα μπορούσε να διευκολύνει την κατασκευή έξυπνων περιβαλλόντων, όπως έξυπνες πόλεις και έξυπνα σπίτια. Θα μπορούσαν ακόμα να βοηθηθούν τομείς που απαιτούν την αναπαράσταση εκφράσεων προσώπου όπως η ανακατασκευή βίντεο και η δημιουργία avatar animation. Τέλος, η αναγνώριση συναισθημάτων μπορεί να βρει εφαρμογή και σε άλλα επιστημονικά πεδία όπως το neuromarketing και τον προσδιορισμό κατάστασης ψυχικής υγείας. Ο στόχος αυτής της εργασίας είναι η εξερεύνηση και η σύγκριση διαφόρων μεθόδων, για την επίλυση του θέματος της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Πιο συγκεκριμένα η εργασία εστιάζει στην κατηγοριοποίηση των φωτογραφιών του fer2013 στα 7 βασικά ανθρώπινα συναισθήματα, που είναι θυμός, αηδία, φόβος, χαρά, λύπη, έκπληξη και ουδέτερη έκφραση με χρήση τεχνητής νοημοσύνης. Με βάση τα παραπάνω, πραγματοποιήθηκε εκτεταμένη έρευνα πάνω σε υλοποιήσεις και τεχνικές για αυτό το σύνολο δεδομένων, εξετάστηκαν τέσσερα επιτυχημένα μοντέλα βαθιάς μάθησης και αναπτύχθηκε ένα μοντέλο μηχανικής μάθησης και τέσσερα μοντέλα νευρωνικών δικτύων με κάψουλες. Το μοντέλο μηχανικής μάθησης χρησιμοποιεί μηχανή διανυσμάτων υποστήριξης (support vector machine) και έχει σαν καλύτερο αποτέλεσμα το 46,5%. ΄Οπως είναι λογικό όλες οι υλοποιήσεις βαθιάς μάθησης, που εξετάστηκαν, αποτελούν υλοποιήσεις συνελικτικών νευρωνικών δικτύων (convolutional neural networks), καθώς αποτελούν τα πιο επιτυχημένα μοντέλα κατηγοριοποίησης εικόνων. Το πρώτο μοντέλο βαθιάς μάθησης χρησιμοποιεί τη γνωστή αρχιτεκτονική VGG που αποτελείται από κλασσικά επίπεδα επεξεργασίας συνελικτικών νευρωνικών δικτύων και έχει σαν καλύτερο αποτέλεσμα το 71,6%. Το δεύτερο μοντέλο βαθιάς μάθησης είναι ένα δίκτυο με τεχνικές πολλαπλών μοντέλων πρόβλεψης(Ensemble), που χρησιμοποιεί επτά μοντέλα με αρχιτεκτονικές βασισμένες στα ResNet50,SeNet50 και VGG16 και έχει σαν καλύτερο αποτέλεσμα το 74,42%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Residual Masking Network και η ιδιαιτερότητά του είναι ότι χρησιμοποιεί Residual Masking Block. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 73,307%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Self-curing Network και η ιδιαιτερότητά του είναι ότι χρησιμοποιεί έναν μηχανισμό τροποποίησης των λάθος ετικετών(labels) του συνόλου δεδομένων. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 63,49%. Το πρώτο μοντέλο νευρωνικών δικτύων με κάψουλες που αναπτύχθηκε αποτελεί μια τροποποίηση του baseline μοντέλου για το MNIST και έχει σαν καλύτερο αποτέλεσμα το 48,08%. Τα υπόλοιπα μοντέλα αποτελούν τροποποιήσεις του baseline μοντέλου. Στο δεύτερο μοντέλο προστέθηκε ένα επίπεδο κανονικοποίησης παρτίδας και έχει σαν καλύτερο αποτέλεσμα το 47,18%. Στο τρίτο μοντέλο και τέταρτο μοντέλο προστέθηκαν ένα και δύο συνελικτικά επίπεδα αντίστοιχα. Τα αποτελέσματα για αυτές τις δύο υλοποιήσεις ανέρχονται στο 49,21% και 49,91%. Η δομή της παρούσας διπλωματικής εργασίας αποτελείται από πέντε κεφάλαια. Στο πρώτο κεφάλαιο παρουσιάζεται το θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα, καθώς και τα προβλήματα που δυσχεραίνουν την επίτευξη αυτού του στόχου. Ακόμα περιλαμβάνεται μια επεξήγηση για τις έννοιες της τεχνητής νοημοσύνης, της μηχανικής μάθησης, της βαθιάς μάθησης και των νευρωνικών δικτύων με κάψουλες. Στο δεύτερο κεφάλαιο γίνεται αναφορά σε σχετικές δουλειές, από άλλους ερευνητές, πάνω στο θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Το τρίτο κεφάλαιο περιέχει την επεξήγηση της θεωρίας για της διάφορες τεχνικές και τεχνολογίες που χρησιμοποιήθηκαν. Στο τέταρτο κεφάλαιο, αρχικά, πραγματοποιείται μια παρουσίαση των δεδομένων που χρησιμοποιήθηκαν και ο τρόπος σκέψης που επιλέχθηκαν τα μοντέλα. Στη συνέχεια παρουσιάζονται οι διάφορες υλοποιήσεις που χρησιμοποιήθηκαν. Στο πέμπτο και τελευταίο κεφάλαιο σχολιάζονται τα αποτελέσματα και γίνεται αναφορά σε μελλοντική έρευνα. The development of artificial intelligence, in recent years, has been an important pillar in the development of systems and applications in various scientific and technical fields. One of these areas is Computer Vision. This area deals with pattern recognition problems in visual media such as images and videos. The subject of this thesis is the recognition of the emotional state of a person, through his facial expressions, from images. The solution to this problem may have significant benefits in the field of human-computer interaction. The purpose of this field is to explore the way in which humans use computers in order to design systems that achieve improvement of the user experience and better interaction with a computer. This can happen as communication with emotional beings becomes easier once their emotional state is recognized. Emotion recognition finds applications in various fields and can assist in the development of many systems. A contribution could be the development of software for autonomous vehicles such as driver warning systems. For example, the development of systems that assess driver fatigue or if the driver is intoxicated. Another application could be the creation of more effective robots regarding both sociability and customer service. As a result, it is possible to create improved automated tutoring systems and automated banking systems. Also, recognizing emotions could facilitate to the construction of smart environments such as smart cities and smart homes. Areas requiring replication of facial expressions could also be assisted such as video reconstruction and the creation of avatar animations. Finally, emotion recognition can be applied to other scientific fields such as neuromarketing and the diagnosing of mental health conditions. The purpose of this dissertation is to explore and compare different methods, for resolving the problem of static facial expression recognition. More specifically the work focuses on the classification of fer2013 photos into the seven basic human emotions, which are anger, disgust, fear, happiness, joy, sadness, surprise and neutral expression, using artificial intelligence. According to the above, extensive research has been conducted on implementations and techniques for this data set, four successful deep learning models were tested and one machine learning model and four capsule network models were developed. The machine learning model uses a support vector machine and the best result is 46.5%. As it is logical to assume, all the deep learning implementations that have been examined are implementations of convolutional neural networks because this type of models are the most successful for image classification problems. The first deep learning model uses the well-known VGG architecture which consist of classical convolutional neural network layers and the best result is 71.6%. The second deep learning implementation is an ensemble of seven models with architectures based on ResNet50, SeNet50 and VGG16 and has as result of 74.42%. The third deep learning model is called Residual Masking Network and its peculiarity is that it uses Residual Masking Block. The best result for this network is 73.307% The third deep learning model is called Self-curing Network and its peculiarity is that uses a mechanism to modify the wrong labels of the dataset. The best result for this network is 63.49%. The first capsule neural network model that has been developed is a modification of the baseline model for MNIST and has as best result 48.08%. The other models are modifications of the baseline model. In the second model a batch normalization layer has been added and its best result is 47.18%. In the third and fourth model one and two convolutional layer has been added respectively. The results for these two implementations are 49.21% and 49.91%. The structure of this dissertation consists of five chapters. In the first chapter the problem of static facial expression recognition is presented, as well as the problems that stand in the way of achieving this goal. An explanation of the concepts of artificial intelligence such as machine learning, deep learning and capsule neural networks, is also included. The second chapter refers to related works, done by other researchers, on the subject of static facial expression recognition. The third chapter contains the explanation of the theory for the various techniques and technologies that are being used. In the fourth chapter, the used dataset is presented and the logic behind the selection of the models is explained. The fifth and last chapter comments on the results and the future research that can be made on the subject. 2022-07-11T06:26:17Z 2022-07-11T06:26:17Z 2022-06 http://hdl.handle.net/10889/16435 gr application/pdf |