Περίληψη: | Η ανάπτυξη της τεχνητής νοημοσύνης, τα τελευταία χρόνια, έχει αποτελέσει σημαντικό πυλώνα στην εξέλιξη συστημάτων και εφαρμογών σε διάφορους επιστημονικούς και τεχνικούς τομείς. ΄Ενας από αυτούς τους τομείς είναι η όραση των υπολογιστών(Computer Vision). Ο τομέας αυτός αφορά την επίλυση προβλημάτων αναγνώρισης προτύπων σε οπτικά μέσα όπως εικόνες και βίντεο.
Το αντικείμενο της συγκεκριμένης διπλωματικής εργασίας πραγματεύεται την αναγνώριση της συναισθηματικής κατάστασης ενός ανθρώπου, μέσω των εκφράσεων του
προσώπου του από εικόνες. Η επίλυση αυτού του προβλήματος μπορεί να έχει σημαντικά οφέλη στον τομέα της επικοινωνίας ανθρώπου - υπολογιστή. Ο τομέας αυτός έχει
ως αντικείμενο την εξερεύνηση του τρόπου με τον οποίο οι άνθρωποι χρησιμοποιούν
τους υπολογιστές με σκοπό τον σχεδιασμό συστημάτων που επιτυγχάνουν τη βελτίωση της εμπειρίας του χρήστη και της καλύτερης διάδρασής του με έναν υπολογιστή.
Αυτό μπορεί να συμβεί καθώς η επικοινωνία με συναισθηματικά όντα είναι δυνατόν να
γίνει πιο εύκολη εφόσον αναγνωριστεί η συναισθηματική τους κατάσταση.
Η αναγνώριση συναισθημάτων βρίσκει εφαρμογές σε διάφορους τομείς και μπορεί να βοηθήσει στην ανάπτυξη πολλών και διαφόρων συστημάτων. Μια συνεισφορά
θα μπορούσε να είναι η ανάπτυξη λογισμικού για αυτοκινούμενα οχήματα, όπως συστήματα προειδοποιήσεων του οδηγού. Για παράδειγμα, θα μπορούσαν να αναπτυχθούν
συστήματα που αξιολογούν την κούραση του οδηγού ή το κατά πόσον βρίσκεται σε
κατάσταση μέθης. Μια άλλη εφαρμογή θα μπορούσε να είναι η δημιουργία πιο αποτελεσματικών ρομπότ, τόσο σε επίπεδο κοινωνικότητας όσο και σε επίπεδο εξυπηρέτησης
πελατών. Κατ΄ επέκταση γίνεται δυνατό να δημιουργηθούν βελτιωμένα συστήματα αυτοματοποιημένης διδασκαλίας και αυτοματοποιημένα τραπεζικά συστήματα. Επίσης, η
αναγνώριση συναισθημάτων θα μπορούσε να διευκολύνει την κατασκευή έξυπνων περιβαλλόντων, όπως έξυπνες πόλεις και έξυπνα σπίτια. Θα μπορούσαν ακόμα να βοηθηθούν τομείς που απαιτούν την αναπαράσταση εκφράσεων προσώπου όπως η ανακατασκευή βίντεο και η δημιουργία avatar animation. Τέλος, η αναγνώριση συναισθημάτων
μπορεί να βρει εφαρμογή και σε άλλα επιστημονικά πεδία όπως το neuromarketing και
τον προσδιορισμό κατάστασης ψυχικής υγείας.
Ο στόχος αυτής της εργασίας είναι η εξερεύνηση και η σύγκριση διαφόρων μεθόδων,
για την επίλυση του θέματος της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Πιο
συγκεκριμένα η εργασία εστιάζει στην κατηγοριοποίηση των φωτογραφιών του fer2013
στα 7 βασικά ανθρώπινα συναισθήματα, που είναι θυμός, αηδία, φόβος, χαρά, λύπη, έκπληξη και ουδέτερη έκφραση με χρήση τεχνητής νοημοσύνης. Με βάση τα παραπάνω,
πραγματοποιήθηκε εκτεταμένη έρευνα πάνω σε υλοποιήσεις και τεχνικές για αυτό το
σύνολο δεδομένων, εξετάστηκαν τέσσερα επιτυχημένα μοντέλα βαθιάς μάθησης και αναπτύχθηκε ένα μοντέλο μηχανικής μάθησης και τέσσερα μοντέλα νευρωνικών δικτύων
με κάψουλες.
Το μοντέλο μηχανικής μάθησης χρησιμοποιεί μηχανή διανυσμάτων υποστήριξης
(support vector machine) και έχει σαν καλύτερο αποτέλεσμα το 46,5%. ΄Οπως είναι
λογικό όλες οι υλοποιήσεις βαθιάς μάθησης, που εξετάστηκαν, αποτελούν υλοποιήσεις
συνελικτικών νευρωνικών δικτύων (convolutional neural networks), καθώς αποτελούν τα πιο επιτυχημένα μοντέλα κατηγοριοποίησης εικόνων. Το πρώτο μοντέλο βαθιάς μάθησης χρησιμοποιεί τη γνωστή αρχιτεκτονική VGG που αποτελείται από κλασσικά επίπεδα επεξεργασίας συνελικτικών νευρωνικών δικτύων και έχει σαν καλύτερο
αποτέλεσμα το 71,6%. Το δεύτερο μοντέλο βαθιάς μάθησης είναι ένα δίκτυο με τεχνικές πολλαπλών μοντέλων πρόβλεψης(Ensemble), που χρησιμοποιεί επτά μοντέλα με
αρχιτεκτονικές βασισμένες στα ResNet50,SeNet50 και VGG16 και έχει σαν καλύτερο αποτέλεσμα το 74,42%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Residual
Masking Network και η ιδιαιτερότητά του είναι ότι χρησιμοποιεί Residual Masking
Block. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 73,307%. Το τρίτο μοντέλο βαθιάς μάθησης ονομάζεται Self-curing Network και η ιδιαιτερότητά του είναι ότι
χρησιμοποιεί έναν μηχανισμό τροποποίησης των λάθος ετικετών(labels) του συνόλου
δεδομένων. Το καλύτερο αποτέλεσμα για αυτό το δίκτυο είναι το 63,49%. Το πρώτο
μοντέλο νευρωνικών δικτύων με κάψουλες που αναπτύχθηκε αποτελεί μια τροποποίηση
του baseline μοντέλου για το MNIST και έχει σαν καλύτερο αποτέλεσμα το 48,08%.
Τα υπόλοιπα μοντέλα αποτελούν τροποποιήσεις του baseline μοντέλου. Στο δεύτερο
μοντέλο προστέθηκε ένα επίπεδο κανονικοποίησης παρτίδας και έχει σαν καλύτερο αποτέλεσμα το 47,18%. Στο τρίτο μοντέλο και τέταρτο μοντέλο προστέθηκαν ένα και
δύο συνελικτικά επίπεδα αντίστοιχα. Τα αποτελέσματα για αυτές τις δύο υλοποιήσεις
ανέρχονται στο 49,21% και 49,91%.
Η δομή της παρούσας διπλωματικής εργασίας αποτελείται από πέντε κεφάλαια. Στο
πρώτο κεφάλαιο παρουσιάζεται το θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα, καθώς και τα προβλήματα που δυσχεραίνουν την επίτευξη αυτού του στόχου.
Ακόμα περιλαμβάνεται μια επεξήγηση για τις έννοιες της τεχνητής νοημοσύνης, της
μηχανικής μάθησης, της βαθιάς μάθησης και των νευρωνικών δικτύων με κάψουλες.
Στο δεύτερο κεφάλαιο γίνεται αναφορά σε σχετικές δουλειές, από άλλους ερευνητές,
πάνω στο θέμα της αναγνώρισης εκφράσεων προσώπου σε εικόνα. Το τρίτο κεφάλαιο
περιέχει την επεξήγηση της θεωρίας για της διάφορες τεχνικές και τεχνολογίες που
χρησιμοποιήθηκαν. Στο τέταρτο κεφάλαιο, αρχικά, πραγματοποιείται μια παρουσίαση
των δεδομένων που χρησιμοποιήθηκαν και ο τρόπος σκέψης που επιλέχθηκαν τα μοντέλα. Στη συνέχεια παρουσιάζονται οι διάφορες υλοποιήσεις που χρησιμοποιήθηκαν.
Στο πέμπτο και τελευταίο κεφάλαιο σχολιάζονται τα αποτελέσματα και γίνεται αναφορά
σε μελλοντική έρευνα.
|