Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών

H αυτοματοποιημένη Οπτική Αναγώριση Ομιλίας (ΟΑΟ) ή ανάγνωση των χειλιών (Lip Reading) είναι μια τεχνολογία που αναγνωρίζει το περιεχόμενο της ομιλίας με βάση τα χαρακτηριστικά κίνησης των χειλιών του ομιλητή χωρίς τη χρήση των ηχητικών σημάτων. Ως εκ τούτου, η μέθοδος αυτή μπορεί να ανιχνεύσει το π...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Δριμάλα, Χαρίκλεια
Άλλοι συγγραφείς: Drimala, Charikleia
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16118
Περιγραφή
Περίληψη:H αυτοματοποιημένη Οπτική Αναγώριση Ομιλίας (ΟΑΟ) ή ανάγνωση των χειλιών (Lip Reading) είναι μια τεχνολογία που αναγνωρίζει το περιεχόμενο της ομιλίας με βάση τα χαρακτηριστικά κίνησης των χειλιών του ομιλητή χωρίς τη χρήση των ηχητικών σημάτων. Ως εκ τούτου, η μέθοδος αυτή μπορεί να ανιχνεύσει το περιεχόμενο του λόγου ενός ομιλητή σε ένα θορυβώδες περιβάλλον, ακόμη και χωρίς το φωνητικό σήμα. Οι παραδοσιακές μέθοδοι προσέγγισης του ερευνητικού ζητήματος της ΟΑΟ εστιάζουν στις εξης τρεις πτυχές: ανίχνευση και εξαγωγή της περιοχής του στόματος σε βίντεο, εξαγωγή των χαρακτηριστικών διανυσμάτων και ταξινόμηση. Ωστόσο, τα τελευταία χρόνια, οι μέθοδοι βαθιάς μηχανικής εκμάθησης παίζουν καθοριστικό ρόλο στην πρόοδο αυτού του ερευνητικού ζητήματος. Το πλεονέκτημα των μεθόδων αυτών είναι ότι μπορούν να μάθουν καλύτερα τα χαρακτηριστικά από μεγάλες βάσεις δεδομένων. Στην παρούσα εργασία ακολουθήθηκε η παραδοσιακή προσέγγιση ανάλυσης σήματος για ΟΑΟ. Τα πειραματικά δεδομένα είναι βίντεο τα οποία περιλαμβάνουν καταγραφές σε επίπεδο λέξεων στην ελληνική γλώσσα. Αρχικά, καθορίζονται τα σημεία σημαντικότητας του προσώπου του ομιλητή σε κάθε βίντεο και από αυτά χρησιμοποιείται ένα υποσύνολο σημείων το οποίο εστιάζει αποκλειστικά στην περιοχή του στόματος. Στη συνέχεια, για κάθε βίντεο της βάσης δεδομένων εξάγεται ένα σύνολο πολυδιάστατων διανυσμάτων που το περιγράφουν. Αυτά τα πολυδιάστατα διανύσματα περιέχουν πληροφορίες που αφορούν τα χείλη του ομιλητή και έχουν νόημα για τη μετέπειτα ταξινόμηση στις αντίστοιχες κλάσεις. Ακολούθως, γίνεται χρήση της μεθόδου Mutual Nearest Point Distance για τον υπολογισμό του μέτρου της ανομοιότητας μεταξύ δύο πολυδιάστατων συνόλων διανυσμάτων . Οι τιμές αυτές τοποθετούνται σε έναν πίνακα, κάθε σειρά του οποίου ποσοτικοποιεί το μέτρο της ανομοιότητας κάθε ενός βίντεο (σύνολο πολυδιάστατων διανυσμάτων) με το σύνολο των βίντεο της βάσης δεδομένων. Τέλος, ο πίνακας αυτός χρησιμοποιείται ως είσοδος στη μέθοδο ταξινόμησης που εφαρμόστηκε για την κατηγοριοποίηση των βίντεο σε ένα σύνολο πρότυπων ομάδων και η οποία βασίζεται στην κύρια αρχή του αλγόριθμου ταξινόμησης kNN. Στα ακόλουθα κεφάλαια αναπτύσσονται και περιγράφονται εκτενώς οι αλγόριθμοι και η μεθοδολογία που χρησιμοποιήθηκαν για την υλοποίηση ενός αυτοματοποιημένου συστήματος ΟΑΟ με παραδοσιακές τεχνικές ανάλυσης σήματος. Παράλληλα παρουσιάζονται τα διάφορα πειράματα που ερευνήθηκαν αλλά και τα αποτελέσματα της αξιολόγησης της απόδοσης του συστήματος ώστε να εκτιμηθεί εάν είναι εφικτή και αποτελεσματική η χρήση της συγκεκριμένης προσέγγισης για το ζήτημα της ΟΑΟ.