Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών

H αυτοματοποιημένη Οπτική Αναγώριση Ομιλίας (ΟΑΟ) ή ανάγνωση των χειλιών (Lip Reading) είναι μια τεχνολογία που αναγνωρίζει το περιεχόμενο της ομιλίας με βάση τα χαρακτηριστικά κίνησης των χειλιών του ομιλητή χωρίς τη χρήση των ηχητικών σημάτων. Ως εκ τούτου, η μέθοδος αυτή μπορεί να ανιχνεύσει το π...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Δριμάλα, Χαρίκλεια
Άλλοι συγγραφείς: Drimala, Charikleia
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16118
id nemertes-10889-16118
record_format dspace
spelling nemertes-10889-161182022-09-05T20:16:07Z Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών Visual word recognition using lip movement Δριμάλα, Χαρίκλεια Drimala, Charikleia Οπτική αναγνώριση ομιλίας Βάση δεδομένων ελληνικών λέξεων Mutual nearest point distance Lip reading H αυτοματοποιημένη Οπτική Αναγώριση Ομιλίας (ΟΑΟ) ή ανάγνωση των χειλιών (Lip Reading) είναι μια τεχνολογία που αναγνωρίζει το περιεχόμενο της ομιλίας με βάση τα χαρακτηριστικά κίνησης των χειλιών του ομιλητή χωρίς τη χρήση των ηχητικών σημάτων. Ως εκ τούτου, η μέθοδος αυτή μπορεί να ανιχνεύσει το περιεχόμενο του λόγου ενός ομιλητή σε ένα θορυβώδες περιβάλλον, ακόμη και χωρίς το φωνητικό σήμα. Οι παραδοσιακές μέθοδοι προσέγγισης του ερευνητικού ζητήματος της ΟΑΟ εστιάζουν στις εξης τρεις πτυχές: ανίχνευση και εξαγωγή της περιοχής του στόματος σε βίντεο, εξαγωγή των χαρακτηριστικών διανυσμάτων και ταξινόμηση. Ωστόσο, τα τελευταία χρόνια, οι μέθοδοι βαθιάς μηχανικής εκμάθησης παίζουν καθοριστικό ρόλο στην πρόοδο αυτού του ερευνητικού ζητήματος. Το πλεονέκτημα των μεθόδων αυτών είναι ότι μπορούν να μάθουν καλύτερα τα χαρακτηριστικά από μεγάλες βάσεις δεδομένων. Στην παρούσα εργασία ακολουθήθηκε η παραδοσιακή προσέγγιση ανάλυσης σήματος για ΟΑΟ. Τα πειραματικά δεδομένα είναι βίντεο τα οποία περιλαμβάνουν καταγραφές σε επίπεδο λέξεων στην ελληνική γλώσσα. Αρχικά, καθορίζονται τα σημεία σημαντικότητας του προσώπου του ομιλητή σε κάθε βίντεο και από αυτά χρησιμοποιείται ένα υποσύνολο σημείων το οποίο εστιάζει αποκλειστικά στην περιοχή του στόματος. Στη συνέχεια, για κάθε βίντεο της βάσης δεδομένων εξάγεται ένα σύνολο πολυδιάστατων διανυσμάτων που το περιγράφουν. Αυτά τα πολυδιάστατα διανύσματα περιέχουν πληροφορίες που αφορούν τα χείλη του ομιλητή και έχουν νόημα για τη μετέπειτα ταξινόμηση στις αντίστοιχες κλάσεις. Ακολούθως, γίνεται χρήση της μεθόδου Mutual Nearest Point Distance για τον υπολογισμό του μέτρου της ανομοιότητας μεταξύ δύο πολυδιάστατων συνόλων διανυσμάτων . Οι τιμές αυτές τοποθετούνται σε έναν πίνακα, κάθε σειρά του οποίου ποσοτικοποιεί το μέτρο της ανομοιότητας κάθε ενός βίντεο (σύνολο πολυδιάστατων διανυσμάτων) με το σύνολο των βίντεο της βάσης δεδομένων. Τέλος, ο πίνακας αυτός χρησιμοποιείται ως είσοδος στη μέθοδο ταξινόμησης που εφαρμόστηκε για την κατηγοριοποίηση των βίντεο σε ένα σύνολο πρότυπων ομάδων και η οποία βασίζεται στην κύρια αρχή του αλγόριθμου ταξινόμησης kNN. Στα ακόλουθα κεφάλαια αναπτύσσονται και περιγράφονται εκτενώς οι αλγόριθμοι και η μεθοδολογία που χρησιμοποιήθηκαν για την υλοποίηση ενός αυτοματοποιημένου συστήματος ΟΑΟ με παραδοσιακές τεχνικές ανάλυσης σήματος. Παράλληλα παρουσιάζονται τα διάφορα πειράματα που ερευνήθηκαν αλλά και τα αποτελέσματα της αξιολόγησης της απόδοσης του συστήματος ώστε να εκτιμηθεί εάν είναι εφικτή και αποτελεσματική η χρήση της συγκεκριμένης προσέγγισης για το ζήτημα της ΟΑΟ. 2022-03-18T11:47:44Z 2022-03-18T11:47:44Z 2022-03-10 http://hdl.handle.net/10889/16118 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Οπτική αναγνώριση ομιλίας
Βάση δεδομένων ελληνικών λέξεων
Mutual nearest point distance
Lip reading
spellingShingle Οπτική αναγνώριση ομιλίας
Βάση δεδομένων ελληνικών λέξεων
Mutual nearest point distance
Lip reading
Δριμάλα, Χαρίκλεια
Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
description H αυτοματοποιημένη Οπτική Αναγώριση Ομιλίας (ΟΑΟ) ή ανάγνωση των χειλιών (Lip Reading) είναι μια τεχνολογία που αναγνωρίζει το περιεχόμενο της ομιλίας με βάση τα χαρακτηριστικά κίνησης των χειλιών του ομιλητή χωρίς τη χρήση των ηχητικών σημάτων. Ως εκ τούτου, η μέθοδος αυτή μπορεί να ανιχνεύσει το περιεχόμενο του λόγου ενός ομιλητή σε ένα θορυβώδες περιβάλλον, ακόμη και χωρίς το φωνητικό σήμα. Οι παραδοσιακές μέθοδοι προσέγγισης του ερευνητικού ζητήματος της ΟΑΟ εστιάζουν στις εξης τρεις πτυχές: ανίχνευση και εξαγωγή της περιοχής του στόματος σε βίντεο, εξαγωγή των χαρακτηριστικών διανυσμάτων και ταξινόμηση. Ωστόσο, τα τελευταία χρόνια, οι μέθοδοι βαθιάς μηχανικής εκμάθησης παίζουν καθοριστικό ρόλο στην πρόοδο αυτού του ερευνητικού ζητήματος. Το πλεονέκτημα των μεθόδων αυτών είναι ότι μπορούν να μάθουν καλύτερα τα χαρακτηριστικά από μεγάλες βάσεις δεδομένων. Στην παρούσα εργασία ακολουθήθηκε η παραδοσιακή προσέγγιση ανάλυσης σήματος για ΟΑΟ. Τα πειραματικά δεδομένα είναι βίντεο τα οποία περιλαμβάνουν καταγραφές σε επίπεδο λέξεων στην ελληνική γλώσσα. Αρχικά, καθορίζονται τα σημεία σημαντικότητας του προσώπου του ομιλητή σε κάθε βίντεο και από αυτά χρησιμοποιείται ένα υποσύνολο σημείων το οποίο εστιάζει αποκλειστικά στην περιοχή του στόματος. Στη συνέχεια, για κάθε βίντεο της βάσης δεδομένων εξάγεται ένα σύνολο πολυδιάστατων διανυσμάτων που το περιγράφουν. Αυτά τα πολυδιάστατα διανύσματα περιέχουν πληροφορίες που αφορούν τα χείλη του ομιλητή και έχουν νόημα για τη μετέπειτα ταξινόμηση στις αντίστοιχες κλάσεις. Ακολούθως, γίνεται χρήση της μεθόδου Mutual Nearest Point Distance για τον υπολογισμό του μέτρου της ανομοιότητας μεταξύ δύο πολυδιάστατων συνόλων διανυσμάτων . Οι τιμές αυτές τοποθετούνται σε έναν πίνακα, κάθε σειρά του οποίου ποσοτικοποιεί το μέτρο της ανομοιότητας κάθε ενός βίντεο (σύνολο πολυδιάστατων διανυσμάτων) με το σύνολο των βίντεο της βάσης δεδομένων. Τέλος, ο πίνακας αυτός χρησιμοποιείται ως είσοδος στη μέθοδο ταξινόμησης που εφαρμόστηκε για την κατηγοριοποίηση των βίντεο σε ένα σύνολο πρότυπων ομάδων και η οποία βασίζεται στην κύρια αρχή του αλγόριθμου ταξινόμησης kNN. Στα ακόλουθα κεφάλαια αναπτύσσονται και περιγράφονται εκτενώς οι αλγόριθμοι και η μεθοδολογία που χρησιμοποιήθηκαν για την υλοποίηση ενός αυτοματοποιημένου συστήματος ΟΑΟ με παραδοσιακές τεχνικές ανάλυσης σήματος. Παράλληλα παρουσιάζονται τα διάφορα πειράματα που ερευνήθηκαν αλλά και τα αποτελέσματα της αξιολόγησης της απόδοσης του συστήματος ώστε να εκτιμηθεί εάν είναι εφικτή και αποτελεσματική η χρήση της συγκεκριμένης προσέγγισης για το ζήτημα της ΟΑΟ.
author2 Drimala, Charikleia
author_facet Drimala, Charikleia
Δριμάλα, Χαρίκλεια
author Δριμάλα, Χαρίκλεια
author_sort Δριμάλα, Χαρίκλεια
title Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
title_short Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
title_full Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
title_fullStr Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
title_full_unstemmed Οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
title_sort οπτική αναγνώριση λέξεων από την κίνηση των χειλιών
publishDate 2022
url http://hdl.handle.net/10889/16118
work_keys_str_mv AT drimalacharikleia optikēanagnōrisēlexeōnapotēnkinēsētōncheiliōn
AT drimalacharikleia visualwordrecognitionusinglipmovement
_version_ 1771297302100574208