Οπτική αποκωδικοποίηση ομιλίας

Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαμασούλα, Ουρανία-Μαρία
Άλλοι συγγραφείς: Οικονόμου, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12548
id nemertes-10889-12548
record_format dspace
spelling nemertes-10889-125482022-09-05T20:48:00Z Οπτική αποκωδικοποίηση ομιλίας Visual speech decoding Μαμασούλα, Ουρανία-Μαρία Οικονόμου, Γεώργιος Οικονόμου, Γεώργιος Φωτόπουλος, Σπυρίδων Αναστασόπουλος, Βασίλειος Mamasoula, Ourania-Maria Αποκωδικοποίηση Ομιλία Βάση δεδομένων Ταξινόμηση Διανύσματα Decoding Speech Databases Classification Vectors 006.454 Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημεία ενός προσώπου που μιλάει, τα οποία έχουν επιλεγεί από βίντεο, εξάγονται τα σημαντικά σημεία για την αποκωδικοποίηση της ομιλίας, δηλαδή του στόματος. Τα σημεία αυτά αντιμετωπίζονται ως διανύσματα στον δισδιάστατο χώρο, κανονικοποιούνται και χωρίζονται σε δεδομένα εκπαίδευσης και δεδομένα test. Τέλος χρησιμοποιείται ένα σύστημα ταξινόμησης και γίνεται αξιολόγηση της απόδοσης του για διάφορες συνθήκες ταξινόμησης. Ακόμη, μελετώνται επιγραμματικά διάφορες πιο σύγχρονες τεχνικές Οπτικής αποκωδικοποίησης ομιλίας που βασίζονται σε νευρωνικά και συνελικτικά δίκτυα. Visual speech decoding has been practiced for centuries by scientists for the effective communication between people. This study explores the use of machine learning techniques in lip reading. Initially, having a ready database of the characteristic features of a person who speaks, which are selected by video, the fiducial points for speech decoding are extracted. These points are treated as vectors in the two-dimensional space, normalized and separated into training data and test data. Finally a classification system is used and we evaluate the performance for different classification conditions. In addition, several more modern visual speech decoding techniques based on neural and convolutional networks are studied briefly. 2019-09-26T21:18:33Z 2019-09-26T21:18:33Z 2019-06-19 Thesis http://hdl.handle.net/10889/12548 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Αποκωδικοποίηση
Ομιλία
Βάση δεδομένων
Ταξινόμηση
Διανύσματα
Decoding
Speech
Databases
Classification
Vectors
006.454
spellingShingle Αποκωδικοποίηση
Ομιλία
Βάση δεδομένων
Ταξινόμηση
Διανύσματα
Decoding
Speech
Databases
Classification
Vectors
006.454
Μαμασούλα, Ουρανία-Μαρία
Οπτική αποκωδικοποίηση ομιλίας
description Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημεία ενός προσώπου που μιλάει, τα οποία έχουν επιλεγεί από βίντεο, εξάγονται τα σημαντικά σημεία για την αποκωδικοποίηση της ομιλίας, δηλαδή του στόματος. Τα σημεία αυτά αντιμετωπίζονται ως διανύσματα στον δισδιάστατο χώρο, κανονικοποιούνται και χωρίζονται σε δεδομένα εκπαίδευσης και δεδομένα test. Τέλος χρησιμοποιείται ένα σύστημα ταξινόμησης και γίνεται αξιολόγηση της απόδοσης του για διάφορες συνθήκες ταξινόμησης. Ακόμη, μελετώνται επιγραμματικά διάφορες πιο σύγχρονες τεχνικές Οπτικής αποκωδικοποίησης ομιλίας που βασίζονται σε νευρωνικά και συνελικτικά δίκτυα.
author2 Οικονόμου, Γεώργιος
author_facet Οικονόμου, Γεώργιος
Μαμασούλα, Ουρανία-Μαρία
format Thesis
author Μαμασούλα, Ουρανία-Μαρία
author_sort Μαμασούλα, Ουρανία-Μαρία
title Οπτική αποκωδικοποίηση ομιλίας
title_short Οπτική αποκωδικοποίηση ομιλίας
title_full Οπτική αποκωδικοποίηση ομιλίας
title_fullStr Οπτική αποκωδικοποίηση ομιλίας
title_full_unstemmed Οπτική αποκωδικοποίηση ομιλίας
title_sort οπτική αποκωδικοποίηση ομιλίας
publishDate 2019
url http://hdl.handle.net/10889/12548
work_keys_str_mv AT mamasoulaouraniamaria optikēapokōdikopoiēsēomilias
AT mamasoulaouraniamaria visualspeechdecoding
_version_ 1771297286637223936