Οπτική αποκωδικοποίηση ομιλίας
Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημ...
Main Author: | |
---|---|
Other Authors: | |
Format: | Thesis |
Language: | Greek |
Published: |
2019
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/12548 |
id |
nemertes-10889-12548 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-125482022-09-05T20:48:00Z Οπτική αποκωδικοποίηση ομιλίας Visual speech decoding Μαμασούλα, Ουρανία-Μαρία Οικονόμου, Γεώργιος Οικονόμου, Γεώργιος Φωτόπουλος, Σπυρίδων Αναστασόπουλος, Βασίλειος Mamasoula, Ourania-Maria Αποκωδικοποίηση Ομιλία Βάση δεδομένων Ταξινόμηση Διανύσματα Decoding Speech Databases Classification Vectors 006.454 Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημεία ενός προσώπου που μιλάει, τα οποία έχουν επιλεγεί από βίντεο, εξάγονται τα σημαντικά σημεία για την αποκωδικοποίηση της ομιλίας, δηλαδή του στόματος. Τα σημεία αυτά αντιμετωπίζονται ως διανύσματα στον δισδιάστατο χώρο, κανονικοποιούνται και χωρίζονται σε δεδομένα εκπαίδευσης και δεδομένα test. Τέλος χρησιμοποιείται ένα σύστημα ταξινόμησης και γίνεται αξιολόγηση της απόδοσης του για διάφορες συνθήκες ταξινόμησης. Ακόμη, μελετώνται επιγραμματικά διάφορες πιο σύγχρονες τεχνικές Οπτικής αποκωδικοποίησης ομιλίας που βασίζονται σε νευρωνικά και συνελικτικά δίκτυα. Visual speech decoding has been practiced for centuries by scientists for the effective communication between people. This study explores the use of machine learning techniques in lip reading. Initially, having a ready database of the characteristic features of a person who speaks, which are selected by video, the fiducial points for speech decoding are extracted. These points are treated as vectors in the two-dimensional space, normalized and separated into training data and test data. Finally a classification system is used and we evaluate the performance for different classification conditions. In addition, several more modern visual speech decoding techniques based on neural and convolutional networks are studied briefly. 2019-09-26T21:18:33Z 2019-09-26T21:18:33Z 2019-06-19 Thesis http://hdl.handle.net/10889/12548 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Αποκωδικοποίηση Ομιλία Βάση δεδομένων Ταξινόμηση Διανύσματα Decoding Speech Databases Classification Vectors 006.454 |
spellingShingle |
Αποκωδικοποίηση Ομιλία Βάση δεδομένων Ταξινόμηση Διανύσματα Decoding Speech Databases Classification Vectors 006.454 Μαμασούλα, Ουρανία-Μαρία Οπτική αποκωδικοποίηση ομιλίας |
description |
Η οπτική αποκωδικοποίηση ομιλίας έχει ασκηθεί εδώ και αιώνες από τους επιστήμονες με σκοπό την αποτελεσματική επικοινωνία μεταξύ ανθρώπων. Σε αυτή τη μελέτη, διερευνάται η χρήση τεχνικών μηχανικής εκμάθησης στην ανάγνωση των χειλιών. Αρχικά, έχοντας μία έτοιμη βάση δεδομένων με τα χαρακτηριστικά σημεία ενός προσώπου που μιλάει, τα οποία έχουν επιλεγεί από βίντεο, εξάγονται τα σημαντικά σημεία για την αποκωδικοποίηση της ομιλίας, δηλαδή του στόματος. Τα σημεία αυτά αντιμετωπίζονται ως διανύσματα στον δισδιάστατο χώρο, κανονικοποιούνται και χωρίζονται σε δεδομένα εκπαίδευσης και δεδομένα test. Τέλος χρησιμοποιείται ένα σύστημα ταξινόμησης και γίνεται αξιολόγηση της απόδοσης του για διάφορες συνθήκες ταξινόμησης. Ακόμη, μελετώνται επιγραμματικά διάφορες πιο σύγχρονες τεχνικές Οπτικής αποκωδικοποίησης ομιλίας που βασίζονται σε νευρωνικά και συνελικτικά δίκτυα. |
author2 |
Οικονόμου, Γεώργιος |
author_facet |
Οικονόμου, Γεώργιος Μαμασούλα, Ουρανία-Μαρία |
format |
Thesis |
author |
Μαμασούλα, Ουρανία-Μαρία |
author_sort |
Μαμασούλα, Ουρανία-Μαρία |
title |
Οπτική αποκωδικοποίηση ομιλίας |
title_short |
Οπτική αποκωδικοποίηση ομιλίας |
title_full |
Οπτική αποκωδικοποίηση ομιλίας |
title_fullStr |
Οπτική αποκωδικοποίηση ομιλίας |
title_full_unstemmed |
Οπτική αποκωδικοποίηση ομιλίας |
title_sort |
οπτική αποκωδικοποίηση ομιλίας |
publishDate |
2019 |
url |
http://hdl.handle.net/10889/12548 |
work_keys_str_mv |
AT mamasoulaouraniamaria optikēapokōdikopoiēsēomilias AT mamasoulaouraniamaria visualspeechdecoding |
_version_ |
1771297286637223936 |