Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης

Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Αγγελόπουλος, Αθανάσιος
Άλλοι συγγραφείς:	Angelopoulos, Athanasios
Γλώσσα:	Greek
Έκδοση:	2021
Θέματα:	Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs)
Διαθέσιμο Online:	http://hdl.handle.net/10889/14508

id	nemertes-10889-14508
record_format	dspace
spelling	nemertes-10889-145082022-09-05T20:51:34Z Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης Phoneme recognition using deep learning Αγγελόπουλος, Αθανάσιος Angelopoulos, Athanasios Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%. In this thesis, an implementation of a neural network model for phonetic recognition in TensorFlow is presented. With this library, a Deep Long Short-Term Memory (DLSTM) neural network was created. The choice of this specific neural network was based on the fact that human speech is a sequence of phones, and by extension sequential data. For this specific implementation, the Mel Frequency Cepstral Coefficients (MFCCs) were used to present the acoustic features and with the DLSTM model the phonetic recognition was succeded. The experiments were conducted in the most widespread data base for phonetic recognition-classification problems, the Texas Instruments Massachusetts Institute of Technology (TIMIT) data base. A frame error rate of 30.12% was reported for the DLSTM architecture, that corresponds to 69.88% accuracy. 2021-02-22T07:30:14Z 2021-02-22T07:30:14Z 2021-02-21 http://hdl.handle.net/10889/14508 gr application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs)
spellingShingle	Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) Αγγελόπουλος, Αθανάσιος Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
description	Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%.
author2	Angelopoulos, Athanasios
author_facet	Angelopoulos, Athanasios Αγγελόπουλος, Αθανάσιος
author	Αγγελόπουλος, Αθανάσιος
author_sort	Αγγελόπουλος, Αθανάσιος
title	Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_short	Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_full	Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_fullStr	Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_full_unstemmed	Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_sort	αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
publishDate	2021
url	http://hdl.handle.net/10889/14508
work_keys_str_mv	AT angelopoulosathanasios anagnōrisēphōnēmatōnmemethodousbathiasmathēsēs AT angelopoulosathanasios phonemerecognitionusingdeeplearning
_version_	1771297311674073088

Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης

Παρόμοια τεκμήρια