Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης

Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αγγελόπουλος, Αθανάσιος
Άλλοι συγγραφείς: Angelopoulos, Athanasios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14508
id nemertes-10889-14508
record_format dspace
spelling nemertes-10889-145082022-09-05T20:51:34Z Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης Phoneme recognition using deep learning Αγγελόπουλος, Αθανάσιος Angelopoulos, Athanasios Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%. In this thesis, an implementation of a neural network model for phonetic recognition in TensorFlow is presented. With this library, a Deep Long Short-Term Memory (DLSTM) neural network was created. The choice of this specific neural network was based on the fact that human speech is a sequence of phones, and by extension sequential data. For this specific implementation, the Mel Frequency Cepstral Coefficients (MFCCs) were used to present the acoustic features and with the DLSTM model the phonetic recognition was succeded. The experiments were conducted in the most widespread data base for phonetic recognition-classification problems, the Texas Instruments Massachusetts Institute of Technology (TIMIT) data base. A frame error rate of 30.12% was reported for the DLSTM architecture, that corresponds to 69.88% accuracy. 2021-02-22T07:30:14Z 2021-02-22T07:30:14Z 2021-02-21 http://hdl.handle.net/10889/14508 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Νευρωνικά δίκτυα
Αναγνώριση φωνημάτων
Neural networks
Phonetic recognition
Tensorflow
Mel Frequency Cepstral Coefficients (MFCCs)
spellingShingle Νευρωνικά δίκτυα
Αναγνώριση φωνημάτων
Neural networks
Phonetic recognition
Tensorflow
Mel Frequency Cepstral Coefficients (MFCCs)
Αγγελόπουλος, Αθανάσιος
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
description Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%.
author2 Angelopoulos, Athanasios
author_facet Angelopoulos, Athanasios
Αγγελόπουλος, Αθανάσιος
author Αγγελόπουλος, Αθανάσιος
author_sort Αγγελόπουλος, Αθανάσιος
title Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_short Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_full Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_fullStr Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_full_unstemmed Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
title_sort αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
publishDate 2021
url http://hdl.handle.net/10889/14508
work_keys_str_mv AT angelopoulosathanasios anagnōrisēphōnēmatōnmemethodousbathiasmathēsēs
AT angelopoulosathanasios phonemerecognitionusingdeeplearning
_version_ 1771297311674073088