Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης
Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/14508 |
id |
nemertes-10889-14508 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-145082022-09-05T20:51:34Z Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης Phoneme recognition using deep learning Αγγελόπουλος, Αθανάσιος Angelopoulos, Athanasios Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%. In this thesis, an implementation of a neural network model for phonetic recognition in TensorFlow is presented. With this library, a Deep Long Short-Term Memory (DLSTM) neural network was created. The choice of this specific neural network was based on the fact that human speech is a sequence of phones, and by extension sequential data. For this specific implementation, the Mel Frequency Cepstral Coefficients (MFCCs) were used to present the acoustic features and with the DLSTM model the phonetic recognition was succeded. The experiments were conducted in the most widespread data base for phonetic recognition-classification problems, the Texas Instruments Massachusetts Institute of Technology (TIMIT) data base. A frame error rate of 30.12% was reported for the DLSTM architecture, that corresponds to 69.88% accuracy. 2021-02-22T07:30:14Z 2021-02-22T07:30:14Z 2021-02-21 http://hdl.handle.net/10889/14508 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) |
spellingShingle |
Νευρωνικά δίκτυα Αναγνώριση φωνημάτων Neural networks Phonetic recognition Tensorflow Mel Frequency Cepstral Coefficients (MFCCs) Αγγελόπουλος, Αθανάσιος Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
description |
Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT).
Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%. |
author2 |
Angelopoulos, Athanasios |
author_facet |
Angelopoulos, Athanasios Αγγελόπουλος, Αθανάσιος |
author |
Αγγελόπουλος, Αθανάσιος |
author_sort |
Αγγελόπουλος, Αθανάσιος |
title |
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
title_short |
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
title_full |
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
title_fullStr |
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
title_full_unstemmed |
Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
title_sort |
αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/14508 |
work_keys_str_mv |
AT angelopoulosathanasios anagnōrisēphōnēmatōnmemethodousbathiasmathēsēs AT angelopoulosathanasios phonemerecognitionusingdeeplearning |
_version_ |
1771297311674073088 |