Αναγνώριση φωνημάτων με μεθόδους βαθιάς μάθησης

Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αγγελόπουλος, Αθανάσιος
Άλλοι συγγραφείς: Angelopoulos, Athanasios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14508
Περιγραφή
Περίληψη:Η συγκεκριμένη διπλωματική εργασία επικεντρώνεται στην υλοποίηση ενός συστήματος αναγνώρισης φωνημάτων με τη χρήση νευρωνικών δικτύων στο Tensorflow. Μέσω αυτής της βιβλιοθήκης θα αναπτυχθεί ένα Deep Long Short-Term Memory (DLSTM) νευρωνικό δίκτυο. Η επιλογή του συγκεκριμένου δικτύου βασίστηκε στο γεγονός ότι η ανθρώπινη ομιλία αποτελεί μία ακολουθία από φωνήματα, περιλαμβάνει δηλαδή ακολουθιακά δεδομένα. Για τη συγκεκριμένη υλοποίηση αξιοποιήθηκαν οι παράμετροι Mel Frequency Cepstral Coefficients (MFCCs) για να αναπαραστήσουν τα ακουστικά χαρακτηριστικά και με τη χρήση του DLSTM μοντέλου επετεύχθη η αναγνώριση των φωνημάτων. Τα πειράματα έγιναν πάνω στην πιο διαδεδομένη βάση δεδομένων για θέματα αναγνώρισης-ταξινόμησης φωνημάτων Texas Instruments Massachusetts Institute of Technology (TIMIT). Επετεύχθη ποσοστό σφάλματος φωνήματος ανά χρονικό πλαίσιο (Frame Error Rate-FER) 30.12%, που αντιστοιχεί σε ακρίβεια 69.88%.