Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης
Σε μια εποχή όπου η τεχνολογία είναι αναπόσπαστο μέρος του τρόπου ζωής μας, η σημασία των συστημάτων αναγνώρισης ομιλίας , η δουλειά των οποίων είναι να δημιουργούν κείμενο από ήχο, αυξάνεται καθώς ο αριθμός των εφαρμογών αυτών των συστημάτων πληθαίνει ραγδαία. Τέτοιες εφαρμογές εμφανίζονται σε οικι...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/23554 |
id |
nemertes-10889-23554 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Επαναλαμβανόμενα νευρωνικά δίκτυα Αυτόματη αναγνώριση ομιλίας Κατηγοριοποίηση φωνητικών εντολών Αναγνώριση ομοιότητας φωνητικών εντολών Machine learning Deep learning Convolutional neural networks Automatic speech recognition |
spellingShingle |
Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Επαναλαμβανόμενα νευρωνικά δίκτυα Αυτόματη αναγνώριση ομιλίας Κατηγοριοποίηση φωνητικών εντολών Αναγνώριση ομοιότητας φωνητικών εντολών Machine learning Deep learning Convolutional neural networks Automatic speech recognition Τάντουλας, Κωνσταντίνος Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
description |
Σε μια εποχή όπου η τεχνολογία είναι αναπόσπαστο μέρος του τρόπου ζωής μας, η σημασία
των συστημάτων αναγνώρισης ομιλίας , η δουλειά των οποίων είναι να δημιουργούν κείμενο
από ήχο, αυξάνεται καθώς ο αριθμός των εφαρμογών αυτών των συστημάτων πληθαίνει
ραγδαία. Τέτοιες εφαρμογές εμφανίζονται σε οικιακούς βοηθούς(voice assistants) όπως Alexa
ή Siri, συσκευές έξυπνων σπιτιών, ενώ βοηθούν πολλά άτομα με ειδικές ανάγκες τα οποία
αδυνατούν να πληκτρολογήσουν και έχουν πλέον υιοθετήσει συστήματα αναγνώρισης
ομιλίας. Ωστόσο, η εκπαίδευση τέτοιων συστημάτων είναι μια δύσκολη διαδικασία, καθώς
απαιτείται κατάλληλη προεπεξεργασία των σημάτων ήχου, πρόσβαση σε υψηλή
υπολογιστική ισχύ και μεγάλο όγκο δεδομένων εκπαίδευσης. Στην παρούσα Διπλωματική
Εργασία μελετήσαμε και υλοποιήσαμε ένα αποδοτικό σύστημα αναγνώρισης φωνητικών
εντολών με χρήση μοντέλων Βαθιάς Μηχανικής Μάθησης. Στο πρώτο κεφάλαιο αναλύεται η
σημασία του προβλήματος, οι δυσκολίες της αναγνώρισης ομιλίας από ένα υπολογιστή και η
προσέγγιση μιας τέτοιας υλοποίησης. Στη συνέχεια, στο δεύτερο κεφάλαιο, γίνεται μια
εισαγωγή στη Μηχανική Μάθηση και αναφορά στις βασικές έννοιες Νευρωνικών Δικτύων
που απαιτούνται για την περαιτέρω κατανόηση των κεφαλαίων που ακολουθούν. Στο τρίτο
κεφάλαιο περιγράφονται αναλυτικά τα δύο διαφορετικά σετ δεδομένων που
χρησιμοποιήθηκαν για την εκπαίδευση του συστήματος, η διαδικασία εξαγωγής
χαρακτηριστικών των φωνητικών εντολών και οι μέθοδοι προσαύξησης δεδομένων που
εφαρμόστηκαν. Το επόμενο κεφάλαιο περιλαμβάνει τις υλοποιήσεις που αναπτύχθηκαν, όπου
αναλύονται τα στάδια προεπεξεργασίας των δεδομένων, εξαγωγής χαρακτηριστικών καθώς
και η δομή σε συνδυασμό με τις λειτουργία των Νευρωνικών Δικτύων που αποτελούνται από
Συνελικτικά και Επαναλαμβανόμενα Δίκτυα. Τέλος, συνοψίζουμε τα αποτελέσματά μας και
καταλήγουμε στα συμπεράσματα των μοντέλων που δοκιμάστηκαν για τα δύο σετ
δεδομένων. Ταυτόχρονα, λόγω της εξάπλωσης του τομέα αναγνώρισης φωνητικών εντολών,
ανοίγουν πολλά πεδία προς μελέτη. |
author2 |
Tantoulas, Konstantinos |
author_facet |
Tantoulas, Konstantinos Τάντουλας, Κωνσταντίνος |
author |
Τάντουλας, Κωνσταντίνος |
author_sort |
Τάντουλας, Κωνσταντίνος |
title |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_short |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_full |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_fullStr |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_full_unstemmed |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_sort |
αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
publishDate |
2022 |
url |
https://hdl.handle.net/10889/23554 |
work_keys_str_mv |
AT tantoulaskōnstantinos anagnōrisēphōnētikōnentolōnmetechnikesbathiasmēchanikēsmathēsēs AT tantoulaskōnstantinos voicecommandrecognitionusingdeeplearningtechniques |
_version_ |
1771297339285176320 |
spelling |
nemertes-10889-235542022-11-01T04:37:34Z Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης Voice command recognition using deep learning techniques Τάντουλας, Κωνσταντίνος Tantoulas, Konstantinos Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Επαναλαμβανόμενα νευρωνικά δίκτυα Αυτόματη αναγνώριση ομιλίας Κατηγοριοποίηση φωνητικών εντολών Αναγνώριση ομοιότητας φωνητικών εντολών Machine learning Deep learning Convolutional neural networks Automatic speech recognition Σε μια εποχή όπου η τεχνολογία είναι αναπόσπαστο μέρος του τρόπου ζωής μας, η σημασία των συστημάτων αναγνώρισης ομιλίας , η δουλειά των οποίων είναι να δημιουργούν κείμενο από ήχο, αυξάνεται καθώς ο αριθμός των εφαρμογών αυτών των συστημάτων πληθαίνει ραγδαία. Τέτοιες εφαρμογές εμφανίζονται σε οικιακούς βοηθούς(voice assistants) όπως Alexa ή Siri, συσκευές έξυπνων σπιτιών, ενώ βοηθούν πολλά άτομα με ειδικές ανάγκες τα οποία αδυνατούν να πληκτρολογήσουν και έχουν πλέον υιοθετήσει συστήματα αναγνώρισης ομιλίας. Ωστόσο, η εκπαίδευση τέτοιων συστημάτων είναι μια δύσκολη διαδικασία, καθώς απαιτείται κατάλληλη προεπεξεργασία των σημάτων ήχου, πρόσβαση σε υψηλή υπολογιστική ισχύ και μεγάλο όγκο δεδομένων εκπαίδευσης. Στην παρούσα Διπλωματική Εργασία μελετήσαμε και υλοποιήσαμε ένα αποδοτικό σύστημα αναγνώρισης φωνητικών εντολών με χρήση μοντέλων Βαθιάς Μηχανικής Μάθησης. Στο πρώτο κεφάλαιο αναλύεται η σημασία του προβλήματος, οι δυσκολίες της αναγνώρισης ομιλίας από ένα υπολογιστή και η προσέγγιση μιας τέτοιας υλοποίησης. Στη συνέχεια, στο δεύτερο κεφάλαιο, γίνεται μια εισαγωγή στη Μηχανική Μάθηση και αναφορά στις βασικές έννοιες Νευρωνικών Δικτύων που απαιτούνται για την περαιτέρω κατανόηση των κεφαλαίων που ακολουθούν. Στο τρίτο κεφάλαιο περιγράφονται αναλυτικά τα δύο διαφορετικά σετ δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του συστήματος, η διαδικασία εξαγωγής χαρακτηριστικών των φωνητικών εντολών και οι μέθοδοι προσαύξησης δεδομένων που εφαρμόστηκαν. Το επόμενο κεφάλαιο περιλαμβάνει τις υλοποιήσεις που αναπτύχθηκαν, όπου αναλύονται τα στάδια προεπεξεργασίας των δεδομένων, εξαγωγής χαρακτηριστικών καθώς και η δομή σε συνδυασμό με τις λειτουργία των Νευρωνικών Δικτύων που αποτελούνται από Συνελικτικά και Επαναλαμβανόμενα Δίκτυα. Τέλος, συνοψίζουμε τα αποτελέσματά μας και καταλήγουμε στα συμπεράσματα των μοντέλων που δοκιμάστηκαν για τα δύο σετ δεδομένων. Ταυτόχρονα, λόγω της εξάπλωσης του τομέα αναγνώρισης φωνητικών εντολών, ανοίγουν πολλά πεδία προς μελέτη. In a time where technology is an inextricable part of our lifestyle, the importance of speech recognition systems, whose job is to create text from sound, is increasing as the number of applications of these systems is expanding rapidly. Such applications appear in home assistants (voice assistants) such as Alexa or Siri, smart home devices, while also help many disabled people who are unable to type and have now adopted speech recognition systems. However, training such systems is a difficult process, as it requires appropriate pre-processing of the audio signals, access to high computing power, and a large amount of training data. In this Diploma Thesis we studied and implemented an efficient voice command recognition system using Deep Learning models. The first chapter analyzes the importance of the problem, the difficulties of speech recognition by a computer and the approach of such an implementation. Then, in the second chapter, there is an introduction to Machine Learning and a reference to the basic concepts of Neural Networks, required to understand the following chapters. The third chapter describes in detail the two different datasets used to train the system, the feature extraction process for the voice commands and the data augmentation methods that were applied. The implementations analyzed in the next chapter include the stages of data pre-processing and feature extraction combined with the architecture and functionality of Neural Networks consisting of Convolutional and Recurrent Networks. Finally, we summarize our results and come to the conclusions obtained after experiments. At the same time, due to the expansion of the field of speech recognition, many fields are opened for study. 2022-10-31T11:02:33Z 2022-10-31T11:02:33Z 2022-09-28 https://hdl.handle.net/10889/23554 el application/pdf |