Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης
Η πραγματικά μεγάλη αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό την τελευταία δεκαετία αποτελεί γεγονός, το οποίο σαφώς και είναι άμεσα συνδεδεμένο με την αλματώδη εξέλιξη της τεχνολογίας. Υπέρογκος αριθμός δεδομένων αποθηκεύονται σε βάσεις δεδομένων. Για το λόγο αυτό, αυξήθηκε η ανάγκη ανακάλυ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://nemertes.library.upatras.gr/handle/10889/23290 |
id |
nemertes-10889-23290 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-232902022-09-24T06:22:02Z Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης Recognition of voice commands with deep learning techniques Δημητρούκα, Γιαννούλα Dimitrouka, Giannoula Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση ομιλίας Αλγόριθμοι κατηγοριοποίησης Machine learning Deep learning Convolutional neural networks Speech recognition Classification algorithms Η πραγματικά μεγάλη αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό την τελευταία δεκαετία αποτελεί γεγονός, το οποίο σαφώς και είναι άμεσα συνδεδεμένο με την αλματώδη εξέλιξη της τεχνολογίας. Υπέρογκος αριθμός δεδομένων αποθηκεύονται σε βάσεις δεδομένων. Για το λόγο αυτό, αυξήθηκε η ανάγκη ανακάλυψης και εξαγωγής γνώσης από τα δεδομένα αυτά που θα πραγματοποιείται αυτόματα με μεθόδους Μηχανικής Μάθησης και Βαθιάς Μάθησης. Στην παρούσα εργασία θα επικεντρωθούμε σε ένα επιμέρους πεδίο έρευνας της Βαθιάς Μάθησης, αυτό της αναγνώριση ομιλίας. Σκοπός της διπλωματικής είναι να λυθεί το πρόβλημα κατηγοριοποίησης πολλαπλών κλάσεων χρησιμοποιώντας δεδομένα ήχου. Αρχικά, γίνεται αναφορά μεθόδων κατηγοριοποίησης, όπως για παράδειγμα, η Μηχανή Υπο-στήριξης Διανυσμάτων, ο Τυχαίο Δάσος, ο Δένδρο Απόφασης, ο Κ-Πλησιέστερος Γείτονες και ο Αφελής Μπεϋζιανός Ταξινομητής. Επιπλέον, αναλύονται εκτενώς, τα Τεχνητά νευρωνικά δίκτυα και οι αρχιτεκτονικές τους. Στο πλαίσιο της πειραματικής διαδικασίας, τα δεδομένα που χρησιμοποιούνται, περιορίζονται σε ένα σύνολο δεδομένων τριάντα πέντε κλάσεων, οι οποίες περιλαμβάνουν χιλιάδες ηχητικά αρχεία. Για να πετύχουμε τον σκοπό της διπλωματικής, στο σύνολο αυτό, γίνεται προεπεξεργασία των δεδομένων και ανάπτυξη μοντέλων που είναι σε θέση να κατηγοριοποιούν σύνολα δεδομένων φωνητικών εντολών, χρησιμοποιώ-ντας βιβλιοθήκες της Python, όπως (Matplotlib, TensorFlow, Pandas, NumPy, Scikit-learn). Τέλος, έχει πραγματοποιηθεί μια εκτενής ανάλυση που καταδεικνύει την απόδοσή και την ακρίβειά τους. The very large increase in the volume of information in world history over the last decade is a fact, which is clearly directly connected to the leaping development of technology. Due to digitalization enormous amount of data is stored in databases. Thus, the need to discover and extract knowledge from those to be applied with Machine Learning and Deep Learning meth-ods has been increased. The aim of the thesis applying Deep Learning techniques to solve a multi-class classification problem using audio data. Initially, classification methods are mentioned, for example, Support Vector Machine, Random Forest, Decision Tree, K-Nearest Neighbors and Naive Bayesian Classifier. Additionally, Artificial Neural Networks and their architectures are extensively analyzed. In the context of the experimental procedure, the data used is limited to a dataset of thirty-five classes, which include thousands of audio files. To achieve that purpose, we made use of some Python libraries such as (Matplotlib, TensorFlow, Pandas, NumPy, and Scikit-learn) which help us not only in the data pre-processing but also in the development of our models. Therefore, extensive analysis has been carried out to demonstrate their performance and their accuracy. 2022-09-23T05:59:50Z 2022-09-23T05:59:50Z 2022-09-22 https://nemertes.library.upatras.gr/handle/10889/23290 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση ομιλίας Αλγόριθμοι κατηγοριοποίησης Machine learning Deep learning Convolutional neural networks Speech recognition Classification algorithms |
spellingShingle |
Μηχανική μάθηση Βαθιά μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση ομιλίας Αλγόριθμοι κατηγοριοποίησης Machine learning Deep learning Convolutional neural networks Speech recognition Classification algorithms Δημητρούκα, Γιαννούλα Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
description |
Η πραγματικά μεγάλη αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό την τελευταία δεκαετία αποτελεί γεγονός, το οποίο σαφώς και είναι άμεσα συνδεδεμένο με την αλματώδη εξέλιξη της τεχνολογίας. Υπέρογκος αριθμός δεδομένων αποθηκεύονται σε βάσεις δεδομένων. Για το λόγο αυτό, αυξήθηκε η ανάγκη ανακάλυψης και εξαγωγής γνώσης από τα δεδομένα αυτά που θα πραγματοποιείται αυτόματα με μεθόδους Μηχανικής Μάθησης και Βαθιάς Μάθησης. Στην παρούσα εργασία θα επικεντρωθούμε σε ένα επιμέρους πεδίο έρευνας της Βαθιάς Μάθησης, αυτό της αναγνώριση ομιλίας. Σκοπός της διπλωματικής είναι να λυθεί το πρόβλημα κατηγοριοποίησης πολλαπλών κλάσεων χρησιμοποιώντας δεδομένα ήχου. Αρχικά, γίνεται αναφορά μεθόδων κατηγοριοποίησης, όπως για παράδειγμα, η Μηχανή Υπο-στήριξης Διανυσμάτων, ο Τυχαίο Δάσος, ο Δένδρο Απόφασης, ο Κ-Πλησιέστερος Γείτονες και ο Αφελής Μπεϋζιανός Ταξινομητής. Επιπλέον, αναλύονται εκτενώς, τα Τεχνητά νευρωνικά δίκτυα και οι αρχιτεκτονικές τους. Στο πλαίσιο της πειραματικής διαδικασίας, τα δεδομένα που χρησιμοποιούνται, περιορίζονται σε ένα σύνολο δεδομένων τριάντα πέντε κλάσεων, οι οποίες περιλαμβάνουν χιλιάδες ηχητικά αρχεία. Για να πετύχουμε τον σκοπό της διπλωματικής, στο σύνολο αυτό, γίνεται προεπεξεργασία των δεδομένων και ανάπτυξη μοντέλων που είναι σε θέση να κατηγοριοποιούν σύνολα δεδομένων φωνητικών εντολών, χρησιμοποιώ-ντας βιβλιοθήκες της Python, όπως (Matplotlib, TensorFlow, Pandas, NumPy, Scikit-learn). Τέλος, έχει πραγματοποιηθεί μια εκτενής ανάλυση που καταδεικνύει την απόδοσή και την ακρίβειά τους. |
author2 |
Dimitrouka, Giannoula |
author_facet |
Dimitrouka, Giannoula Δημητρούκα, Γιαννούλα |
author |
Δημητρούκα, Γιαννούλα |
author_sort |
Δημητρούκα, Γιαννούλα |
title |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_short |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_full |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_fullStr |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_full_unstemmed |
Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
title_sort |
αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης |
publishDate |
2022 |
url |
https://nemertes.library.upatras.gr/handle/10889/23290 |
work_keys_str_mv |
AT dēmētroukagiannoula anagnōrisēphōnētikōnentolōnmetechnikesbathiasmēchanikēsmathēsēs AT dēmētroukagiannoula recognitionofvoicecommandswithdeeplearningtechniques |
_version_ |
1771297244797992960 |