Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης

Σε μια εποχή όπου η τεχνολογία είναι αναπόσπαστο μέρος του τρόπου ζωής μας, η σημασία των συστημάτων αναγνώρισης ομιλίας , η δουλειά των οποίων είναι να δημιουργούν κείμενο από ήχο, αυξάνεται καθώς ο αριθμός των εφαρμογών αυτών των συστημάτων πληθαίνει ραγδαία. Τέτοιες εφαρμογές εμφανίζονται σε οικι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τάντουλας, Κωνσταντίνος
Άλλοι συγγραφείς: Tantoulas, Konstantinos
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23554
Περιγραφή
Περίληψη:Σε μια εποχή όπου η τεχνολογία είναι αναπόσπαστο μέρος του τρόπου ζωής μας, η σημασία των συστημάτων αναγνώρισης ομιλίας , η δουλειά των οποίων είναι να δημιουργούν κείμενο από ήχο, αυξάνεται καθώς ο αριθμός των εφαρμογών αυτών των συστημάτων πληθαίνει ραγδαία. Τέτοιες εφαρμογές εμφανίζονται σε οικιακούς βοηθούς(voice assistants) όπως Alexa ή Siri, συσκευές έξυπνων σπιτιών, ενώ βοηθούν πολλά άτομα με ειδικές ανάγκες τα οποία αδυνατούν να πληκτρολογήσουν και έχουν πλέον υιοθετήσει συστήματα αναγνώρισης ομιλίας. Ωστόσο, η εκπαίδευση τέτοιων συστημάτων είναι μια δύσκολη διαδικασία, καθώς απαιτείται κατάλληλη προεπεξεργασία των σημάτων ήχου, πρόσβαση σε υψηλή υπολογιστική ισχύ και μεγάλο όγκο δεδομένων εκπαίδευσης. Στην παρούσα Διπλωματική Εργασία μελετήσαμε και υλοποιήσαμε ένα αποδοτικό σύστημα αναγνώρισης φωνητικών εντολών με χρήση μοντέλων Βαθιάς Μηχανικής Μάθησης. Στο πρώτο κεφάλαιο αναλύεται η σημασία του προβλήματος, οι δυσκολίες της αναγνώρισης ομιλίας από ένα υπολογιστή και η προσέγγιση μιας τέτοιας υλοποίησης. Στη συνέχεια, στο δεύτερο κεφάλαιο, γίνεται μια εισαγωγή στη Μηχανική Μάθηση και αναφορά στις βασικές έννοιες Νευρωνικών Δικτύων που απαιτούνται για την περαιτέρω κατανόηση των κεφαλαίων που ακολουθούν. Στο τρίτο κεφάλαιο περιγράφονται αναλυτικά τα δύο διαφορετικά σετ δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του συστήματος, η διαδικασία εξαγωγής χαρακτηριστικών των φωνητικών εντολών και οι μέθοδοι προσαύξησης δεδομένων που εφαρμόστηκαν. Το επόμενο κεφάλαιο περιλαμβάνει τις υλοποιήσεις που αναπτύχθηκαν, όπου αναλύονται τα στάδια προεπεξεργασίας των δεδομένων, εξαγωγής χαρακτηριστικών καθώς και η δομή σε συνδυασμό με τις λειτουργία των Νευρωνικών Δικτύων που αποτελούνται από Συνελικτικά και Επαναλαμβανόμενα Δίκτυα. Τέλος, συνοψίζουμε τα αποτελέσματά μας και καταλήγουμε στα συμπεράσματα των μοντέλων που δοκιμάστηκαν για τα δύο σετ δεδομένων. Ταυτόχρονα, λόγω της εξάπλωσης του τομέα αναγνώρισης φωνητικών εντολών, ανοίγουν πολλά πεδία προς μελέτη.