Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίων

Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας: (1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σιαφαρίκας, Μιχαήλ
Άλλοι συγγραφείς: Φακωτάκης, Νικόλαος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2010
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/3617
Περιγραφή
Περίληψη:Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας: (1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων κυματιδίων για την προσέγγιση της ψυχοακουστικής επίδρασης των κρίσιμων ζωνών του ακουστικού συστήματος ενσωματώνοντας τις τελευταίες εξελίξεις για τον υπολογισμό τους. (2) Η δεύτερη μέθοδος εισάγει μια επέκταση του μετασχηματισμού πακέτων κυματιδίων, τον επικαλυπτόμενο μετασχηματισμό πακέτων κυματιδίων, ο οποίος χρησιμοποιείται για να δοθεί έμφαση στις περιοχές αλλαγής των κρίσιμων ζωνών από μια μικρότερη σε μια μεγαλύτερη τιμή. (3) Η τρίτη μέθοδος αξιολογεί τη συνεισφορά μη επικαλυπτόμενων ζωνών συχνοτήτων στην αναγνώριση ομιλητή και κατασκευάζεται ανάλογα ένας μετασχηματισμός πακέτων κυματιδίων ο οποίος προσαρμόζει την συχνοτική του ανάλυση σύμφωνα με την απόδοση κάθε μίας από τις ζώνες. (4) Η τέταρτη μέθοδος επιλέγει τη βέλτιστη βάση από το σύνολο των μετασχηματισμών που είναι διαθέσιμοι με τα πακέτα κυματιδίων με εφαρμογή την αναγνώριση ομιλητή και κριτήριο το μέτρο EER. Οι παραπάνω τέσσερις τρόποι παραμετροποίησης του σήματος ομιλίας αξιολογήθηκαν με το σύστημα αναγνώρισης ομιλητή WCL-1 του εργαστηρίου ενσύρματης τηλεπικοινωνίας του Πανεπιστημίου Πατρών στις βάσεις δεδομένων POLYCOST και NIST και αποδείχθηκε η ανωτερότητά τους τόσο σε σχέση με προηγούμενες μεθόδους των κυματιδίων όσο και σε σχέση με ευρέως χρησιμοποιούμενες παραμέτρους ομιλίας, όπως οι παράμετροι cepstral με βάση την κλίμακα mel (MFCC). Επιπλέον, στη διατριβή αναλύονται οι ιδιότητες των σημαντικότερων συναρτήσεων κυματιδίων, επιλέγεται η βέλτιστη για την αναπαράσταση του σήματος ομιλίας και πιστοποιείται στην πράξη αυτή η επιλογή. Τέλος, οι δύο πρώτες από τις προαναφερόμενες μεθόδους παραμετροποίησης τροποποιήθηκαν και επεκτάθηκαν κατάλληλα για την εφαρμογή στην αναγνώριση ομιλίας όπου αξιολογήθηκαν και διαπιστώθηκε η υπεροχή τους έναντι παραδοσιακών και ευρέως διαδεδομένων μεθόδων παραμετροποίησης του σήματος ομιλίας που στηρίζονται στον μετασχηματισμό Fourier. Το κύριο συμπέρασμα που προέκυψε από τη παρούσα διδακτορική διατριβή είναι ότι τα κυματίδια και συγκεκριμένα τα πακέτα κυματιδίων είναι δυνατόν να χρησιμοποιηθούν με επιτυχία στη βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας.