Signal processing methods for enhancing speech and music signals in reverberant environments
This thesis presents novel signal processing algorithms for speech and music dereverberation. The proposed algorithms focus on blind single-channel suppression of late reverberation; however binaural and semi-blind methods have also been introduced. Late reverberation is a particularly harmful disto...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | English |
Έκδοση: |
2011
|
Θέματα: | |
Διαθέσιμο Online: | http://nemertes.lis.upatras.gr/jspui/handle/10889/4710 |
id |
nemertes-10889-4710 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
Digital signal processing Room accoustics Psychoacoustics Dereverberation Noise suppression Automatic speech recognition Speech processing Music processing Ψηφιακή επεξεργασία σήματος Ακουστική χώρων Ψυχοακουστική Αφαίρεση αντήχησης Αφαίρεση ακουστικού θορύβου Αυτόματη αναγνώριση ομιλίας Επεξεργασία μουσικής 621.382 24 |
spellingShingle |
Digital signal processing Room accoustics Psychoacoustics Dereverberation Noise suppression Automatic speech recognition Speech processing Music processing Ψηφιακή επεξεργασία σήματος Ακουστική χώρων Ψυχοακουστική Αφαίρεση αντήχησης Αφαίρεση ακουστικού θορύβου Αυτόματη αναγνώριση ομιλίας Επεξεργασία μουσικής 621.382 24 Τσιλφίδης, Αλέξανδρος Signal processing methods for enhancing speech and music signals in reverberant environments |
description |
This thesis presents novel signal processing algorithms for speech and music dereverberation. The proposed algorithms focus on blind single-channel suppression of late reverberation; however binaural and semi-blind methods have also been introduced. Late reverberation is a particularly harmful distortion, since it significantly decreases the perceived quality of the reverberant signals but also degrades the performance of Automatic Speech Recognition (ASR) systems and other speech and music processing algorithms. Hence, the proposed deverberation methods can be either used as standalone enhancing techniques or implemented as preprocessing schemes prior to ASR or other applied systems.
The main dereverberation method proposed here is a blind dereverberation technique based on perceptual reverberation modeling has been developed. This technique employs a computational auditory masking model and locates the signal regions where late reverberation is audible, i.e. where it is unmasked from the clean signal components. Following a selective signal processing approach, only such signal regions are further processed through sub-band gain filtering. The above technique has been evaluated for both speech and music signals and for a wide range of reverberation conditions. In all cases it was found to minimize the processing artifacts and to produce perceptually superior clean signal estimations than any other tested technique. Moreover, extensive ASR tests have shown that it significantly improves the recognition performance, especially in highly reverberant environments. |
author2 |
Μουρτζόπουλος, Ιωάννης |
author_facet |
Μουρτζόπουλος, Ιωάννης Τσιλφίδης, Αλέξανδρος |
format |
Thesis |
author |
Τσιλφίδης, Αλέξανδρος |
author_sort |
Τσιλφίδης, Αλέξανδρος |
title |
Signal processing methods for enhancing speech and music signals in reverberant environments |
title_short |
Signal processing methods for enhancing speech and music signals in reverberant environments |
title_full |
Signal processing methods for enhancing speech and music signals in reverberant environments |
title_fullStr |
Signal processing methods for enhancing speech and music signals in reverberant environments |
title_full_unstemmed |
Signal processing methods for enhancing speech and music signals in reverberant environments |
title_sort |
signal processing methods for enhancing speech and music signals in reverberant environments |
publishDate |
2011 |
url |
http://nemertes.lis.upatras.gr/jspui/handle/10889/4710 |
work_keys_str_mv |
AT tsilphidēsalexandros signalprocessingmethodsforenhancingspeechandmusicsignalsinreverberantenvironments AT tsilphidēsalexandros methodoianalysēskaipsēphiakēsepexergasiasgiatēnbeltiōsēsēmatōnomiliaskaimousikēssechōrousmeantēchēsē |
_version_ |
1771297327515959296 |
spelling |
nemertes-10889-47102022-09-05T20:40:58Z Signal processing methods for enhancing speech and music signals in reverberant environments Μέθοδοι ανάλυσης και ψηφιακής επεξεργασίας για την βελτίωση σημάτων ομιλίας και μουσικής σε χώρους με αντήχηση Τσιλφίδης, Αλέξανδρος Μουρτζόπουλος, Ιωάννης Μουρτζόπουλος, Ιωάννης Φακωτάκης, Νικόλαος Δερματάς, Ευάγγελος Αναστασόπουλος, Βασίλειος Μπερμπερίδης, Κωνσταντίνος Σκαρλάτος, Δημήτριος Τουμπακάρης, Δημήτριος-Αλέξανδρος Tsilfidis, Alexandros Digital signal processing Room accoustics Psychoacoustics Dereverberation Noise suppression Automatic speech recognition Speech processing Music processing Ψηφιακή επεξεργασία σήματος Ακουστική χώρων Ψυχοακουστική Αφαίρεση αντήχησης Αφαίρεση ακουστικού θορύβου Αυτόματη αναγνώριση ομιλίας Επεξεργασία μουσικής 621.382 24 This thesis presents novel signal processing algorithms for speech and music dereverberation. The proposed algorithms focus on blind single-channel suppression of late reverberation; however binaural and semi-blind methods have also been introduced. Late reverberation is a particularly harmful distortion, since it significantly decreases the perceived quality of the reverberant signals but also degrades the performance of Automatic Speech Recognition (ASR) systems and other speech and music processing algorithms. Hence, the proposed deverberation methods can be either used as standalone enhancing techniques or implemented as preprocessing schemes prior to ASR or other applied systems. The main dereverberation method proposed here is a blind dereverberation technique based on perceptual reverberation modeling has been developed. This technique employs a computational auditory masking model and locates the signal regions where late reverberation is audible, i.e. where it is unmasked from the clean signal components. Following a selective signal processing approach, only such signal regions are further processed through sub-band gain filtering. The above technique has been evaluated for both speech and music signals and for a wide range of reverberation conditions. In all cases it was found to minimize the processing artifacts and to produce perceptually superior clean signal estimations than any other tested technique. Moreover, extensive ASR tests have shown that it significantly improves the recognition performance, especially in highly reverberant environments. Η διατριβή αποτελείται από εννιά κεφάλαια, δύο παραρτήματα καθώς και την σχετική βιβλιογραφία. Είναι γραμμένη στα αγγλικά ενώ περιλαμβάνει και ελληνική περίληψη. Στην παρούσα διατριβή, αναπτύσσονται μεθόδοι ψηφιακής επεξεργασίας σήματος για την αφαίρεση αντήχησης από σήματα ομιλίας και μουσικής. Οι προτεινόμενοι αλγόριθμοι καλύπτουν ένα μεγάλο εύρος εφαρμογών αρχικά εστιάζοντας στην τυφλή (“blind”) αφαίρεση για μονοκαναλικά σήματα. Στοχεύοντας σε πιο ειδικά σενάρια χρήσης προτείνονται επίσης αμφιωτικοί αλγόριθμοι αλλά και τεχνικές που προϋποθέτουν την πραγματοποίηση κάποιας ακουστικής μέτρησης. Οι αλγόριθμοι επικεντρώνουν στην αφαίρεση της καθυστερημένης αντήχησης που είναι ιδιαίτερα επιβλαβής για την ποιότητα σημάτων ομιλίας και μουσικής και μειώνει την καταληπτότητα της ομιλίας. Επίσης, επειδή αλλοιώνει σημαντικά τα στατιστικά των σημάτων, μειώνει σημαντικά την απόδοση συστημάτων αυτόματης αναγνώρισης ομιλίας καθώς και άλλων αλγορίθμων ψηφιακής επεξεργασίας ομιλίας και μουσικής. Έτσι οι προτεινόμενοι αλγόριθμοι μπορούν είτε να χρησιμοποιηθούν σαν αυτόνομες τεχνικές βελτίωσης της ποιότητας των ακουστικών σημάτων είτε να ενσωματωθούν σαν στάδια προ-επεξεργασίας σε άλλες εφαρμογές. Η κύρια μέθοδος αφαίρεσης αντήχησης που προτείνεται στην διατριβή, είναι βασισμένη στην αντιληπτική μοντελοποίηση και χρησιμοποιεί ένα σύγχρονο ψυχοακουστικό μοντέλο. Με βάση αυτό το μοντέλο γίνεται μία εκτίμηση των σημείων του σήματος που η αντήχηση είναι ακουστή δηλαδή που δεν επικαλύπτεται από το ισχυρότερο σε ένταση καθαρό από αντήχηση σήμα. Η συγκεκριμένη εκτίμηση οδηγεί σε μία επιλεκτική επεξεργασία σήματος όπου η αφαίρεση πραγματοποιείται σε αυτά και μόνο τα σημεία, μέσω πρωτότυπων υβριδικών συναρτήσεων κέρδους που βασίζονται σε δείκτες αντικειμενικής και υποκειμενικής αλλοίωσης. Εκτεταμένα αντικειμενικά και υποκειμενικά πειράματα δείχνουν ότι η προτεινόμενη τεχνική δίνει βέλτιστες ποιοτικά ανηχωικές εκτιμήσεις ανεξάρτητα από το μέγεθος του χώρου. 2011-10-06T06:28:08Z 2011-10-06T06:28:08Z 2011-06-22 2011-10-06T06:28:08Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/4710 en Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. 0 application/pdf |