Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων
Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/23642 |
id |
nemertes-10889-23642 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ψηφιακή επεξεργασία ήχου Ιδανική δυαδική μάσκα Διαχωρισμός μουσικών πηγών Βαθία εκμάθηση Συνελικτικά νευρωνικά δίκτυα Διαχωρισμός τραγουδιστικής φωνής Digital audio signal processing Ideal binary mask Music source separation Deep learning Convolutional neural networks Singing voice separation |
spellingShingle |
Ψηφιακή επεξεργασία ήχου Ιδανική δυαδική μάσκα Διαχωρισμός μουσικών πηγών Βαθία εκμάθηση Συνελικτικά νευρωνικά δίκτυα Διαχωρισμός τραγουδιστικής φωνής Digital audio signal processing Ideal binary mask Music source separation Deep learning Convolutional neural networks Singing voice separation Θεοδώρου, Θεόδωρος-Μιχαήλ Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
description |
Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την
ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του
όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να ανθίζει
και ερευνητές από όλο τον κόσμο συνεισφέρουν, σχέδιάζοντας νέες αρχιτεκτονικές,
εξερευνώντας νέες προσεγγίσεις και βελτιστοποιώντας την δύσκολη και χρονοβόρα
διαδικασία εκπαίδευσης βαθέων αρχιτεκτονικών με πολλά δεδομένα. Σε αυτή τη Διπλωματική Εργασία παρουσιάζεται η διαδικασία ανάπτυξης και σχεδίασης Συνελικτικών
Νευρωνικών Δικτύων CNN με Επιβλεπόμενη Μάθηση αξιοποιώντας τη Ιδανική Δυαδική Μάσκα IBM ως ετικέτα εξόδου, με σκοπό
τον Διαχωρισμό και την Απομόνωση Φωνητικού Περιεχομένου σε Μουσικά κομμάτια,
ένα πρόβλημα που ανάγεται στην κατηγορία του Διαχωρισμού Μουσικής Πηγής - Music Source Separation (MSS). Για την εκπαίδευση των προτεινόμενων αρχιτεκτονικών
έχουν χρησιμοποιηθέι μουσικά δεδομένα, που διαθέτουν τμήματα από
φασματογραφήματα τραγούδιών (είσοδος) και IBM των απομονωνομένων φωνητικών τους (στόχος). Δεδομένης της σημασία των δεδομένων στην ανάπτυξη
ένος τέτοιου δικτύου με μέγαλη ακρίβεια, η συνεισφορά μας στο παρών σύγγραμα
δεν περιορίζεται μόνο στην ανάπτυξη ένος συστήματος Διαχωρισμού Τραγουδιστικής
Φωνής - Singing Voice Separation (SVS) αλλά και στην ανάπτυξη ενός δυναμικού
εργαλείου προ-επεξεργασίας δεδομένων. Επιπροσθέτως, υλοποιείται απομόνωση σε σήματα
ομιλίας και αναπνευστικού ήχου (respiratory) από περιβάλλον με θόρυβο με τεχνικές
Knowledge και Data-Driven προκειμένου να καλυφθεί ένα μεγαλύτερο φάσμα στον
Διαχωρισμό Πηγής ΄Ηχου - Sound Source Separation (SSS). Τέλος, αναλύονται και αξιολογούνται τα αποτελέσματα των προτεινόμενων Συνελικτικών Νευρωνικών Δικτύων
μεταξύ άλλων State-of-the-art αρχιτεκτονικών, μέσω του λογισμικού που αναπτύχθηκε
και άλλων Python βιβλιοθηκών αξιολόγησης ποιότητας ήχου. Ο κώδικας ανάπτυξης των διάφορων
εργαλείων διαχείρισης και διαχωρισμού ηχητικών σημάτων αναπτύχθηκε σε γλώσσα
προγραμματισμού Python και Keras framework. |
author2 |
Theodorou, Theodoros-Michail |
author_facet |
Theodorou, Theodoros-Michail Θεοδώρου, Θεόδωρος-Μιχαήλ |
author |
Θεοδώρου, Θεόδωρος-Μιχαήλ |
author_sort |
Θεοδώρου, Θεόδωρος-Μιχαήλ |
title |
Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
title_short |
Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
title_full |
Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
title_fullStr |
Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
title_full_unstemmed |
Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
title_sort |
ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων |
publishDate |
2022 |
url |
https://hdl.handle.net/10889/23642 |
work_keys_str_mv |
AT theodōroutheodōrosmichaēl anaptyxēergaleiougiatēnapomonōsēkaiexagōgēphōnētikouperiechomenouapoenasynoloēchētikōnsēmatōn AT theodōroutheodōrosmichaēl tooldevelopmentfortheisolationandextractionofvocalcontentfromamixtureofaudiosignals |
_version_ |
1771297343766790144 |
spelling |
nemertes-10889-236422022-11-04T04:38:05Z Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων Tool development for the isolation and extraction of vocal content from a mixture of audio signals Θεοδώρου, Θεόδωρος-Μιχαήλ Theodorou, Theodoros-Michail Ψηφιακή επεξεργασία ήχου Ιδανική δυαδική μάσκα Διαχωρισμός μουσικών πηγών Βαθία εκμάθηση Συνελικτικά νευρωνικά δίκτυα Διαχωρισμός τραγουδιστικής φωνής Digital audio signal processing Ideal binary mask Music source separation Deep learning Convolutional neural networks Singing voice separation Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να ανθίζει και ερευνητές από όλο τον κόσμο συνεισφέρουν, σχέδιάζοντας νέες αρχιτεκτονικές, εξερευνώντας νέες προσεγγίσεις και βελτιστοποιώντας την δύσκολη και χρονοβόρα διαδικασία εκπαίδευσης βαθέων αρχιτεκτονικών με πολλά δεδομένα. Σε αυτή τη Διπλωματική Εργασία παρουσιάζεται η διαδικασία ανάπτυξης και σχεδίασης Συνελικτικών Νευρωνικών Δικτύων CNN με Επιβλεπόμενη Μάθηση αξιοποιώντας τη Ιδανική Δυαδική Μάσκα IBM ως ετικέτα εξόδου, με σκοπό τον Διαχωρισμό και την Απομόνωση Φωνητικού Περιεχομένου σε Μουσικά κομμάτια, ένα πρόβλημα που ανάγεται στην κατηγορία του Διαχωρισμού Μουσικής Πηγής - Music Source Separation (MSS). Για την εκπαίδευση των προτεινόμενων αρχιτεκτονικών έχουν χρησιμοποιηθέι μουσικά δεδομένα, που διαθέτουν τμήματα από φασματογραφήματα τραγούδιών (είσοδος) και IBM των απομονωνομένων φωνητικών τους (στόχος). Δεδομένης της σημασία των δεδομένων στην ανάπτυξη ένος τέτοιου δικτύου με μέγαλη ακρίβεια, η συνεισφορά μας στο παρών σύγγραμα δεν περιορίζεται μόνο στην ανάπτυξη ένος συστήματος Διαχωρισμού Τραγουδιστικής Φωνής - Singing Voice Separation (SVS) αλλά και στην ανάπτυξη ενός δυναμικού εργαλείου προ-επεξεργασίας δεδομένων. Επιπροσθέτως, υλοποιείται απομόνωση σε σήματα ομιλίας και αναπνευστικού ήχου (respiratory) από περιβάλλον με θόρυβο με τεχνικές Knowledge και Data-Driven προκειμένου να καλυφθεί ένα μεγαλύτερο φάσμα στον Διαχωρισμό Πηγής ΄Ηχου - Sound Source Separation (SSS). Τέλος, αναλύονται και αξιολογούνται τα αποτελέσματα των προτεινόμενων Συνελικτικών Νευρωνικών Δικτύων μεταξύ άλλων State-of-the-art αρχιτεκτονικών, μέσω του λογισμικού που αναπτύχθηκε και άλλων Python βιβλιοθηκών αξιολόγησης ποιότητας ήχου. Ο κώδικας ανάπτυξης των διάφορων εργαλείων διαχείρισης και διαχωρισμού ηχητικών σημάτων αναπτύχθηκε σε γλώσσα προγραμματισμού Python και Keras framework. The Digital Audio Signal Processing is not a recent innovation, however, due to the fast development of the Music Information Retrieval (MIR) and the proliferation of information on the World Wide Web, its applications have grabbed the attention of researchers. The future of this domain seems quite auspicious and researchers throughout the world contribute their expertise by designing novel architectures, examining innovative approaches and optimizing the challenging process of training Deep Neural Networks with a bulk of information. In this dissertation we present the process of developing and designing Convolutional Neural Networks CNN with Supervised Learning utilizing the Ideal Binary Mask IBM aiming to achieve the Separation and Isolation of Vocals in Musical Pieces -a problem that is traced to the category of Music Source Separation (MSS). For the training process of the proposed architectures we have used exclusively musical data which include excerpts of spectrograms and the IBMs of their isolated vocals (feature - label). Given the significance of the data in the development of such a highly accurate network, our contribution to the present research will not be limited simply to the development of a Singing Voice Separation (SVS) software, but we also contribute by developing an abstract data pre-processing tool. Additionally, a Knowledge and a Data-Driven approach of speech and respiratory audio signals in a noisy environment separation implemented in order to cover an extensive spectrum of Sound Source Separation (SSS). Last but not least we have analyzed and assessed the results of the recommended Convolutional Neural Networks among others State-of-the-art architectures, through the developed software and other Python sound quality evaluation libraries. The code of the various audio signal tools is developed in Python programming language and Keras framework. 2022-11-03T11:22:57Z 2022-11-03T11:22:57Z 2022-11-02 https://hdl.handle.net/10889/23642 el Attribution-NonCommercial 3.0 United States http://creativecommons.org/licenses/by-nc/3.0/us/ application/pdf |