Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων

Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να...

Full description

Bibliographic Details
Main Author:	Θεοδώρου, Θεόδωρος-Μιχαήλ
Other Authors:	Theodorou, Theodoros-Michail
Language:	Greek
Published:	2022
Subjects:	Ψηφιακή επεξεργασία ήχου Ιδανική δυαδική μάσκα Διαχωρισμός μουσικών πηγών Βαθία εκμάθηση Συνελικτικά νευρωνικά δίκτυα Διαχωρισμός τραγουδιστικής φωνής Digital audio signal processing Ideal binary mask Music source separation Deep learning Convolutional neural networks Singing voice separation
Online Access:	https://hdl.handle.net/10889/23642

Description
Summary:	Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να ανθίζει και ερευνητές από όλο τον κόσμο συνεισφέρουν, σχέδιάζοντας νέες αρχιτεκτονικές, εξερευνώντας νέες προσεγγίσεις και βελτιστοποιώντας την δύσκολη και χρονοβόρα διαδικασία εκπαίδευσης βαθέων αρχιτεκτονικών με πολλά δεδομένα. Σε αυτή τη Διπλωματική Εργασία παρουσιάζεται η διαδικασία ανάπτυξης και σχεδίασης Συνελικτικών Νευρωνικών Δικτύων CNN με Επιβλεπόμενη Μάθηση αξιοποιώντας τη Ιδανική Δυαδική Μάσκα IBM ως ετικέτα εξόδου, με σκοπό τον Διαχωρισμό και την Απομόνωση Φωνητικού Περιεχομένου σε Μουσικά κομμάτια, ένα πρόβλημα που ανάγεται στην κατηγορία του Διαχωρισμού Μουσικής Πηγής - Music Source Separation (MSS). Για την εκπαίδευση των προτεινόμενων αρχιτεκτονικών έχουν χρησιμοποιηθέι μουσικά δεδομένα, που διαθέτουν τμήματα από φασματογραφήματα τραγούδιών (είσοδος) και IBM των απομονωνομένων φωνητικών τους (στόχος). Δεδομένης της σημασία των δεδομένων στην ανάπτυξη ένος τέτοιου δικτύου με μέγαλη ακρίβεια, η συνεισφορά μας στο παρών σύγγραμα δεν περιορίζεται μόνο στην ανάπτυξη ένος συστήματος Διαχωρισμού Τραγουδιστικής Φωνής - Singing Voice Separation (SVS) αλλά και στην ανάπτυξη ενός δυναμικού εργαλείου προ-επεξεργασίας δεδομένων. Επιπροσθέτως, υλοποιείται απομόνωση σε σήματα ομιλίας και αναπνευστικού ήχου (respiratory) από περιβάλλον με θόρυβο με τεχνικές Knowledge και Data-Driven προκειμένου να καλυφθεί ένα μεγαλύτερο φάσμα στον Διαχωρισμό Πηγής ΄Ηχου - Sound Source Separation (SSS). Τέλος, αναλύονται και αξιολογούνται τα αποτελέσματα των προτεινόμενων Συνελικτικών Νευρωνικών Δικτύων μεταξύ άλλων State-of-the-art αρχιτεκτονικών, μέσω του λογισμικού που αναπτύχθηκε και άλλων Python βιβλιοθηκών αξιολόγησης ποιότητας ήχου. Ο κώδικας ανάπτυξης των διάφορων εργαλείων διαχείρισης και διαχωρισμού ηχητικών σημάτων αναπτύχθηκε σε γλώσσα προγραμματισμού Python και Keras framework.

Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων

Similar Items