Ανάπτυξη εργαλείου για την απομόνωση και εξαγωγή φωνητικού περιεχομένου από ένα σύνολο ηχητικών σημάτων

Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Θεοδώρου, Θεόδωρος-Μιχαήλ
Άλλοι συγγραφείς: Theodorou, Theodoros-Michail
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23642
Περιγραφή
Περίληψη:Η Ψηφιακή Επεξεργασία ΄Ηχου δεν είναι μια πρόσφατη εφεύρεση, ωστόσο με την ταχεία εξέλιξη της Ανάκτησης Μουσικών Πληροφοριών (MIR) και την αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό οι εφαρμογές της έχουν τραβήξει τα βλέματα της ερευνητικής κοινότητας. Το μέλλον σε αυτόν τον τομέα φαίνεται να ανθίζει και ερευνητές από όλο τον κόσμο συνεισφέρουν, σχέδιάζοντας νέες αρχιτεκτονικές, εξερευνώντας νέες προσεγγίσεις και βελτιστοποιώντας την δύσκολη και χρονοβόρα διαδικασία εκπαίδευσης βαθέων αρχιτεκτονικών με πολλά δεδομένα. Σε αυτή τη Διπλωματική Εργασία παρουσιάζεται η διαδικασία ανάπτυξης και σχεδίασης Συνελικτικών Νευρωνικών Δικτύων CNN με Επιβλεπόμενη Μάθηση αξιοποιώντας τη Ιδανική Δυαδική Μάσκα IBM ως ετικέτα εξόδου, με σκοπό τον Διαχωρισμό και την Απομόνωση Φωνητικού Περιεχομένου σε Μουσικά κομμάτια, ένα πρόβλημα που ανάγεται στην κατηγορία του Διαχωρισμού Μουσικής Πηγής - Music Source Separation (MSS). Για την εκπαίδευση των προτεινόμενων αρχιτεκτονικών έχουν χρησιμοποιηθέι μουσικά δεδομένα, που διαθέτουν τμήματα από φασματογραφήματα τραγούδιών (είσοδος) και IBM των απομονωνομένων φωνητικών τους (στόχος). Δεδομένης της σημασία των δεδομένων στην ανάπτυξη ένος τέτοιου δικτύου με μέγαλη ακρίβεια, η συνεισφορά μας στο παρών σύγγραμα δεν περιορίζεται μόνο στην ανάπτυξη ένος συστήματος Διαχωρισμού Τραγουδιστικής Φωνής - Singing Voice Separation (SVS) αλλά και στην ανάπτυξη ενός δυναμικού εργαλείου προ-επεξεργασίας δεδομένων. Επιπροσθέτως, υλοποιείται απομόνωση σε σήματα ομιλίας και αναπνευστικού ήχου (respiratory) από περιβάλλον με θόρυβο με τεχνικές Knowledge και Data-Driven προκειμένου να καλυφθεί ένα μεγαλύτερο φάσμα στον Διαχωρισμό Πηγής ΄Ηχου - Sound Source Separation (SSS). Τέλος, αναλύονται και αξιολογούνται τα αποτελέσματα των προτεινόμενων Συνελικτικών Νευρωνικών Δικτύων μεταξύ άλλων State-of-the-art αρχιτεκτονικών, μέσω του λογισμικού που αναπτύχθηκε και άλλων Python βιβλιοθηκών αξιολόγησης ποιότητας ήχου. Ο κώδικας ανάπτυξης των διάφορων εργαλείων διαχείρισης και διαχωρισμού ηχητικών σημάτων αναπτύχθηκε σε γλώσσα προγραμματισμού Python και Keras framework.