Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών

Είναι αδιαμφισβήτητο ότι τις τελευταίες δεκαετίες παρατηρείται μια επανάσταση στα πλα- ίσια της μουσικής επεξεργασίας και δημιουργίας. ́Οπως είναι λογικό, βρισκόμαστε πλέον σε μια κατάσταση στην οποία οποιουδήποτε είδους ταξινόμηση δεδομένων δεν είναι δυνατόν να γίνει χειροκίνητα. Οπότε, είναι απαρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Προσκεφαλάς, Δημήτριος
Άλλοι συγγραφείς: Proskefalas, Dimitrios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23639
Περιγραφή
Περίληψη:Είναι αδιαμφισβήτητο ότι τις τελευταίες δεκαετίες παρατηρείται μια επανάσταση στα πλα- ίσια της μουσικής επεξεργασίας και δημιουργίας. ́Οπως είναι λογικό, βρισκόμαστε πλέον σε μια κατάσταση στην οποία οποιουδήποτε είδους ταξινόμηση δεδομένων δεν είναι δυνατόν να γίνει χειροκίνητα. Οπότε, είναι απαραίτητο να δημιουργηθούν «έξυπνοι» αλγόριθμοι, «έξυπνα μοντέλα» ή εργαλεία τα οποία να αναλαμβάνουν να φέρουν εις πέρας αυτό το έργο με ταχύτητα, ακρίβεια και αποτελεσματικότητα. Με τέτοιου είδους αλγορίθμους και μοντέλα ασχολείται η Μηχανική Μάθηση (Machine Learning). Η Βαθιά Μάθηση η οποία θα μας απασχολήσει στην παρούσα Εργασία (Deep Learning) αποτελεί υποκατηγορία (ή μία τεχνική) της Μηχανικής Μάθησης και κυριαρχεί στον τομέα της επεξεργασίας και κατηγοριοποίησης μουσικής. Χρη- σιμοποιεί Νευρωνικά Δίκτυα για να κατανοήσει χρήσιμες αναπαραστάσεις χαρακτηριστικών απευθείας από τα δεδομένα. Στα πλαίσια της κατηγοριοποίησης μουσικής αναπτύχθηκε ένα Εργαλείο το οποίο επιτελεί συγκεκριμένες λειτουργίες και οι οποίες θα αναλυθούν στην παρούσα Εργασία. Το Εργαλείο που περιγράφεται έχει ως σκοπό την κατηγοριοποίηση μουσικών κομματιών σε μουσικά είδη. Αυτό επιτυγχάνεται, αρχικά μέσω της χρήσης μετασχηματισμών επεξεργασίας σημάτων με στόχο την εξαγωγή των αντίστοιχων χαρακτηριστικών τους. Αυτά τα χαρακτηριστικά είναι δύο κατηγοριών: Φασματογραφήματα (Spectrograms) ή Mel Frequency Cepstral Coefficients (MFCC). Στη συνέχεια, μέσω της χρήσης Βαθιάς Μάθησης και συγκεκριμένα τριών ειδών Νευρωνικών Δικτύων πραγματοποιείται η τελική κατηγοριοποίηση των μουσικών κομματιών με τη βοήθεια των παραπάνω χαρακτηριστικών τα οποία χρησιμοποιούνται ως είσοδοι στα Νευρωνικά Δίκτυα. Τα Νευρωνικά αυτά Δίκτυα είναι το απλό πολυεπίπεδο Perceptron απο- τελούμενο μόνο από Πυκνά (Dense) επίπεδα, το Convolutional Neural Network και τέλος το Long Short-Term Memory (LSTM) Νευρωνικό Δίκτυο. Για τα πειράματα που εκτελέστηκαν σχετικά με την εκπαίδευση των Νευρωνικών Δικτύων, χρησιμοποιήθηκαν 4 σύνολα δεδομένων (datasets) με διαφορετικά Μουσικά Είδη , το GTZAN, το Genre Dortmund, το Ballroom και ένα σύνολο με δείγματα από drums, το drums samples. Στη συνέχεια, εφόσον τα Νευ- ρωνικά Δίκτυα έχουν εκπαιδευτεί κατάλληλα, χρησιμοποιούνται κάποια Μουσικά Κομμάτια ως είσοδοι σε αυτά προκειμένου να γίνει πρόβλεψη σχετικά με το είδος ή τα είδη στα οποία ανήκουν.