Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών

Είναι αδιαμφισβήτητο ότι τις τελευταίες δεκαετίες παρατηρείται μια επανάσταση στα πλα- ίσια της μουσικής επεξεργασίας και δημιουργίας. ́Οπως είναι λογικό, βρισκόμαστε πλέον σε μια κατάσταση στην οποία οποιουδήποτε είδους ταξινόμηση δεδομένων δεν είναι δυνατόν να γίνει χειροκίνητα. Οπότε, είναι απαρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Προσκεφαλάς, Δημήτριος
Άλλοι συγγραφείς: Proskefalas, Dimitrios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23639
id nemertes-10889-23639
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία σήματος
Βαθιά μάθηση
Νευρωνικά δίκτυα
Μηχανική μάθηση
Signal processing
Deep learning
Neural networks
Machine learning
spellingShingle Επεξεργασία σήματος
Βαθιά μάθηση
Νευρωνικά δίκτυα
Μηχανική μάθηση
Signal processing
Deep learning
Neural networks
Machine learning
Προσκεφαλάς, Δημήτριος
Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
description Είναι αδιαμφισβήτητο ότι τις τελευταίες δεκαετίες παρατηρείται μια επανάσταση στα πλα- ίσια της μουσικής επεξεργασίας και δημιουργίας. ́Οπως είναι λογικό, βρισκόμαστε πλέον σε μια κατάσταση στην οποία οποιουδήποτε είδους ταξινόμηση δεδομένων δεν είναι δυνατόν να γίνει χειροκίνητα. Οπότε, είναι απαραίτητο να δημιουργηθούν «έξυπνοι» αλγόριθμοι, «έξυπνα μοντέλα» ή εργαλεία τα οποία να αναλαμβάνουν να φέρουν εις πέρας αυτό το έργο με ταχύτητα, ακρίβεια και αποτελεσματικότητα. Με τέτοιου είδους αλγορίθμους και μοντέλα ασχολείται η Μηχανική Μάθηση (Machine Learning). Η Βαθιά Μάθηση η οποία θα μας απασχολήσει στην παρούσα Εργασία (Deep Learning) αποτελεί υποκατηγορία (ή μία τεχνική) της Μηχανικής Μάθησης και κυριαρχεί στον τομέα της επεξεργασίας και κατηγοριοποίησης μουσικής. Χρη- σιμοποιεί Νευρωνικά Δίκτυα για να κατανοήσει χρήσιμες αναπαραστάσεις χαρακτηριστικών απευθείας από τα δεδομένα. Στα πλαίσια της κατηγοριοποίησης μουσικής αναπτύχθηκε ένα Εργαλείο το οποίο επιτελεί συγκεκριμένες λειτουργίες και οι οποίες θα αναλυθούν στην παρούσα Εργασία. Το Εργαλείο που περιγράφεται έχει ως σκοπό την κατηγοριοποίηση μουσικών κομματιών σε μουσικά είδη. Αυτό επιτυγχάνεται, αρχικά μέσω της χρήσης μετασχηματισμών επεξεργασίας σημάτων με στόχο την εξαγωγή των αντίστοιχων χαρακτηριστικών τους. Αυτά τα χαρακτηριστικά είναι δύο κατηγοριών: Φασματογραφήματα (Spectrograms) ή Mel Frequency Cepstral Coefficients (MFCC). Στη συνέχεια, μέσω της χρήσης Βαθιάς Μάθησης και συγκεκριμένα τριών ειδών Νευρωνικών Δικτύων πραγματοποιείται η τελική κατηγοριοποίηση των μουσικών κομματιών με τη βοήθεια των παραπάνω χαρακτηριστικών τα οποία χρησιμοποιούνται ως είσοδοι στα Νευρωνικά Δίκτυα. Τα Νευρωνικά αυτά Δίκτυα είναι το απλό πολυεπίπεδο Perceptron απο- τελούμενο μόνο από Πυκνά (Dense) επίπεδα, το Convolutional Neural Network και τέλος το Long Short-Term Memory (LSTM) Νευρωνικό Δίκτυο. Για τα πειράματα που εκτελέστηκαν σχετικά με την εκπαίδευση των Νευρωνικών Δικτύων, χρησιμοποιήθηκαν 4 σύνολα δεδομένων (datasets) με διαφορετικά Μουσικά Είδη , το GTZAN, το Genre Dortmund, το Ballroom και ένα σύνολο με δείγματα από drums, το drums samples. Στη συνέχεια, εφόσον τα Νευ- ρωνικά Δίκτυα έχουν εκπαιδευτεί κατάλληλα, χρησιμοποιούνται κάποια Μουσικά Κομμάτια ως είσοδοι σε αυτά προκειμένου να γίνει πρόβλεψη σχετικά με το είδος ή τα είδη στα οποία ανήκουν.
author2 Proskefalas, Dimitrios
author_facet Proskefalas, Dimitrios
Προσκεφαλάς, Δημήτριος
author Προσκεφαλάς, Δημήτριος
author_sort Προσκεφαλάς, Δημήτριος
title Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
title_short Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
title_full Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
title_fullStr Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
title_full_unstemmed Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
title_sort ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών
publishDate 2022
url https://hdl.handle.net/10889/23639
work_keys_str_mv AT proskephalasdēmētrios anaptyxēergaleioumechrēsēmontelōnbathiasmathēsēsgiatēnkatēgoriopoiēsētōneidōnmousikōnkommatiōn
AT proskephalasdēmētrios developmentofatoolusingdeeplearningmodelstocategorizegenresofmusictracks
_version_ 1771297325203849216
spelling nemertes-10889-236392022-11-04T04:37:40Z Ανάπτυξη εργαλείου με χρήση μοντέλων βαθιάς μάθησης για την κατηγοριοποίηση των ειδών μουσικών κομματιών Development of a tool using deep learning models to categorize genres of music tracks Προσκεφαλάς, Δημήτριος Proskefalas, Dimitrios Επεξεργασία σήματος Βαθιά μάθηση Νευρωνικά δίκτυα Μηχανική μάθηση Signal processing Deep learning Neural networks Machine learning Είναι αδιαμφισβήτητο ότι τις τελευταίες δεκαετίες παρατηρείται μια επανάσταση στα πλα- ίσια της μουσικής επεξεργασίας και δημιουργίας. ́Οπως είναι λογικό, βρισκόμαστε πλέον σε μια κατάσταση στην οποία οποιουδήποτε είδους ταξινόμηση δεδομένων δεν είναι δυνατόν να γίνει χειροκίνητα. Οπότε, είναι απαραίτητο να δημιουργηθούν «έξυπνοι» αλγόριθμοι, «έξυπνα μοντέλα» ή εργαλεία τα οποία να αναλαμβάνουν να φέρουν εις πέρας αυτό το έργο με ταχύτητα, ακρίβεια και αποτελεσματικότητα. Με τέτοιου είδους αλγορίθμους και μοντέλα ασχολείται η Μηχανική Μάθηση (Machine Learning). Η Βαθιά Μάθηση η οποία θα μας απασχολήσει στην παρούσα Εργασία (Deep Learning) αποτελεί υποκατηγορία (ή μία τεχνική) της Μηχανικής Μάθησης και κυριαρχεί στον τομέα της επεξεργασίας και κατηγοριοποίησης μουσικής. Χρη- σιμοποιεί Νευρωνικά Δίκτυα για να κατανοήσει χρήσιμες αναπαραστάσεις χαρακτηριστικών απευθείας από τα δεδομένα. Στα πλαίσια της κατηγοριοποίησης μουσικής αναπτύχθηκε ένα Εργαλείο το οποίο επιτελεί συγκεκριμένες λειτουργίες και οι οποίες θα αναλυθούν στην παρούσα Εργασία. Το Εργαλείο που περιγράφεται έχει ως σκοπό την κατηγοριοποίηση μουσικών κομματιών σε μουσικά είδη. Αυτό επιτυγχάνεται, αρχικά μέσω της χρήσης μετασχηματισμών επεξεργασίας σημάτων με στόχο την εξαγωγή των αντίστοιχων χαρακτηριστικών τους. Αυτά τα χαρακτηριστικά είναι δύο κατηγοριών: Φασματογραφήματα (Spectrograms) ή Mel Frequency Cepstral Coefficients (MFCC). Στη συνέχεια, μέσω της χρήσης Βαθιάς Μάθησης και συγκεκριμένα τριών ειδών Νευρωνικών Δικτύων πραγματοποιείται η τελική κατηγοριοποίηση των μουσικών κομματιών με τη βοήθεια των παραπάνω χαρακτηριστικών τα οποία χρησιμοποιούνται ως είσοδοι στα Νευρωνικά Δίκτυα. Τα Νευρωνικά αυτά Δίκτυα είναι το απλό πολυεπίπεδο Perceptron απο- τελούμενο μόνο από Πυκνά (Dense) επίπεδα, το Convolutional Neural Network και τέλος το Long Short-Term Memory (LSTM) Νευρωνικό Δίκτυο. Για τα πειράματα που εκτελέστηκαν σχετικά με την εκπαίδευση των Νευρωνικών Δικτύων, χρησιμοποιήθηκαν 4 σύνολα δεδομένων (datasets) με διαφορετικά Μουσικά Είδη , το GTZAN, το Genre Dortmund, το Ballroom και ένα σύνολο με δείγματα από drums, το drums samples. Στη συνέχεια, εφόσον τα Νευ- ρωνικά Δίκτυα έχουν εκπαιδευτεί κατάλληλα, χρησιμοποιούνται κάποια Μουσικά Κομμάτια ως είσοδοι σε αυτά προκειμένου να γίνει πρόβλεψη σχετικά με το είδος ή τα είδη στα οποία ανήκουν. It is undeniable that in recent decades there has been a revolution in the field of music editing and creation. Naturally, we are now in a situation where any kind of data sorting cannot be done manually. However, it is necessary to create ”smart” algorithms, ”smart” models or tools that undertake to carry out this task with speed, accuracy and efficiency. Machine Learning deals with such algorithms and models. Deep Learning that will occupy us in the present Work is a subcategory (or a technique) of Machine Learning and dominates the field of music processing and categorization. It uses Neural Networks to understand useful feature representations directly from the data. In the context of music categorization, a Tool was developed that performs specific functions which will be analyzed in the present Work. The Tool described aims to catego- rize music tracks into musical genres. This is achieved, initially through the use of signal processing transformations with the aim of extracting their corresponding characteristi- cs. These characteristics are of two categories: Spectrograms or Mel Frequency Cepstral Coefficients (MFCC). Then, through the use of deep learning and specifically three types of Neural Networks, the final categorization of the music pieces takes place with the h- elp of the above characteristics which are used as inputs to the Neural Networks. These Neural Networks are the simple multilayer Perceptron consisting of only Dense layers, the Convolutional Neural Network and finally the Long Short-Term Memory (LSTM) Neural Network. For the experiments performed on the training of the Neural Networks, 4 data- sets with different Music Genres were used, GTZAN, Genre Dortmund, Ballroom and a set of samples from drums, called drums samples. Then, once the Neural Networks have been properly trained, some Music Tracks are used as inputs to them in order to make a prediction about the genre or genres they belong to. 2022-11-03T11:21:05Z 2022-11-03T11:21:05Z 2022-11-02 https://hdl.handle.net/10889/23639 el application/pdf