Περίληψη: | Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που
αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του
σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός
σκοπός είναι η δημιουργία μιας εφαρμογής η οποία θα λειτουργεί σαν σύμβουλος αγοράς στην
οποία ο χρήστης θα μπορεί να δει μια κατάταξη των κινητών τηλεφώνων βασισμένη στα
σχόλια χρηστών του διαδικτύου.
Η ταξινόμηση του συναισθήματος γίνεται σε τρείς κατηγορίες, ουδέτερο, θετικό και αρνητικό
και εφαρμόζεται πάνω σε ένα σύνολο από περίπου 3.500.000 σχόλια. Πραγματοποιείται
εξόρυξη των χαρακτηριστικών και των σχολίων κάθε κινητού και αποθήκευση των δεδομένων
αυτών σε μία NoSQL βάση δεδομένων (MongoDB). Στην συνέχεια τα δεδομένα περνάνε από
την φάση της προεπεξεργασίας κατά την οποία οι λέξεις αποκτούν σημασιολογικά βάρη και
στην συνέχεια εξετάζονται τρείς αλγόριθμοι επιβλεπόμενης μάθησης. Οι αλγόριθμοι αυτοί
είναι ο Logistic Regression, ο Random Forest Classifier και ο Multilayer Perceptron. Η
παραπάνω διαδικασία πραγματοποιείται στο σύστημα Apache Spark για την ευκολότερη και
γρηγορότερη διαχείριση του μεγάλου όγκου από δεδομένα. Τέλος δημιουργήθηκε μία διεπαφή
χρήστη σε μορφή ιστοσελίδας όπου παρουσιάζονται ταξινομημένα τα κινητά με βάση μια
βαθμολογία η οποία έχει προκύψει από την ταξινόμηση των σχολίων του κάθε κινητού.
Η εργασία καταλήγει στο συμπέρασμα πως ο αλγόριθμος επιβλεπόμενης μάθησης Logistic
Regression μαζί με την μέθοδο εξόρυξης χαρακτηριστικών TF-IDF εφαρμόζουν σε πολύ καλό
βαθμό στο πρόβλημα της ταξινόμησης των σχολίων με ποσοστό ευστοχίας κοντά στο 75%.
|