Υλοποίηση συμβούλου αγοράς κινητού τηλεφώνου με χρήση machine learning και sentiment analysis

Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός σκοπός είναι η δημιουργία μιας εφαρμογής η οποί...

Full description

Bibliographic Details
Main Author: Κουλούρης, Γρηγόριος
Other Authors: Μακρής, Χρήστος
Format: Thesis
Language:Greek
Published: 2020
Subjects:
Online Access:http://hdl.handle.net/10889/13383
Description
Summary:Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός σκοπός είναι η δημιουργία μιας εφαρμογής η οποία θα λειτουργεί σαν σύμβουλος αγοράς στην οποία ο χρήστης θα μπορεί να δει μια κατάταξη των κινητών τηλεφώνων βασισμένη στα σχόλια χρηστών του διαδικτύου. Η ταξινόμηση του συναισθήματος γίνεται σε τρείς κατηγορίες, ουδέτερο, θετικό και αρνητικό και εφαρμόζεται πάνω σε ένα σύνολο από περίπου 3.500.000 σχόλια. Πραγματοποιείται εξόρυξη των χαρακτηριστικών και των σχολίων κάθε κινητού και αποθήκευση των δεδομένων αυτών σε μία NoSQL βάση δεδομένων (MongoDB). Στην συνέχεια τα δεδομένα περνάνε από την φάση της προεπεξεργασίας κατά την οποία οι λέξεις αποκτούν σημασιολογικά βάρη και στην συνέχεια εξετάζονται τρείς αλγόριθμοι επιβλεπόμενης μάθησης. Οι αλγόριθμοι αυτοί είναι ο Logistic Regression, ο Random Forest Classifier και ο Multilayer Perceptron. Η παραπάνω διαδικασία πραγματοποιείται στο σύστημα Apache Spark για την ευκολότερη και γρηγορότερη διαχείριση του μεγάλου όγκου από δεδομένα. Τέλος δημιουργήθηκε μία διεπαφή χρήστη σε μορφή ιστοσελίδας όπου παρουσιάζονται ταξινομημένα τα κινητά με βάση μια βαθμολογία η οποία έχει προκύψει από την ταξινόμηση των σχολίων του κάθε κινητού. Η εργασία καταλήγει στο συμπέρασμα πως ο αλγόριθμος επιβλεπόμενης μάθησης Logistic Regression μαζί με την μέθοδο εξόρυξης χαρακτηριστικών TF-IDF εφαρμόζουν σε πολύ καλό βαθμό στο πρόβλημα της ταξινόμησης των σχολίων με ποσοστό ευστοχίας κοντά στο 75%.