Υλοποίηση συμβούλου αγοράς κινητού τηλεφώνου με χρήση machine learning και sentiment analysis

Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός σκοπός είναι η δημιουργία μιας εφαρμογής η οποί...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κουλούρης, Γρηγόριος
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13383
Περιγραφή
Περίληψη:Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ταξινόμηση σχολίων που αναφέρονται σε κινητά τηλέφωνα με γνώμονα το συναίσθημα που εκφέρει ο συγγραφέας του σχολίου, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων και μηχανικής μάθησης. Τελικός σκοπός είναι η δημιουργία μιας εφαρμογής η οποία θα λειτουργεί σαν σύμβουλος αγοράς στην οποία ο χρήστης θα μπορεί να δει μια κατάταξη των κινητών τηλεφώνων βασισμένη στα σχόλια χρηστών του διαδικτύου. Η ταξινόμηση του συναισθήματος γίνεται σε τρείς κατηγορίες, ουδέτερο, θετικό και αρνητικό και εφαρμόζεται πάνω σε ένα σύνολο από περίπου 3.500.000 σχόλια. Πραγματοποιείται εξόρυξη των χαρακτηριστικών και των σχολίων κάθε κινητού και αποθήκευση των δεδομένων αυτών σε μία NoSQL βάση δεδομένων (MongoDB). Στην συνέχεια τα δεδομένα περνάνε από την φάση της προεπεξεργασίας κατά την οποία οι λέξεις αποκτούν σημασιολογικά βάρη και στην συνέχεια εξετάζονται τρείς αλγόριθμοι επιβλεπόμενης μάθησης. Οι αλγόριθμοι αυτοί είναι ο Logistic Regression, ο Random Forest Classifier και ο Multilayer Perceptron. Η παραπάνω διαδικασία πραγματοποιείται στο σύστημα Apache Spark για την ευκολότερη και γρηγορότερη διαχείριση του μεγάλου όγκου από δεδομένα. Τέλος δημιουργήθηκε μία διεπαφή χρήστη σε μορφή ιστοσελίδας όπου παρουσιάζονται ταξινομημένα τα κινητά με βάση μια βαθμολογία η οποία έχει προκύψει από την ταξινόμηση των σχολίων του κάθε κινητού. Η εργασία καταλήγει στο συμπέρασμα πως ο αλγόριθμος επιβλεπόμενης μάθησης Logistic Regression μαζί με την μέθοδο εξόρυξης χαρακτηριστικών TF-IDF εφαρμόζουν σε πολύ καλό βαθμό στο πρόβλημα της ταξινόμησης των σχολίων με ποσοστό ευστοχίας κοντά στο 75%.