Μελέτη και αξιολόγηση τεχνικών εξόρυξης πολιτικής γνώμης σε tweets

Τα κοινωνικά μέσα δικτύωσης παράγουν τεράστια ποσά δεδομένων κάθε λεπτό, γεγονός το οποίο οφείλεται στη μεγάλη υιοθέτηση και καθημερινή χρήση τους τα τελευταία χρόνια. Έχει δημιουργηθεί λοιπόν η ανάγκη για ευρύτερη αξιοποίησή τους σε διάφορους τομείς της κοινωνικής επιχειρηματικής ζωής. Γι’ αυτό το...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Θηβαίος, Γιάννης
Άλλοι συγγραφείς: Κωτσιαντής, Σωτήριος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/10878
Περιγραφή
Περίληψη:Τα κοινωνικά μέσα δικτύωσης παράγουν τεράστια ποσά δεδομένων κάθε λεπτό, γεγονός το οποίο οφείλεται στη μεγάλη υιοθέτηση και καθημερινή χρήση τους τα τελευταία χρόνια. Έχει δημιουργηθεί λοιπόν η ανάγκη για ευρύτερη αξιοποίησή τους σε διάφορους τομείς της κοινωνικής επιχειρηματικής ζωής. Γι’ αυτό το λόγο δημιουργήθηκαν τεχνικές και αλγόριθμοι για την επεξεργασία κειμένων, όπως η εξόρυξη κειμένου (Text Mining) και η Ανάλυση Συναισθήματος (Sentiment Analysis). Στην παρούσα εργασία, έχουμε συλλέξει ένα σύνολο δεδομένων από το Twitter, για τους 2 βασικούς υποψηφίους των τελευταίων αμερικανικών εκλογών (Donald Trump, Hillary Clinton). Με χρήση τεχνικών επεξεργασίας των κειμένων, προσπαθούμε να βρούμε «δημοφιλείς» λέξεις για κάθε υποψήφιο και να δημιουργήσουμε ένα μηχανισμό πρόβλεψης, με βάση τον οποίο ένα τυχαίο tweet να κατηγοριοποιείται για έναν από τους δύο υποψηφίους ως θετικό ή αρνητικό. Δύο αλγόριθμοι επιβλεπόμενης μάθησης, ο ‘αφελής’ Bayes (Naïve Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM) αποτελούν τη βάση για την παραγωγή των ταξινομητών πρόβλεψης και των οποίων την ακρίβεια συγκρίνουμε. Για την προεπεξεργασία και την εφαρμογή των αλγόριθμων χρησιμοποιείται η βιβλιοθήκη sklearn της Python. Επιπλέον, κάνουμε μια προεπισκόπηση στο εργαλείο Orange3 και ακολουθούμε μια παρεμφερής διαδικασία ανάλυσης του συνόλου δεδομένων και αξιολογούμε την ευχρηστία και την απόδοση του συγκεκριμένου εργαλείου.