Περίληψη: | Ο στόχος αυτής της διπλωματικής είναι η ταξινόμηση μικρών μηνυμάτων από το Twitter με γνώμονα το συναίσθημα τους, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων. Τα μηνύματα στο Twitter, ή αλλιώς tweets, όπως είναι ευρέως γνωστά, περιορίζονται στους 140 χαρακτήρες. Αυτός ο περιορισμός εισάγει μια επιπρόσθετη δυσκολία για τους ανθρώπους στο να εκφράσουν τα συναισθήματα τους και συνεπώς η ταξινόμηση αυτού του συναισθήματος σε θετικό ή αρνητικό θα είναι ακόμα πιο δύσκολη.
Γνωστοί αλγόριθμοι επιβλεπόμενης μάθησης όπως ο SVM και ο Naive Bayes χρησιμοποιούνται για να δημιουργηθεί ένα μοντέλο πρόβλεψης. Πριν μπορέσει να δημιουργηθεί το μοντέλο πρόβλεψης, τα δεδομένα πρέπει να προ-επεξεργαστούν από απλό κείμενο σε ένα διάνυσμα συγκεκριμένου μεγέθους χαρακτηριστικών. Τα χαρακτηριστικά αποτελούνται από λέξεις με συναίσθημα και συχνά εμφανιζόμενες λέξεις οι οποίες είναι ικανές να προβλέψουν το γενικότερο συναίσθημα. Έπειτα, ο αλγόριθμος μάθησης εφαρμόζεται σε ένα σύνολο δεδομένων ελέγχου με σκοπό να γίνει αξιολόγηση του μοντέλου.
|