Περίληψη: | Η χρήση του Twitter από ολοένα και περισσότερους ανθρώπους έχει ως
συνέπεια την παραγωγή μεγάλου όγκου «υποκειμενικών» δεδομένων. Η ανάγκη για
εξεύρεση τυχόν πολύτιμης κρυμμένης πληροφορίας σε αυτά τα δεδομένα, έδωσε
ώθηση στην ανάπτυξη ενός νέου πεδίου έρευνας, του Sentiment Analysis, που έχει
ως αντικείμενο τον εντοπισμό του συναισθήματος ενός χρήστη (ή μιας ομάδας
χρηστών) ως προς κάποιο θέμα. Οι παραδοσιακοί αλγόριθμοι και μέθοδοι
εντοπισμού συναισθήματος στηρίζονται στην λεκτική ανάλυση φράσεων ή
προτάσεων σε «επίσημα» κείμενα και καλούνται word based approaches. Ωστόσο,
το μικρό μέγεθος των κειμένων του Twitter, σε συνδυασμό με την χαλαρότητα της
χρησιμοποιούμενης γλώσσας (από πλευράς χρηστών), δεν επιτρέπει την
αποτελεσματική χρήση αυτών των τεχνικών. Για τον λόγο αυτό, προτιμάται η χρήση
τεχνικών που βασίζονται σε χαρακτήρες (αντί για λέξεις) και καλούνται character
based approaches.
Στόχος της διπλωματικής εργασίας είναι η εφαρμογή της character based
μεθόδου στην ανάλυση tweets πολιτικού περιεχομένου. Συγκεκριμένα,
χρησιμοποιήθηκαν δεδομένα από την πολιτική σκηνή των Η.Π.Α., με σκοπό να
εντοπιστεί η προτίμηση ενός χρήστη ως προς το Ρεπουμπλικανικό ή το Δημοκρατικό
κόμμα μέσω σχετικών tweets. Για την ανάλυση χρησιμοποιήθηκε επιβλεπόμενη
μάθηση με την βοήθεια του Naive Bayes ταξινομητή.
Αρχικά, συλλέχθηκε ένα σύνολο από 7904 tweets, προερχόμενα από τους
επίσημους λογαριασμούς Twitter 48 γερουσιαστών. Το σύνολο αυτό χωρίσθηκε σε
δυο επιμέρους σύνολα, το σύνολο εκπαίδευσης και το σύνολο ελέγχου, ελέγχοντας
για κάθε μια από τις δυο μεθόδους ανάλυσης (την word based και character based
μέθοδο) την ακρίβεια της ταξινόμησης. Από τα πειράματα πρόεκυψε πως η
character based μέθοδος ταξινομεί τα tweets με μεγαλύτερη ακρίβεια. Στην
συνέχεια συλλέξαμε δυο νέα σύνολα έλεγχου, ένα από τον επίσημο λογαριασμό
Twitter του Ρεπουμπλικανικού κόμματος και ένα από τον επίσημο λογαριασμό
Twitter του Δημοκρατικού κόμματος. Αυτή την φορά, ως σύνολο εκπαίδευσης
χρησιμοποιήθηκε ολόκληρο το αρχικό σύνολο από τα tweets των γερουσιαστών και
ελέγχθηκε η ακρίβεια ταξινόμησης για την character based μέθοδο στα δυο νέα
σύνολα ελέγχου. Αν και στην περίπτωση του Democratic Twitter account τα
αποτελέσματα μπορούν να χαρακτηριστούν ως «ικανοποιητικά», μιας και η
ακρίβεια της ταξινόμησης πλησίασε το 80%, για την περίπτωση του Republican
Twitter account κάτι τέτοιο δεν ισχύει. Για το λόγο αυτό, προχωρήσαμε σε μια πιο
διεξοδική μελέτη της δομής και του περιεχομένου αυτών tweets. Από την ανάλυση
προέκυψαν ορισμένα ενδιαφέροντα αποτελέσματα για την προέλευση των
χαμηλών ποσοστών στην ακρίβεια ταξινόμησης. Συγκεκριμένα, πρόεκυψε πως στην
πλειοψηφία των tweets που έγιναν από τους Ρεπουμπλικάνους γερουσιαστές, δεν
περιέχονταν κάποια προσωπική τους άποψη. Ήταν απλά μια αναφορά σε κάποιο
άρθρο ή video που είδαν στον διαδίκτυο. Άρα, η πλειοψηφία των tweets αυτών
περιέχουν «αντικειμενική» αντί για «υποκειμενική» πληροφορία. Συνεπώς, δεν
είναι δυνατόν να εξαχθούν τα χαρακτηριστικά εκείνα που θα βοηθήσουν στον
εντοπισμό της πολικότητας των χρηστών.
|