Τεχνικές για την εξαγωγή γνώσης από την πλατφόρμα του Twitter

Η χρήση του Twitter από ολοένα και περισσότερους ανθρώπους έχει ως συνέπεια την παραγωγή μεγάλου όγκου «υποκειμενικών» δεδομένων. Η ανάγκη για εξεύρεση τυχόν πολύτιμης κρυμμένης πληροφορίας σε αυτά τα δεδομένα, έδωσε ώθηση στην ανάπτυξη ενός νέου πεδίου έρευνας, του Sentiment Analysis, που έχει...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Δήμας, Αναστάσιος
Άλλοι συγγραφείς: Βαρβαρίγος, Εμμανουήλ
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2013
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/6386
Περιγραφή
Περίληψη:Η χρήση του Twitter από ολοένα και περισσότερους ανθρώπους έχει ως συνέπεια την παραγωγή μεγάλου όγκου «υποκειμενικών» δεδομένων. Η ανάγκη για εξεύρεση τυχόν πολύτιμης κρυμμένης πληροφορίας σε αυτά τα δεδομένα, έδωσε ώθηση στην ανάπτυξη ενός νέου πεδίου έρευνας, του Sentiment Analysis, που έχει ως αντικείμενο τον εντοπισμό του συναισθήματος ενός χρήστη (ή μιας ομάδας χρηστών) ως προς κάποιο θέμα. Οι παραδοσιακοί αλγόριθμοι και μέθοδοι εντοπισμού συναισθήματος στηρίζονται στην λεκτική ανάλυση φράσεων ή προτάσεων σε «επίσημα» κείμενα και καλούνται word based approaches. Ωστόσο, το μικρό μέγεθος των κειμένων του Twitter, σε συνδυασμό με την χαλαρότητα της χρησιμοποιούμενης γλώσσας (από πλευράς χρηστών), δεν επιτρέπει την αποτελεσματική χρήση αυτών των τεχνικών. Για τον λόγο αυτό, προτιμάται η χρήση τεχνικών που βασίζονται σε χαρακτήρες (αντί για λέξεις) και καλούνται character based approaches. Στόχος της διπλωματικής εργασίας είναι η εφαρμογή της character based μεθόδου στην ανάλυση tweets πολιτικού περιεχομένου. Συγκεκριμένα, χρησιμοποιήθηκαν δεδομένα από την πολιτική σκηνή των Η.Π.Α., με σκοπό να εντοπιστεί η προτίμηση ενός χρήστη ως προς το Ρεπουμπλικανικό ή το Δημοκρατικό κόμμα μέσω σχετικών tweets. Για την ανάλυση χρησιμοποιήθηκε επιβλεπόμενη μάθηση με την βοήθεια του Naive Bayes ταξινομητή. Αρχικά, συλλέχθηκε ένα σύνολο από 7904 tweets, προερχόμενα από τους επίσημους λογαριασμούς Twitter 48 γερουσιαστών. Το σύνολο αυτό χωρίσθηκε σε δυο επιμέρους σύνολα, το σύνολο εκπαίδευσης και το σύνολο ελέγχου, ελέγχοντας για κάθε μια από τις δυο μεθόδους ανάλυσης (την word based και character based μέθοδο) την ακρίβεια της ταξινόμησης. Από τα πειράματα πρόεκυψε πως η character based μέθοδος ταξινομεί τα tweets με μεγαλύτερη ακρίβεια. Στην συνέχεια συλλέξαμε δυο νέα σύνολα έλεγχου, ένα από τον επίσημο λογαριασμό Twitter του Ρεπουμπλικανικού κόμματος και ένα από τον επίσημο λογαριασμό Twitter του Δημοκρατικού κόμματος. Αυτή την φορά, ως σύνολο εκπαίδευσης χρησιμοποιήθηκε ολόκληρο το αρχικό σύνολο από τα tweets των γερουσιαστών και ελέγχθηκε η ακρίβεια ταξινόμησης για την character based μέθοδο στα δυο νέα σύνολα ελέγχου. Αν και στην περίπτωση του Democratic Twitter account τα αποτελέσματα μπορούν να χαρακτηριστούν ως «ικανοποιητικά», μιας και η ακρίβεια της ταξινόμησης πλησίασε το 80%, για την περίπτωση του Republican Twitter account κάτι τέτοιο δεν ισχύει. Για το λόγο αυτό, προχωρήσαμε σε μια πιο διεξοδική μελέτη της δομής και του περιεχομένου αυτών tweets. Από την ανάλυση προέκυψαν ορισμένα ενδιαφέροντα αποτελέσματα για την προέλευση των χαμηλών ποσοστών στην ακρίβεια ταξινόμησης. Συγκεκριμένα, πρόεκυψε πως στην πλειοψηφία των tweets που έγιναν από τους Ρεπουμπλικάνους γερουσιαστές, δεν περιέχονταν κάποια προσωπική τους άποψη. Ήταν απλά μια αναφορά σε κάποιο άρθρο ή video που είδαν στον διαδίκτυο. Άρα, η πλειοψηφία των tweets αυτών περιέχουν «αντικειμενική» αντί για «υποκειμενική» πληροφορία. Συνεπώς, δεν είναι δυνατόν να εξαχθούν τα χαρακτηριστικά εκείνα που θα βοηθήσουν στον εντοπισμό της πολικότητας των χρηστών.