Μελέτη και αξιολόγηση τεχνικών κατηγοριοποίησης συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο

Η άνθηση του διαδικτύου ανέδειξε νέα εργαλεία επικοινωνίας και διαύλους ανταλλαγής απόψεων. Η ανάγκη αξιοποίησης, μέσω αυτοματοποιημένων τεχνικών, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, οδήγησε στην Εξόρυξη Γνώσης από Κείμενο (Text Mining) και στην Ανάλυση Συναισθήματος (Sentiment Analysis...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Δήμου, Ελένη
Άλλοι συγγραφείς: Κωτσιαντής, Σωτήριος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9343
Περιγραφή
Περίληψη:Η άνθηση του διαδικτύου ανέδειξε νέα εργαλεία επικοινωνίας και διαύλους ανταλλαγής απόψεων. Η ανάγκη αξιοποίησης, μέσω αυτοματοποιημένων τεχνικών, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, οδήγησε στην Εξόρυξη Γνώσης από Κείμενο (Text Mining) και στην Ανάλυση Συναισθήματος (Sentiment Analysis). Στόχος της Ανάλυσης Συναισθήματος, είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα του κειμένου. Στην παρούσα εργασία παρουσιάζεται μία συγκριτική μελέτη μοντέλων κατηγοριοποίησης συναισθήματος, δεδομένων που προέρχονται από ιστοσελίδες κριτικής ταινιών (IMDb, Rotten Tomatoes) και από το Twitter. Δύο αλγόριθμοι, από την Επιβλεπόμενη Μηχανική Μάθηση, αποτελούν τη βάση των ταξινομητών, ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Επιπρόσθετα, διερευνάται η μεταβολή ορισμένων παραμέτρων, με σκοπό τη βελτίωση της απόδοσης των μοντέλων. Τέλος, προτείνεται η ενσωμάτωση του λεξικού πόρου SentiWordNet 3.0, στο μοντέλο ταξινόμησης των δεδομένων από το Twitter, σε συνδυασμό με τον καθαρισμό των tweets και τη γλωσσολογική ανάλυση των μηνυμάτων, καθώς οδηγεί σε περαιτέρω βελτίωση του ταξινομητή. Τα μοντέλα κατηγοριοποίησης συναισθήματος υλοποιούνται στο προγραμματιστικό περιβάλλον της Python.