Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης
Ο στόχος αυτής της διπλωματικής είναι η ταξινόμηση μικρών μηνυμάτων από το Twitter με γνώμονα το συναίσθημα τους, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων. Τα μηνύματα στο Twitter, ή αλλιώς tweets, όπως είναι ευρέως γνωστά, περιορίζονται στους 140 χαρακτήρες. Αυτός ο περιορισμός εισάγει μια επιπρ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2016
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/9710 |
id |
nemertes-10889-9710 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-97102022-09-05T06:58:22Z Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης Twitter sentiment analysis using R and machine learning tools Καρποδίνης, Κωνσταντίνος Αβούρης, Νικόλαος Δασκαλάκη, Σοφία Karpodinis, Konstantinos Ανάλυση δεδομένων Ανάλυση συναισθημάτων Κατηγοριοποίηση κειμένου Μηχανική μάθηση Twitter Sentiment analysis Text classification RStudio Machine learning 006.312 Ο στόχος αυτής της διπλωματικής είναι η ταξινόμηση μικρών μηνυμάτων από το Twitter με γνώμονα το συναίσθημα τους, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων. Τα μηνύματα στο Twitter, ή αλλιώς tweets, όπως είναι ευρέως γνωστά, περιορίζονται στους 140 χαρακτήρες. Αυτός ο περιορισμός εισάγει μια επιπρόσθετη δυσκολία για τους ανθρώπους στο να εκφράσουν τα συναισθήματα τους και συνεπώς η ταξινόμηση αυτού του συναισθήματος σε θετικό ή αρνητικό θα είναι ακόμα πιο δύσκολη. Γνωστοί αλγόριθμοι επιβλεπόμενης μάθησης όπως ο SVM και ο Naive Bayes χρησιμοποιούνται για να δημιουργηθεί ένα μοντέλο πρόβλεψης. Πριν μπορέσει να δημιουργηθεί το μοντέλο πρόβλεψης, τα δεδομένα πρέπει να προ-επεξεργαστούν από απλό κείμενο σε ένα διάνυσμα συγκεκριμένου μεγέθους χαρακτηριστικών. Τα χαρακτηριστικά αποτελούνται από λέξεις με συναίσθημα και συχνά εμφανιζόμενες λέξεις οι οποίες είναι ικανές να προβλέψουν το γενικότερο συναίσθημα. Έπειτα, ο αλγόριθμος μάθησης εφαρμόζεται σε ένα σύνολο δεδομένων ελέγχου με σκοπό να γίνει αξιολόγηση του μοντέλου. The main subject of this thesis is to classify small messages from Twitter (tweets), according to their sentiment, using data mining techniques. Twitter messages, or tweets, are limited to a maximum of 140 characters of text. This limitation makes it even harder for people to express their sentiments. Thus, the classification process becomes even more difficult. Known supervised learning algorithms such as SVM and Naive Bayes are used to create a prediction model. Before we start building this model, it is important to pre process the data from raw text to a feature vector. Those features consist usually of frequently used words, that are capable to predict the overall sentiment. Finally, the ML algorithm is tested over a specific data set in order to be evaluated. 2016-10-17T09:22:35Z 2016-10-17T09:22:35Z 2016-07-15 Thesis http://hdl.handle.net/10889/9710 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ανάλυση δεδομένων Ανάλυση συναισθημάτων Κατηγοριοποίηση κειμένου Μηχανική μάθηση Sentiment analysis Text classification RStudio Machine learning 006.312 |
spellingShingle |
Ανάλυση δεδομένων Ανάλυση συναισθημάτων Κατηγοριοποίηση κειμένου Μηχανική μάθηση Sentiment analysis Text classification RStudio Machine learning 006.312 Καρποδίνης, Κωνσταντίνος Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
description |
Ο στόχος αυτής της διπλωματικής είναι η ταξινόμηση μικρών μηνυμάτων από το Twitter με γνώμονα το συναίσθημα τους, χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων. Τα μηνύματα στο Twitter, ή αλλιώς tweets, όπως είναι ευρέως γνωστά, περιορίζονται στους 140 χαρακτήρες. Αυτός ο περιορισμός εισάγει μια επιπρόσθετη δυσκολία για τους ανθρώπους στο να εκφράσουν τα συναισθήματα τους και συνεπώς η ταξινόμηση αυτού του συναισθήματος σε θετικό ή αρνητικό θα είναι ακόμα πιο δύσκολη.
Γνωστοί αλγόριθμοι επιβλεπόμενης μάθησης όπως ο SVM και ο Naive Bayes χρησιμοποιούνται για να δημιουργηθεί ένα μοντέλο πρόβλεψης. Πριν μπορέσει να δημιουργηθεί το μοντέλο πρόβλεψης, τα δεδομένα πρέπει να προ-επεξεργαστούν από απλό κείμενο σε ένα διάνυσμα συγκεκριμένου μεγέθους χαρακτηριστικών. Τα χαρακτηριστικά αποτελούνται από λέξεις με συναίσθημα και συχνά εμφανιζόμενες λέξεις οι οποίες είναι ικανές να προβλέψουν το γενικότερο συναίσθημα. Έπειτα, ο αλγόριθμος μάθησης εφαρμόζεται σε ένα σύνολο δεδομένων ελέγχου με σκοπό να γίνει αξιολόγηση του μοντέλου. |
author2 |
Αβούρης, Νικόλαος |
author_facet |
Αβούρης, Νικόλαος Καρποδίνης, Κωνσταντίνος |
format |
Thesis |
author |
Καρποδίνης, Κωνσταντίνος |
author_sort |
Καρποδίνης, Κωνσταντίνος |
title |
Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
title_short |
Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
title_full |
Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
title_fullStr |
Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
title_full_unstemmed |
Ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της R και μοντέλα μηχανικής μάθησης |
title_sort |
ανάλυση συναισθημάτων σε δεδομένα από το twitter χρησιμοποιώντας εργαλεία της r και μοντέλα μηχανικής μάθησης |
publishDate |
2016 |
url |
http://hdl.handle.net/10889/9710 |
work_keys_str_mv |
AT karpodinēskōnstantinos analysēsynaisthēmatōnsededomenaapototwitterchrēsimopoiōntasergaleiatēsrkaimontelamēchanikēsmathēsēs AT karpodinēskōnstantinos twittersentimentanalysisusingrandmachinelearningtools |
_version_ |
1771297164167741440 |