Sentiment analysis on streams of twitter data
Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natu...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | English |
Έκδοση: |
2017
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/10365 |
id |
nemertes-10889-10365 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-103652022-09-05T20:15:29Z Sentiment analysis on streams of twitter data Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter Μπαλτάς, Αλέξανδρος Τσακαλίδης, Αθανάσιος Τσακαλίδης, Αθανάσιος Μακρής, Χρήστος Βούλγαρης, Σπυρίδων Baltas, Alexandros Sentiment analysis Apache Spark Big data Machine learning Supervised learning Twitter Ανάλυση συναισθήματος Μηχανική μάθηση Ταξινόμηση Εποπτευόμενη μάθηση 005.7 Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natural Language Processing techniques and utilises Apache Spark’s Machine learning library, MLlib. In order to address the nature of Big Data we introduce some preprocess- ing steps of the input for achieving better results in Sentiment Analysis. The classification algorithms are used for both binary and ternary classification, and we examine the effect of the dataset size as well as the features of the input on the quality of results. Το πρόβλημα της Ανάλυσης Συναισθήματος σε δεδομένα του Twitter περιλαμβάνει πολλές προκλήσεις λόγω της φύσης, της ποικιλίας και του όγκου των δεδομένων που χρειάζεται να αναλυθούν. Στα πλαίσια αυτής της εργασίας κατασκευάζεται ένα σύσ τημα βασισμένο σ το Apache Spark, ένα λογισμικό ανοιχτού κώδικα που επιτρέπει τον προγραμματισμό συσ τημάτων που απαρτίζονται από συσ τάδες υπολογιστών. Το εργαλείο που υλοποιείται χρησιμοποιεί τεχνικές εποπτευόμενης μηχανικής μάθησης καθώς και τεχνικές επεξεργασίας φυσικής γλώσσας και χρησιμοποιεί τη βιβλιοθήκη μηχανικής μάθησης του Apache Spark MLlib. Πειράματα έγιναν για την ταξινόμηση μηνυμάτων ως προς το συναίσθημα σε 2 και σε 3 κατηγορίες. Το μέγεθος του σετ δεδομένων εκπαίδευσης, καθώς και τα χαρακτηριστικά που εξάγονται από τα κείμενα προκειμένου να χρησιμοποιηθούν ως είσοδος του ταξινομητή εξετάζονται ως προς την επίδραση τους στην ποιότητα των αποτελεσμάτων. 2017-06-02T08:10:25Z 2017-06-02T08:10:25Z 2016-11-01 Thesis http://hdl.handle.net/10889/10365 en 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
Sentiment analysis Apache Spark Big data Machine learning Supervised learning Ανάλυση συναισθήματος Μηχανική μάθηση Ταξινόμηση Εποπτευόμενη μάθηση 005.7 |
spellingShingle |
Sentiment analysis Apache Spark Big data Machine learning Supervised learning Ανάλυση συναισθήματος Μηχανική μάθηση Ταξινόμηση Εποπτευόμενη μάθηση 005.7 Μπαλτάς, Αλέξανδρος Sentiment analysis on streams of twitter data |
description |
Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natural Language Processing techniques and utilises Apache Spark’s Machine learning library, MLlib. In order to address the nature of Big Data we introduce some preprocess- ing steps of the input for achieving better results in Sentiment Analysis. The classification algorithms are used for both binary and ternary classification, and we examine the effect of the dataset size as well as the features of the input on the quality of results. |
author2 |
Τσακαλίδης, Αθανάσιος |
author_facet |
Τσακαλίδης, Αθανάσιος Μπαλτάς, Αλέξανδρος |
format |
Thesis |
author |
Μπαλτάς, Αλέξανδρος |
author_sort |
Μπαλτάς, Αλέξανδρος |
title |
Sentiment analysis on streams of twitter data |
title_short |
Sentiment analysis on streams of twitter data |
title_full |
Sentiment analysis on streams of twitter data |
title_fullStr |
Sentiment analysis on streams of twitter data |
title_full_unstemmed |
Sentiment analysis on streams of twitter data |
title_sort |
sentiment analysis on streams of twitter data |
publishDate |
2017 |
url |
http://hdl.handle.net/10889/10365 |
work_keys_str_mv |
AT mpaltasalexandros sentimentanalysisonstreamsoftwitterdata AT mpaltasalexandros analysēsynaisthēmatossededomenatoukoinōnikoudiktyoutwitter |
_version_ |
1771297352046346240 |