Sentiment analysis on streams of twitter data

Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natu...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μπαλτάς, Αλέξανδρος
Άλλοι συγγραφείς: Τσακαλίδης, Αθανάσιος
Μορφή: Thesis
Γλώσσα:English
Έκδοση: 2017
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/10365
id nemertes-10889-10365
record_format dspace
spelling nemertes-10889-103652022-09-05T20:15:29Z Sentiment analysis on streams of twitter data Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter Μπαλτάς, Αλέξανδρος Τσακαλίδης, Αθανάσιος Τσακαλίδης, Αθανάσιος Μακρής, Χρήστος Βούλγαρης, Σπυρίδων Baltas, Alexandros Sentiment analysis Apache Spark Big data Machine learning Supervised learning Twitter Ανάλυση συναισθήματος Μηχανική μάθηση Ταξινόμηση Εποπτευόμενη μάθηση 005.7 Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natural Language Processing techniques and utilises Apache Spark’s Machine learning library, MLlib. In order to address the nature of Big Data we introduce some preprocess- ing steps of the input for achieving better results in Sentiment Analysis. The classification algorithms are used for both binary and ternary classification, and we examine the effect of the dataset size as well as the features of the input on the quality of results. Το πρόβλημα της Ανάλυσης Συναισθήματος σε δεδομένα του Twitter περιλαμβάνει πολλές προκλήσεις λόγω της φύσης, της ποικιλίας και του όγκου των δεδομένων που χρειάζεται να αναλυθούν. Στα πλαίσια αυτής της εργασίας κατασκευάζεται ένα σύσ τημα βασισμένο σ το Apache Spark, ένα λογισμικό ανοιχτού κώδικα που επιτρέπει τον προγραμματισμό συσ τημάτων που απαρτίζονται από συσ τάδες υπολογιστών. Το εργαλείο που υλοποιείται χρησιμοποιεί τεχνικές εποπτευόμενης μηχανικής μάθησης καθώς και τεχνικές επεξεργασίας φυσικής γλώσσας και χρησιμοποιεί τη βιβλιοθήκη μηχανικής μάθησης του Apache Spark MLlib. Πειράματα έγιναν για την ταξινόμηση μηνυμάτων ως προς το συναίσθημα σε 2 και σε 3 κατηγορίες. Το μέγεθος του σετ δεδομένων εκπαίδευσης, καθώς και τα χαρακτηριστικά που εξάγονται από τα κείμενα προκειμένου να χρησιμοποιηθούν ως είσοδος του ταξινομητή εξετάζονται ως προς την επίδραση τους στην ποιότητα των αποτελεσμάτων. 2017-06-02T08:10:25Z 2017-06-02T08:10:25Z 2016-11-01 Thesis http://hdl.handle.net/10889/10365 en 0 application/pdf
institution UPatras
collection Nemertes
language English
topic Sentiment analysis
Apache Spark
Big data
Machine learning
Supervised learning
Twitter
Ανάλυση συναισθήματος
Μηχανική μάθηση
Ταξινόμηση
Εποπτευόμενη μάθηση
005.7
spellingShingle Sentiment analysis
Apache Spark
Big data
Machine learning
Supervised learning
Twitter
Ανάλυση συναισθήματος
Μηχανική μάθηση
Ταξινόμηση
Εποπτευόμενη μάθηση
005.7
Μπαλτάς, Αλέξανδρος
Sentiment analysis on streams of twitter data
description Sentiment Analysis on Twitter Data is a challenging problem due to the nature, diversity and volume of the data. In this work we implement a system on Apache Spark, an open-source framework for programming with Big Data. The sentiment analysis tool is based on Machine Learning methodologies and Natural Language Processing techniques and utilises Apache Spark’s Machine learning library, MLlib. In order to address the nature of Big Data we introduce some preprocess- ing steps of the input for achieving better results in Sentiment Analysis. The classification algorithms are used for both binary and ternary classification, and we examine the effect of the dataset size as well as the features of the input on the quality of results.
author2 Τσακαλίδης, Αθανάσιος
author_facet Τσακαλίδης, Αθανάσιος
Μπαλτάς, Αλέξανδρος
format Thesis
author Μπαλτάς, Αλέξανδρος
author_sort Μπαλτάς, Αλέξανδρος
title Sentiment analysis on streams of twitter data
title_short Sentiment analysis on streams of twitter data
title_full Sentiment analysis on streams of twitter data
title_fullStr Sentiment analysis on streams of twitter data
title_full_unstemmed Sentiment analysis on streams of twitter data
title_sort sentiment analysis on streams of twitter data
publishDate 2017
url http://hdl.handle.net/10889/10365
work_keys_str_mv AT mpaltasalexandros sentimentanalysisonstreamsoftwitterdata
AT mpaltasalexandros analysēsynaisthēmatossededomenatoukoinōnikoudiktyoutwitter
_version_ 1771297352046346240