Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο

Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαρκάτος, Βασίλειος
Άλλοι συγγραφείς: Markatos, Vasileios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14010
id nemertes-10889-14010
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Ανάλυση συναισθημάτων από κείμενο
Ταξινόμηση συναισθημάτων
Ομαδοποιημένοι ταξινομητές
Sentiment analysis
Text classification
Ensemble classifiers
spellingShingle Ανάλυση συναισθημάτων από κείμενο
Ταξινόμηση συναισθημάτων
Ομαδοποιημένοι ταξινομητές
Sentiment analysis
Text classification
Ensemble classifiers
Μαρκάτος, Βασίλειος
Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
description Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλογικής προσέγγισης και της μηχανικής μάθησης με την οποία επιλέξαμε να ασχοληθούμε . Τα μοντέλα της μηχανικής μάθησης, ανάλογα με τον τρόπο που επεξεργάζονται τα δεδομένα για την εκπαίδευσή τους, διακρίνονται σε τρείς βασικές κατηγορίες οι οποίες είναι: η επιβλεπόμενη μάθηση, η μη επιβλεπόμενη και η ημι-επιβλεπόμενη μάθηση. Στην επιβλεπόμενη μάθηση ,το μοντέλο εκπαιδεύεται και "μαθαίνει" από το σύνολο δεδομένων, δηλαδή, η πρόβλεψη κάποιου άγνωστου στοιχείου , εξαρτάται σε μεγάλο βαθμό από την αξιοπιστία του δείγματος. Συνεπώς, είναι επιτακτική η ανάγκη για μια ορθή προ επεξεργασία των δεδομένων. Το σύνολο δεδομένων που επεξεργαστήκαμε αποτελείται από 1, 600, 000 tweets τα οποία έχουν ταξινομηθεί σε δύο βασικές κατηγορίες συναισθημάτων(θετικά και αρνητικά ).Εξετάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης. Επίσης ,αναλύθηκαν διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η ευρέως διαδεδομένη μέθοδος Bag-of-Words (BOW) με τις δύο βασικές παραλλαγές της την Count Vectorizer και TFIDF Vectorizer .Ο ταξινομητής που επιλέχθηκε για πραγματοποιηθεί η παραπάνω διαδικασία ήταν αυτός της Μέγιστης Εντροπίας. Οι απλοί ταξινομητές που χρησιμοποιήθηκαν είναι επιρρεπής στα σφάλματα. Η βασική ιδέα της μεθοδολογίας των ομαδοποιημένων ταξινομητών είναι να δημιουργηθεί ένα μοντέλο πρόβλεψης το οποίο θα αποτελείται απο ένα σύνολο μοντέλων που θα συνδυαστούν μεταξύ τους μέσω κάποιας διαδικασίας. Σκοπός των ομαδοποιημένων ταξινομητών είναι η μείωση των σφαλμάτων και η βελτίωση της απόδοσης της πρόβλεψης. Υπάρχουν, διάφορες τεχνικές που μπορούν να συνδυαστούν οι ταξινομητές. Η πιο γνωστή είναι η μέθοδος της ψηφοφορίας. Όμως, επειδή δεν είχαμε τα επιθυμητά αποτελέσματα, δημιουργήσαμε έναν ομαδοποιημένο ταξινομητή, ο οποίος αποτελούνταν από τρεις ταξινομητές βάσης (Max Entropy, Multinominal,LSVM) κατά το οποίο οι προβλέψεις τους, χρησιμοποιήθηκαν ως δεδομένα ενός δεύτερου επιπέδου ταξινομητών (Ridge,SGD) κατά των οποίων στη συνέχεια, χρησιμοποίησαν τη τεχνική της ψηφοφορίας για τον τελικό ομαδοποιημένο ταξινομητή. Τέλος, ο ομαδοποιημένος ταξινομητής είναι πιο βελτιωμένος σε σύγκριση με τους απλούς ταξινομητές, έχει όμως περιθώρια βελτίωσης.
author2 Markatos, Vasileios
author_facet Markatos, Vasileios
Μαρκάτος, Βασίλειος
author Μαρκάτος, Βασίλειος
author_sort Μαρκάτος, Βασίλειος
title Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
title_short Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
title_full Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
title_fullStr Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
title_full_unstemmed Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
title_sort χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
publishDate 2020
url http://hdl.handle.net/10889/14010
work_keys_str_mv AT markatosbasileios chrēsēomadopoiēmenoutaxinomētēgiaanagnōrisēsynaisthēmatōnapokeimeno
AT markatosbasileios usingensembleofclassifiersforsentimentanalysis
_version_ 1771297357139279872
spelling nemertes-10889-140102022-09-06T05:14:43Z Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο Using ensemble of classifiers for sentiment analysis Μαρκάτος, Βασίλειος Markatos, Vasileios Ανάλυση συναισθημάτων από κείμενο Ταξινόμηση συναισθημάτων Ομαδοποιημένοι ταξινομητές Sentiment analysis Text classification Ensemble classifiers Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλογικής προσέγγισης και της μηχανικής μάθησης με την οποία επιλέξαμε να ασχοληθούμε . Τα μοντέλα της μηχανικής μάθησης, ανάλογα με τον τρόπο που επεξεργάζονται τα δεδομένα για την εκπαίδευσή τους, διακρίνονται σε τρείς βασικές κατηγορίες οι οποίες είναι: η επιβλεπόμενη μάθηση, η μη επιβλεπόμενη και η ημι-επιβλεπόμενη μάθηση. Στην επιβλεπόμενη μάθηση ,το μοντέλο εκπαιδεύεται και "μαθαίνει" από το σύνολο δεδομένων, δηλαδή, η πρόβλεψη κάποιου άγνωστου στοιχείου , εξαρτάται σε μεγάλο βαθμό από την αξιοπιστία του δείγματος. Συνεπώς, είναι επιτακτική η ανάγκη για μια ορθή προ επεξεργασία των δεδομένων. Το σύνολο δεδομένων που επεξεργαστήκαμε αποτελείται από 1, 600, 000 tweets τα οποία έχουν ταξινομηθεί σε δύο βασικές κατηγορίες συναισθημάτων(θετικά και αρνητικά ).Εξετάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης. Επίσης ,αναλύθηκαν διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η ευρέως διαδεδομένη μέθοδος Bag-of-Words (BOW) με τις δύο βασικές παραλλαγές της την Count Vectorizer και TFIDF Vectorizer .Ο ταξινομητής που επιλέχθηκε για πραγματοποιηθεί η παραπάνω διαδικασία ήταν αυτός της Μέγιστης Εντροπίας. Οι απλοί ταξινομητές που χρησιμοποιήθηκαν είναι επιρρεπής στα σφάλματα. Η βασική ιδέα της μεθοδολογίας των ομαδοποιημένων ταξινομητών είναι να δημιουργηθεί ένα μοντέλο πρόβλεψης το οποίο θα αποτελείται απο ένα σύνολο μοντέλων που θα συνδυαστούν μεταξύ τους μέσω κάποιας διαδικασίας. Σκοπός των ομαδοποιημένων ταξινομητών είναι η μείωση των σφαλμάτων και η βελτίωση της απόδοσης της πρόβλεψης. Υπάρχουν, διάφορες τεχνικές που μπορούν να συνδυαστούν οι ταξινομητές. Η πιο γνωστή είναι η μέθοδος της ψηφοφορίας. Όμως, επειδή δεν είχαμε τα επιθυμητά αποτελέσματα, δημιουργήσαμε έναν ομαδοποιημένο ταξινομητή, ο οποίος αποτελούνταν από τρεις ταξινομητές βάσης (Max Entropy, Multinominal,LSVM) κατά το οποίο οι προβλέψεις τους, χρησιμοποιήθηκαν ως δεδομένα ενός δεύτερου επιπέδου ταξινομητών (Ridge,SGD) κατά των οποίων στη συνέχεια, χρησιμοποίησαν τη τεχνική της ψηφοφορίας για τον τελικό ομαδοποιημένο ταξινομητή. Τέλος, ο ομαδοποιημένος ταξινομητής είναι πιο βελτιωμένος σε σύγκριση με τους απλούς ταξινομητές, έχει όμως περιθώρια βελτίωσης. The object of the work is to analyze and predict emotions from written short comments through the Twitter social network. The extraction of emotions can be achieved by various approach methods, the most popular are the statistical methods, those of the vocabulary approach and machine learning with which we have chosen to deal. The models of machine learning, depending on the way they process the data for their education, are divided into three main categories which are: supervised learning,unsupervised and semi-supervised learning. In supervised learning, which is also the runner-up of the task, the model is trained from the Data Set, that is, the predictionof an unknown element, depends to a large extent on the reliability of the sample. The data set we processed consists of 1,600,000 tweets that have been classified into two main categories of emotions (positive and negative). Various ways of extracting attributes from text data, namely the widely used Bag-of-Words (BOW) method with its two main variants Count Vectorizer and TFIDF Vectorizer, were alsoanalysed. The sorter chosen for the above procedure was that of maximum entropy. Simple sorters used are prone to errors. The basic idea of the methodology of ensemble sorters is to create a forecasting model consisting of a set of models that will be combined with each other through a process. The ultimate goal of grouped sorters is to greatly reduce errors and thus improve the performance of the forecast. The most well-known is the method of voting. However, because they were not sufficient to get the desired results, we created a grouped sorter, consisting of three base sorters (Max Entropy, Multinominal,LSVM) in which their predictions were used as data of a second level sorter (Ridge,SGD) against which they then used the voting technique for the final grouped sorter. Finally, the grouped sorter is more improved than ordinary , of course it has room for improvement. 2020-10-09T07:21:04Z 2020-10-09T07:21:04Z 2020-09-07 http://hdl.handle.net/10889/14010 gr application/pdf