Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο

Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαρκάτος, Βασίλειος
Άλλοι συγγραφείς: Markatos, Vasileios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14010
Περιγραφή
Περίληψη:Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλογικής προσέγγισης και της μηχανικής μάθησης με την οποία επιλέξαμε να ασχοληθούμε . Τα μοντέλα της μηχανικής μάθησης, ανάλογα με τον τρόπο που επεξεργάζονται τα δεδομένα για την εκπαίδευσή τους, διακρίνονται σε τρείς βασικές κατηγορίες οι οποίες είναι: η επιβλεπόμενη μάθηση, η μη επιβλεπόμενη και η ημι-επιβλεπόμενη μάθηση. Στην επιβλεπόμενη μάθηση ,το μοντέλο εκπαιδεύεται και "μαθαίνει" από το σύνολο δεδομένων, δηλαδή, η πρόβλεψη κάποιου άγνωστου στοιχείου , εξαρτάται σε μεγάλο βαθμό από την αξιοπιστία του δείγματος. Συνεπώς, είναι επιτακτική η ανάγκη για μια ορθή προ επεξεργασία των δεδομένων. Το σύνολο δεδομένων που επεξεργαστήκαμε αποτελείται από 1, 600, 000 tweets τα οποία έχουν ταξινομηθεί σε δύο βασικές κατηγορίες συναισθημάτων(θετικά και αρνητικά ).Εξετάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης. Επίσης ,αναλύθηκαν διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η ευρέως διαδεδομένη μέθοδος Bag-of-Words (BOW) με τις δύο βασικές παραλλαγές της την Count Vectorizer και TFIDF Vectorizer .Ο ταξινομητής που επιλέχθηκε για πραγματοποιηθεί η παραπάνω διαδικασία ήταν αυτός της Μέγιστης Εντροπίας. Οι απλοί ταξινομητές που χρησιμοποιήθηκαν είναι επιρρεπής στα σφάλματα. Η βασική ιδέα της μεθοδολογίας των ομαδοποιημένων ταξινομητών είναι να δημιουργηθεί ένα μοντέλο πρόβλεψης το οποίο θα αποτελείται απο ένα σύνολο μοντέλων που θα συνδυαστούν μεταξύ τους μέσω κάποιας διαδικασίας. Σκοπός των ομαδοποιημένων ταξινομητών είναι η μείωση των σφαλμάτων και η βελτίωση της απόδοσης της πρόβλεψης. Υπάρχουν, διάφορες τεχνικές που μπορούν να συνδυαστούν οι ταξινομητές. Η πιο γνωστή είναι η μέθοδος της ψηφοφορίας. Όμως, επειδή δεν είχαμε τα επιθυμητά αποτελέσματα, δημιουργήσαμε έναν ομαδοποιημένο ταξινομητή, ο οποίος αποτελούνταν από τρεις ταξινομητές βάσης (Max Entropy, Multinominal,LSVM) κατά το οποίο οι προβλέψεις τους, χρησιμοποιήθηκαν ως δεδομένα ενός δεύτερου επιπέδου ταξινομητών (Ridge,SGD) κατά των οποίων στη συνέχεια, χρησιμοποίησαν τη τεχνική της ψηφοφορίας για τον τελικό ομαδοποιημένο ταξινομητή. Τέλος, ο ομαδοποιημένος ταξινομητής είναι πιο βελτιωμένος σε σύγκριση με τους απλούς ταξινομητές, έχει όμως περιθώρια βελτίωσης.