Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων

Η αξιοποίηση των κριτικών που συγγράφουν οι επισκέπτες των τουριστικών καταλυμάτων δεν είναι ιδιαίτερα εύκολη διαδικασία, διότι πρέπει από ένα ολόκληρο κείμενο να διατηρηθεί και να εξαχθεί μόνο η χρήσιμη πληροφορία, η θεματική του κειμένου. Παράλληλα, κάθε κριτική διαθέτει και συναισθήματα, μπορεί,...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Χρηστίδη, Ιωάννα-Ευτέρπη
Άλλοι συγγραφείς: Christidi, Ioanna-Efterpi
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23635
Περιγραφή
Περίληψη:Η αξιοποίηση των κριτικών που συγγράφουν οι επισκέπτες των τουριστικών καταλυμάτων δεν είναι ιδιαίτερα εύκολη διαδικασία, διότι πρέπει από ένα ολόκληρο κείμενο να διατηρηθεί και να εξαχθεί μόνο η χρήσιμη πληροφορία, η θεματική του κειμένου. Παράλληλα, κάθε κριτική διαθέτει και συναισθήματα, μπορεί, δηλαδή, να κατηγοριοποιηθεί ως θετική, αρνητική ή ουδέτερη. Για να μπορεί ένα σύστημα να αποφανθεί για το είδος ενός σχολίου, θα πρέπει πάνω στα δεδομένα να εκπαιδευτούν κατάλληλα μοντέλα με χρήση αλγορίθμων μηχανικής μάθησης. Η παρούσα διπλωματική εργασία εστιάζει στα παραπάνω προβλήματα και στα πλαίσια της συγκρίνονται δύο αποδοτικοί αλγόριθμοι μοντελοποίησης θεμάτων, ο Latent Dirichlet Allocation (LDA) και ο Guided ή Seeded LDA, αναζητώντας τον πιο αποδοτικό τρόπο εξαγωγής θεμάτων για τον συγκεκριμένο τύπο δεδομένων. Στόχος είναι η εξαγωγή topics από κάθε κριτική, λαμβάνοντας υπόψη τις βαρύτητες των λέξεων που περιέχονται στο κείμενο αυτό. Για τους αλγορίθμους μοντελοποίησης θεμάτων δόθηκε ιδιαίτερη προσοχή στην προεπεξεργασία των δεδομένων, όπου χρησιμοποιήθηκε συνδυασμός διαφόρων τεχνικών, ώστε να φιλτραριστεί όσο το δυνατόν καλύτερα η πληροφορία. Ακόμα δοκιμάστηκε μια σύγχρονη τεχνική εξαγωγής θεμάτων, η BERTopic, με στόχο να συγκριθεί με τους αλγορίθμους LDA και Guided LDA και να αναδειχθεί η πιο αποδοτική διαδικασία για μια βάση δεδομένων με καταλύματα αυτής της μορφής. Στα πλαίσια προσπάθειας ισάξιας σύγκρισης, δοκιμάστηκε και μια παραλλαγή του BERTopic αλγορίθμου που προσέγγιζε τη λογική του Guided LDA αλγορίθμου, εφόσον προστέθηκε η δυνατότητα καθοδήγησής του χρησιμοποιώντας συγκεκριμένα topics. Τέλος. για το πρόβλημα της ανάλυσης συναισθήματος, ως συμπληρωματικό κομμάτι του συστήματος, εκπαιδεύτηκαν τρεις δημοφιλείς ταξινομητές, ο Naive Bayes, Logistic Regression και Support Vector Machine (SVM) και συγκρίθηκαν μεταξύ τους, ώστε να αναδειχθεί ο πιο αποδοτικός συνολικά για ένα σύνολο δεδομένων που περιέχει κριτικές καταλυμάτων.