Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων

Η αξιοποίηση των κριτικών που συγγράφουν οι επισκέπτες των τουριστικών καταλυμάτων δεν είναι ιδιαίτερα εύκολη διαδικασία, διότι πρέπει από ένα ολόκληρο κείμενο να διατηρηθεί και να εξαχθεί μόνο η χρήσιμη πληροφορία, η θεματική του κειμένου. Παράλληλα, κάθε κριτική διαθέτει και συναισθήματα, μπορεί,...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Χρηστίδη, Ιωάννα-Ευτέρπη
Άλλοι συγγραφείς: Christidi, Ioanna-Efterpi
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23635
id nemertes-10889-23635
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μοντελοποίηση θεμάτων
Ανάλυση συναισθήματος
Κριτικές καταλυμάτων
Topic modeling
Sentiment analysis
Accommodation reviews
spellingShingle Μοντελοποίηση θεμάτων
Ανάλυση συναισθήματος
Κριτικές καταλυμάτων
Topic modeling
Sentiment analysis
Accommodation reviews
Χρηστίδη, Ιωάννα-Ευτέρπη
Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
description Η αξιοποίηση των κριτικών που συγγράφουν οι επισκέπτες των τουριστικών καταλυμάτων δεν είναι ιδιαίτερα εύκολη διαδικασία, διότι πρέπει από ένα ολόκληρο κείμενο να διατηρηθεί και να εξαχθεί μόνο η χρήσιμη πληροφορία, η θεματική του κειμένου. Παράλληλα, κάθε κριτική διαθέτει και συναισθήματα, μπορεί, δηλαδή, να κατηγοριοποιηθεί ως θετική, αρνητική ή ουδέτερη. Για να μπορεί ένα σύστημα να αποφανθεί για το είδος ενός σχολίου, θα πρέπει πάνω στα δεδομένα να εκπαιδευτούν κατάλληλα μοντέλα με χρήση αλγορίθμων μηχανικής μάθησης. Η παρούσα διπλωματική εργασία εστιάζει στα παραπάνω προβλήματα και στα πλαίσια της συγκρίνονται δύο αποδοτικοί αλγόριθμοι μοντελοποίησης θεμάτων, ο Latent Dirichlet Allocation (LDA) και ο Guided ή Seeded LDA, αναζητώντας τον πιο αποδοτικό τρόπο εξαγωγής θεμάτων για τον συγκεκριμένο τύπο δεδομένων. Στόχος είναι η εξαγωγή topics από κάθε κριτική, λαμβάνοντας υπόψη τις βαρύτητες των λέξεων που περιέχονται στο κείμενο αυτό. Για τους αλγορίθμους μοντελοποίησης θεμάτων δόθηκε ιδιαίτερη προσοχή στην προεπεξεργασία των δεδομένων, όπου χρησιμοποιήθηκε συνδυασμός διαφόρων τεχνικών, ώστε να φιλτραριστεί όσο το δυνατόν καλύτερα η πληροφορία. Ακόμα δοκιμάστηκε μια σύγχρονη τεχνική εξαγωγής θεμάτων, η BERTopic, με στόχο να συγκριθεί με τους αλγορίθμους LDA και Guided LDA και να αναδειχθεί η πιο αποδοτική διαδικασία για μια βάση δεδομένων με καταλύματα αυτής της μορφής. Στα πλαίσια προσπάθειας ισάξιας σύγκρισης, δοκιμάστηκε και μια παραλλαγή του BERTopic αλγορίθμου που προσέγγιζε τη λογική του Guided LDA αλγορίθμου, εφόσον προστέθηκε η δυνατότητα καθοδήγησής του χρησιμοποιώντας συγκεκριμένα topics. Τέλος. για το πρόβλημα της ανάλυσης συναισθήματος, ως συμπληρωματικό κομμάτι του συστήματος, εκπαιδεύτηκαν τρεις δημοφιλείς ταξινομητές, ο Naive Bayes, Logistic Regression και Support Vector Machine (SVM) και συγκρίθηκαν μεταξύ τους, ώστε να αναδειχθεί ο πιο αποδοτικός συνολικά για ένα σύνολο δεδομένων που περιέχει κριτικές καταλυμάτων.
author2 Christidi, Ioanna-Efterpi
author_facet Christidi, Ioanna-Efterpi
Χρηστίδη, Ιωάννα-Ευτέρπη
author Χρηστίδη, Ιωάννα-Ευτέρπη
author_sort Χρηστίδη, Ιωάννα-Ευτέρπη
title Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
title_short Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
title_full Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
title_fullStr Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
title_full_unstemmed Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
title_sort τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων
publishDate 2022
url https://hdl.handle.net/10889/23635
work_keys_str_mv AT chrēstidēiōannaeuterpē technikesanalysēssynaisthēmatoskaimontelopoiēsēsthematōngiatēnepexergasiakritikōnepiskeptōnxenodocheiōn
AT chrēstidēiōannaeuterpē sentimentanalysisandtopicmodelingtechniquesforprocessinghotelguestreviews
_version_ 1771297300804534272
spelling nemertes-10889-236352022-11-04T04:37:04Z Τεχνικές ανάλυσης συναισθήματος και μοντελοποίησης θεμάτων για την επεξεργασία κριτικών επισκεπτών ξενοδοχείων Sentiment analysis and topic modeling techniques for processing hotel guest reviews Χρηστίδη, Ιωάννα-Ευτέρπη Christidi, Ioanna-Efterpi Μοντελοποίηση θεμάτων Ανάλυση συναισθήματος Κριτικές καταλυμάτων Topic modeling Sentiment analysis Accommodation reviews Η αξιοποίηση των κριτικών που συγγράφουν οι επισκέπτες των τουριστικών καταλυμάτων δεν είναι ιδιαίτερα εύκολη διαδικασία, διότι πρέπει από ένα ολόκληρο κείμενο να διατηρηθεί και να εξαχθεί μόνο η χρήσιμη πληροφορία, η θεματική του κειμένου. Παράλληλα, κάθε κριτική διαθέτει και συναισθήματα, μπορεί, δηλαδή, να κατηγοριοποιηθεί ως θετική, αρνητική ή ουδέτερη. Για να μπορεί ένα σύστημα να αποφανθεί για το είδος ενός σχολίου, θα πρέπει πάνω στα δεδομένα να εκπαιδευτούν κατάλληλα μοντέλα με χρήση αλγορίθμων μηχανικής μάθησης. Η παρούσα διπλωματική εργασία εστιάζει στα παραπάνω προβλήματα και στα πλαίσια της συγκρίνονται δύο αποδοτικοί αλγόριθμοι μοντελοποίησης θεμάτων, ο Latent Dirichlet Allocation (LDA) και ο Guided ή Seeded LDA, αναζητώντας τον πιο αποδοτικό τρόπο εξαγωγής θεμάτων για τον συγκεκριμένο τύπο δεδομένων. Στόχος είναι η εξαγωγή topics από κάθε κριτική, λαμβάνοντας υπόψη τις βαρύτητες των λέξεων που περιέχονται στο κείμενο αυτό. Για τους αλγορίθμους μοντελοποίησης θεμάτων δόθηκε ιδιαίτερη προσοχή στην προεπεξεργασία των δεδομένων, όπου χρησιμοποιήθηκε συνδυασμός διαφόρων τεχνικών, ώστε να φιλτραριστεί όσο το δυνατόν καλύτερα η πληροφορία. Ακόμα δοκιμάστηκε μια σύγχρονη τεχνική εξαγωγής θεμάτων, η BERTopic, με στόχο να συγκριθεί με τους αλγορίθμους LDA και Guided LDA και να αναδειχθεί η πιο αποδοτική διαδικασία για μια βάση δεδομένων με καταλύματα αυτής της μορφής. Στα πλαίσια προσπάθειας ισάξιας σύγκρισης, δοκιμάστηκε και μια παραλλαγή του BERTopic αλγορίθμου που προσέγγιζε τη λογική του Guided LDA αλγορίθμου, εφόσον προστέθηκε η δυνατότητα καθοδήγησής του χρησιμοποιώντας συγκεκριμένα topics. Τέλος. για το πρόβλημα της ανάλυσης συναισθήματος, ως συμπληρωματικό κομμάτι του συστήματος, εκπαιδεύτηκαν τρεις δημοφιλείς ταξινομητές, ο Naive Bayes, Logistic Regression και Support Vector Machine (SVM) και συγκρίθηκαν μεταξύ τους, ώστε να αναδειχθεί ο πιο αποδοτικός συνολικά για ένα σύνολο δεδομένων που περιέχει κριτικές καταλυμάτων. The utilization of the reviews written by the visitors of hotels and other types of accommodation is a complex process that requires only some useful bits of information, the topic, to be preserved and extracted from an entire text. At the same time, every review reflects a sentiment that can be categorized as positive, negative, or neutral. For a system to decide on the type of a review, appropriate models should be trained upon the data using machine learning algorithms. This thesis focuses on the above problems and within it compares two efficient topic modeling algorithms, Latent Dirichlet Allocation (LDA) and Guided or Seeded LDA, looking for the most efficient way to extract topics for the specific type of data. The goal is to extract topics from each review, taking into account the weights of the words contained in each text. For the topic modeling algorithms, special attention was paid to the pre-processing of the data, where a combination of various techniques was used, in order to filter the information as best as possible. A modern topic extraction technique, BERTopic, was also tested, with the aim of comparing it with the LDA and Guided LDA algorithms and showing the most efficient procedure for a database with hotel reviews. In the context of an equal comparison, a variant of the BERTopic algorithm was also tested. This variant offers the possibility to guide the model using a list of topic specific keywords thus it resembles the approach of the Guided LDA algorithm. Furthermore. for the sentiment analysis problem, three popular classifiers, Naive Bayes, Logistic Regression, and Support Vector Machine (SVM), were trained as a complementary part of the system and they were compared with each other to find the most efficient one for a dataset comprised of hotel reviews. 2022-11-03T09:35:42Z 2022-11-03T09:35:42Z 2022-11-03 https://hdl.handle.net/10889/23635 el application/pdf winrar