Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων)
Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κρ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2017
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/10112 |
id |
nemertes-10889-10112 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Εξόρυξη γνώμης Εξαγωγή γνωρισμάτων κειμένου Κατηγοριοποίηση Γλωσσικό μοντέλο Ανεξαρτησία από γλώσσα γραφής Στατιστικό μοντέλο 006.312 Opinion mining Text feature extraction Classification Language model Language independent Statistical model |
spellingShingle |
Εξόρυξη γνώμης Εξαγωγή γνωρισμάτων κειμένου Κατηγοριοποίηση Γλωσσικό μοντέλο Ανεξαρτησία από γλώσσα γραφής Στατιστικό μοντέλο 006.312 Opinion mining Text feature extraction Classification Language model Language independent Statistical model Μπουλούμπασης, Νικόλαος Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
description |
Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από
συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το
σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων
κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κριτικές ταινιών, για
τη δημιουργία μοντέλων αυτόματης αξιολόγησης των υπό μελέτη κριτικών με δυαδική
ταξινόμηση (θετική/αρνητική). Τα γνωρίσματα που εξάγονται για τη συγκεκριμένη
μελέτη, πρέπει να έχουν τον μέγιστο βαθμό ανεξαρτησίας από την εκάστοτε γλώσσα
κειμένου.
Πιο συγκεκριμένα, παρουσιάζονται δυο διαφορετικές προσεγγίσεις εξαγωγής
γνωρισμάτων κειμένου για σημασιολογική κατηγοριοποίηση: (α) Στατιστική προσέγγιση
(Εμφάνιση γνωρισμάτων – Συχνότητα εμφάνισης γνωρισμάτων) και (β) προσέγγιση με
γνώμονα τα δεδομένα (Bag of Words, N-gram model). Οι προτεινόμενες προσεγγίσεις
προσφέρουν στη μελέτη πλήρη ανεξαρτησία από την γλώσσα γραφής των κειμένων. Στην
παρούσα εργασία υλοποιούνται οι παραπάνω προσεγγίσεις όχι μόνο ανεξάρτητα αλλά και
σε συνδυασμό ώστε να επιτευχθούν τα βέλτιστα δυνατά αποτελέσματα πρόβλεψης ως
αναφορά την αυτόματη εξαγωγή απόψεων.
Το σύνολο των δεδομένων που χρησιμοποιείται για την εκπόνηση της εργασίας,
αποτελείται από τρία επιμέρους υποσύνολα με κείμενα που αφορούν διαδικτυακές
κριτικές ταινιών ανάλογα με την γλώσσα γραφής των κριτικών. Τα κείμενα που
εξετάζονται είναι γραμμένα σε τρεις διαφορετικές γλώσσες: Αγγλικά, Ισπανικά και
Τούρκικα απαρτίζουν κατ’ αντιστοιχία το Αγγλικό, το Ισπανικό και το Τούρκικο
υποσύνολο δεδομένων. Οι προτεινόμενες τεχνικές εξαγωγής γνωρισμάτων κειμένου
εφαρμόζονται στα τρία υποσύνολα (Αγγλικό, Ισπανικό και Τούρκικο) και στο σύνολό
τους ώστε να αναπτυχθεί ένα συγκριτικό μοντέλο αξιολόγησης.
Για τον αυτόματο προσδιορισμό συμπερασμάτων από το σύνολο των κριτικών, η
μελέτη βασίζεται σε έξι πασίγνωστους αλγορίθμους μηχανικής μάθησης
χρησιμοποιώντας μοντέλα κατηγοριοποίησης βασισμένα σε decision trees, support
vector machines και lazy - learning αλγόριθμους. Τέλος, ερευνάται η αποδοτικότητα
των εργαλείων και των μεθόδων εξαγωγής χαρακτηριστικών κειμένου στη βελτίωση της
ακρίβειας του προσδιορισμού συμπερασμάτων από το σύνολο των διαδικτυακών
κριτικών ταινιών. |
author2 |
Μεγαλοοικονόμου, Βασίλειος |
author_facet |
Μεγαλοοικονόμου, Βασίλειος Μπουλούμπασης, Νικόλαος |
format |
Thesis |
author |
Μπουλούμπασης, Νικόλαος |
author_sort |
Μπουλούμπασης, Νικόλαος |
title |
Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
title_short |
Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
title_full |
Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
title_fullStr |
Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
title_full_unstemmed |
Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
title_sort |
σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) |
publishDate |
2017 |
url |
http://hdl.handle.net/10889/10112 |
work_keys_str_mv |
AT mpouloumpasēsnikolaos systēmaexagōgēsgnōrismatōnkeimenouaposyllogeskeimenōnanexartētaapotēglōssagraphēskaianaptyxēmontelōnexoryxēssymperasmatōnmethodologiaaxiologēsēsmontelōnexoryxēssymperasmatōn AT mpouloumpasēsnikolaos languageindependenttextfeatureextractionsystemforthedeploymentofopinionminingmodelsevaluationmethodologyofopinionminingmodels |
_version_ |
1799945014383476736 |
spelling |
nemertes-10889-101122022-09-06T07:03:44Z Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων) Language independent text feature extraction system for the deployment of opinion mining models. (Evaluation methodology of opinion mining models) Μπουλούμπασης, Νικόλαος Μεγαλοοικονόμου, Βασίλειος Bouloubasis, Nikolaos Μακρής, Χρήστος Μεγαλοοικονόμου, Βασίλειος Παυλίδης, Γεώργιος Εξόρυξη γνώμης Εξαγωγή γνωρισμάτων κειμένου Κατηγοριοποίηση Γλωσσικό μοντέλο Ανεξαρτησία από γλώσσα γραφής Στατιστικό μοντέλο 006.312 Opinion mining Text feature extraction Classification Language model Language independent Statistical model Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κριτικές ταινιών, για τη δημιουργία μοντέλων αυτόματης αξιολόγησης των υπό μελέτη κριτικών με δυαδική ταξινόμηση (θετική/αρνητική). Τα γνωρίσματα που εξάγονται για τη συγκεκριμένη μελέτη, πρέπει να έχουν τον μέγιστο βαθμό ανεξαρτησίας από την εκάστοτε γλώσσα κειμένου. Πιο συγκεκριμένα, παρουσιάζονται δυο διαφορετικές προσεγγίσεις εξαγωγής γνωρισμάτων κειμένου για σημασιολογική κατηγοριοποίηση: (α) Στατιστική προσέγγιση (Εμφάνιση γνωρισμάτων – Συχνότητα εμφάνισης γνωρισμάτων) και (β) προσέγγιση με γνώμονα τα δεδομένα (Bag of Words, N-gram model). Οι προτεινόμενες προσεγγίσεις προσφέρουν στη μελέτη πλήρη ανεξαρτησία από την γλώσσα γραφής των κειμένων. Στην παρούσα εργασία υλοποιούνται οι παραπάνω προσεγγίσεις όχι μόνο ανεξάρτητα αλλά και σε συνδυασμό ώστε να επιτευχθούν τα βέλτιστα δυνατά αποτελέσματα πρόβλεψης ως αναφορά την αυτόματη εξαγωγή απόψεων. Το σύνολο των δεδομένων που χρησιμοποιείται για την εκπόνηση της εργασίας, αποτελείται από τρία επιμέρους υποσύνολα με κείμενα που αφορούν διαδικτυακές κριτικές ταινιών ανάλογα με την γλώσσα γραφής των κριτικών. Τα κείμενα που εξετάζονται είναι γραμμένα σε τρεις διαφορετικές γλώσσες: Αγγλικά, Ισπανικά και Τούρκικα απαρτίζουν κατ’ αντιστοιχία το Αγγλικό, το Ισπανικό και το Τούρκικο υποσύνολο δεδομένων. Οι προτεινόμενες τεχνικές εξαγωγής γνωρισμάτων κειμένου εφαρμόζονται στα τρία υποσύνολα (Αγγλικό, Ισπανικό και Τούρκικο) και στο σύνολό τους ώστε να αναπτυχθεί ένα συγκριτικό μοντέλο αξιολόγησης. Για τον αυτόματο προσδιορισμό συμπερασμάτων από το σύνολο των κριτικών, η μελέτη βασίζεται σε έξι πασίγνωστους αλγορίθμους μηχανικής μάθησης χρησιμοποιώντας μοντέλα κατηγοριοποίησης βασισμένα σε decision trees, support vector machines και lazy - learning αλγόριθμους. Τέλος, ερευνάται η αποδοτικότητα των εργαλείων και των μεθόδων εξαγωγής χαρακτηριστικών κειμένου στη βελτίωση της ακρίβειας του προσδιορισμού συμπερασμάτων από το σύνολο των διαδικτυακών κριτικών ταινιών. The present study addresses the problem of automatic language independent opinion identification of web users of movie reviews. Text feature extraction methodologies are implemented and evaluated over a dataset of web movie reviews written in three different languages (English, Spanish and Turkish) for the construction of automatic opinion mining models with binary classification. The text features are being extracted regardless the language used for every examined movie review. Specifically, this study presents two different text feature extraction approaches for automatic sentiment classification on movie reviews. The proposed approaches: (a) Statistical based (Term occurrence, Term frequency) and (b) Bag-of-Words based, which are totally language independent, are implemented not only individually but also in combination, in order the best possible prediction’s accuracy to be achieved as reference to the automatic opinion identification. The dataset used for this project, is separated in three subsets of web movie reviews according to the language used for those reviews. Therefore the first subset contains reviews written in English, the second one has the Spanish reviews and the third one consists of reviews in Turkish. Thus the proposed text feature extraction techniques are applied in the whole dataset and in every individual subset too for the development of a comparative evaluation model. Finally, relying on six well-known machine learning algorithms, this study investigates the effectiveness of feature selection in the improvement of the accuracy of opinion identification. The feature ranking is performed over a set of statistical and data model based features. In the experiments, classification models are employed, based on decision trees, support vector machines and lazy-learning algorithms. 2017-02-13T07:47:32Z 2017-02-13T07:47:32Z 2016-10-04 Thesis http://hdl.handle.net/10889/10112 gr 0 application/pdf |