Σύστημα εξαγωγής γνωρισμάτων κειμένου από συλλογές κειμένων, ανεξάρτητα από τη γλώσσα γραφής και ανάπτυξη μοντέλων εξόρυξης συμπερασμάτων. (Μεθοδολογία αξιολόγησης μοντέλων εξόρυξης συμπερασμάτων)

Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μπουλούμπασης, Νικόλαος
Άλλοι συγγραφείς: Μεγαλοοικονόμου, Βασίλειος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2017
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/10112
Περιγραφή
Περίληψη:Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κριτικές ταινιών, για τη δημιουργία μοντέλων αυτόματης αξιολόγησης των υπό μελέτη κριτικών με δυαδική ταξινόμηση (θετική/αρνητική). Τα γνωρίσματα που εξάγονται για τη συγκεκριμένη μελέτη, πρέπει να έχουν τον μέγιστο βαθμό ανεξαρτησίας από την εκάστοτε γλώσσα κειμένου. Πιο συγκεκριμένα, παρουσιάζονται δυο διαφορετικές προσεγγίσεις εξαγωγής γνωρισμάτων κειμένου για σημασιολογική κατηγοριοποίηση: (α) Στατιστική προσέγγιση (Εμφάνιση γνωρισμάτων – Συχνότητα εμφάνισης γνωρισμάτων) και (β) προσέγγιση με γνώμονα τα δεδομένα (Bag of Words, N-gram model). Οι προτεινόμενες προσεγγίσεις προσφέρουν στη μελέτη πλήρη ανεξαρτησία από την γλώσσα γραφής των κειμένων. Στην παρούσα εργασία υλοποιούνται οι παραπάνω προσεγγίσεις όχι μόνο ανεξάρτητα αλλά και σε συνδυασμό ώστε να επιτευχθούν τα βέλτιστα δυνατά αποτελέσματα πρόβλεψης ως αναφορά την αυτόματη εξαγωγή απόψεων. Το σύνολο των δεδομένων που χρησιμοποιείται για την εκπόνηση της εργασίας, αποτελείται από τρία επιμέρους υποσύνολα με κείμενα που αφορούν διαδικτυακές κριτικές ταινιών ανάλογα με την γλώσσα γραφής των κριτικών. Τα κείμενα που εξετάζονται είναι γραμμένα σε τρεις διαφορετικές γλώσσες: Αγγλικά, Ισπανικά και Τούρκικα απαρτίζουν κατ’ αντιστοιχία το Αγγλικό, το Ισπανικό και το Τούρκικο υποσύνολο δεδομένων. Οι προτεινόμενες τεχνικές εξαγωγής γνωρισμάτων κειμένου εφαρμόζονται στα τρία υποσύνολα (Αγγλικό, Ισπανικό και Τούρκικο) και στο σύνολό τους ώστε να αναπτυχθεί ένα συγκριτικό μοντέλο αξιολόγησης. Για τον αυτόματο προσδιορισμό συμπερασμάτων από το σύνολο των κριτικών, η μελέτη βασίζεται σε έξι πασίγνωστους αλγορίθμους μηχανικής μάθησης χρησιμοποιώντας μοντέλα κατηγοριοποίησης βασισμένα σε decision trees, support vector machines και lazy - learning αλγόριθμους. Τέλος, ερευνάται η αποδοτικότητα των εργαλείων και των μεθόδων εξαγωγής χαρακτηριστικών κειμένου στη βελτίωση της ακρίβειας του προσδιορισμού συμπερασμάτων από το σύνολο των διαδικτυακών κριτικών ταινιών.