Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις

Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κουτροπούλου, Θεώνη
Άλλοι συγγραφείς: Γαλλόπουλος, Ευστράτιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11823
Περιγραφή
Περίληψη:Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση.