Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις

Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κουτροπούλου, Θεώνη
Άλλοι συγγραφείς: Γαλλόπουλος, Ευστράτιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11823
id nemertes-10889-11823
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Εξόρυξη γνώσης από κείμενα
Ευρετήρια
Λέξεις-κλειδιά
006.312
Automated keyword extraction
Back-of-book index
Generated index
Keyword extraction
Latex-generated back-of-book index
Text mining
Semi-automatic generation
spellingShingle Εξόρυξη γνώσης από κείμενα
Ευρετήρια
Λέξεις-κλειδιά
006.312
Automated keyword extraction
Back-of-book index
Generated index
Keyword extraction
Latex-generated back-of-book index
Text mining
Semi-automatic generation
Κουτροπούλου, Θεώνη
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
description Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση.
author2 Γαλλόπουλος, Ευστράτιος
author_facet Γαλλόπουλος, Ευστράτιος
Κουτροπούλου, Θεώνη
format Thesis
author Κουτροπούλου, Θεώνη
author_sort Κουτροπούλου, Θεώνη
title Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_short Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_full Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_fullStr Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_full_unstemmed Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_sort αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
publishDate 2018
url http://hdl.handle.net/10889/11823
work_keys_str_mv AT koutropouloutheōnē automatopoiēmenēexagōgēlexeōnkleidiōnkaieuretēriopoiēsēalgorithmoikaiylopoiēseis
AT koutropouloutheōnē automatedkeywordextractionandindexingalgorithmsandimplementations
_version_ 1799945011554418688
spelling nemertes-10889-118232022-09-06T05:12:39Z Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις Automated keyword extraction and indexing : algorithms and implementations Κουτροπούλου, Θεώνη Γαλλόπουλος, Ευστράτιος Koutropoulou, Theoni Γαλλόπουλος, Ευστράτιος Κωτσιαντής, Σωτήριος Μεγαλοοικονόμου, Βασίλειος Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση. Text Mining techniques are widely used for analyzing and understanding texts from different fields, ranging from tweets and social network chats to scientific publications, books etc. In case of long texts, apart from table of contents, it is often necessary to include a back-of-book index. It is well-known that the construction of ”back-of-book index” is a demanding process undertaken by specialists with the assistance of special and expensive software. The goals of this thesis are (a) the automated keyword extraction from texts and (b) the semi-automatic generation of back-of-book indexing from the Text-to-Matrix Generator (TMG), MATLAB based, toolbox. Our intention is to simplify the drafting of a back-of- book index through the developed software and graphical user interface (GUI). During the preprocessing step of any text in pdf, LATEX or Word format, tokenization and stopword removal are applied as well as other techniques. Then, N-Grams (unigrams, bi-grams και tri-grams) extraction follows along with statistical and syntax analysis (POS tagging). This results in a list including the most important terms of each text. Results from experiments with various scientific books indicate that the generated index can serve as a well-structured starting draft that the user can then refine, e.g by term removal and term grouping, and turn into a reliable back-of-book index. For the special case of texts prepared using LATEX, the system that was developed can embed every selected keyword into an ”\index{}” tag, thus making the corresponding text ready for LATEX formatting and automatic index generation. 2018-12-26T20:12:30Z 2018-12-26T20:12:30Z 2018-09-19 Thesis http://hdl.handle.net/10889/11823 gr 0 application/pdf