Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαρ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2018
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/11823 |
id |
nemertes-10889-11823 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation |
spellingShingle |
Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation Κουτροπούλου, Θεώνη Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
description |
Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων.
Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου.
Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου.
Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση. |
author2 |
Γαλλόπουλος, Ευστράτιος |
author_facet |
Γαλλόπουλος, Ευστράτιος Κουτροπούλου, Θεώνη |
format |
Thesis |
author |
Κουτροπούλου, Θεώνη |
author_sort |
Κουτροπούλου, Θεώνη |
title |
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
title_short |
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
title_full |
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
title_fullStr |
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
title_full_unstemmed |
Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
title_sort |
αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις |
publishDate |
2018 |
url |
http://hdl.handle.net/10889/11823 |
work_keys_str_mv |
AT koutropouloutheōnē automatopoiēmenēexagōgēlexeōnkleidiōnkaieuretēriopoiēsēalgorithmoikaiylopoiēseis AT koutropouloutheōnē automatedkeywordextractionandindexingalgorithmsandimplementations |
_version_ |
1799945011554418688 |
spelling |
nemertes-10889-118232022-09-06T05:12:39Z Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις Automated keyword extraction and indexing : algorithms and implementations Κουτροπούλου, Θεώνη Γαλλόπουλος, Ευστράτιος Koutropoulou, Theoni Γαλλόπουλος, Ευστράτιος Κωτσιαντής, Σωτήριος Μεγαλοοικονόμου, Βασίλειος Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση. Text Mining techniques are widely used for analyzing and understanding texts from different fields, ranging from tweets and social network chats to scientific publications, books etc. In case of long texts, apart from table of contents, it is often necessary to include a back-of-book index. It is well-known that the construction of ”back-of-book index” is a demanding process undertaken by specialists with the assistance of special and expensive software. The goals of this thesis are (a) the automated keyword extraction from texts and (b) the semi-automatic generation of back-of-book indexing from the Text-to-Matrix Generator (TMG), MATLAB based, toolbox. Our intention is to simplify the drafting of a back-of- book index through the developed software and graphical user interface (GUI). During the preprocessing step of any text in pdf, LATEX or Word format, tokenization and stopword removal are applied as well as other techniques. Then, N-Grams (unigrams, bi-grams και tri-grams) extraction follows along with statistical and syntax analysis (POS tagging). This results in a list including the most important terms of each text. Results from experiments with various scientific books indicate that the generated index can serve as a well-structured starting draft that the user can then refine, e.g by term removal and term grouping, and turn into a reliable back-of-book index. For the special case of texts prepared using LATEX, the system that was developed can embed every selected keyword into an ”\index{}” tag, thus making the corresponding text ready for LATEX formatting and automatic index generation. 2018-12-26T20:12:30Z 2018-12-26T20:12:30Z 2018-09-19 Thesis http://hdl.handle.net/10889/11823 gr 0 application/pdf |