Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις

Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Κουτροπούλου, Θεώνη
Άλλοι συγγραφείς:	Γαλλόπουλος, Ευστράτιος
Μορφή:	Thesis
Γλώσσα:	Greek
Έκδοση:	2018
Θέματα:	Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation
Διαθέσιμο Online:	http://hdl.handle.net/10889/11823

id	nemertes-10889-11823
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation
spellingShingle	Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation Κουτροπούλου, Θεώνη Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
description	Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση.
author2	Γαλλόπουλος, Ευστράτιος
author_facet	Γαλλόπουλος, Ευστράτιος Κουτροπούλου, Θεώνη
format	Thesis
author	Κουτροπούλου, Θεώνη
author_sort	Κουτροπούλου, Θεώνη
title	Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_short	Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_full	Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_fullStr	Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_full_unstemmed	Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
title_sort	αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις
publishDate	2018
url	http://hdl.handle.net/10889/11823
work_keys_str_mv	AT koutropouloutheōnē automatopoiēmenēexagōgēlexeōnkleidiōnkaieuretēriopoiēsēalgorithmoikaiylopoiēseis AT koutropouloutheōnē automatedkeywordextractionandindexingalgorithmsandimplementations
_version_	1799945011554418688
spelling	nemertes-10889-118232022-09-06T05:12:39Z Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις Automated keyword extraction and indexing : algorithms and implementations Κουτροπούλου, Θεώνη Γαλλόπουλος, Ευστράτιος Koutropoulou, Theoni Γαλλόπουλος, Ευστράτιος Κωτσιαντής, Σωτήριος Μεγαλοοικονόμου, Βασίλειος Εξόρυξη γνώσης από κείμενα Ευρετήρια Λέξεις-κλειδιά 006.312 Automated keyword extraction Back-of-book index Generated index Keyword extraction Latex-generated back-of-book index Text mining Semi-automatic generation Οι τεχνικές εξόρυξης γνώσης από κείμενα (Text Mining) χρησιμοποιούνται ευρέως τόσο για την ανάλυση όσο και για την κατανόηση κειμένων από «τιτιβίσματα» και κοινωνικά δίκτυα έως επιστημονικές δημοσιεύσεις και βιβλία. Στην περίπτωση εκτεταμένων κειμένων, πέραν του πίνακα περιεχομένων, είναι συχνά απαραίτητο να παρατίθεται στο τέλος και ένα ειδικό ευρετήριο όρων. Είναι γνωστό ότι η κατασκευή «ευρετηρίων τέλους βιβλίου» (back-of-book index) είναι μία επίπονη διαδικασία που αναλαμβάνουν ειδικοί επαγγελματίες, τα τελευταία χρόνια υποβοηθούμενοι από ειδικά και ακριβά προγράμματα λογισμικού. Σκοπός της εργασίας είναι (α) η αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών (keywords) από κείμενα και (β) η δημιουργία back-of-book ευρετηρίων με ημι-αυτόματο τρόπο στην εργαλειοθήκη (toolbox) Text-to-Matrix Generator (TMG) που λειτουργεί για το περιβάλλον MATLAB. Με τα προγράμματα που σχεδιάστηκαν και τη διεπαφή που υλοποιήθηκε για το TMG, διευκολύνεται σημαντικά η κατασκευή εκτεταμένων ή σύντομων προσχεδίων για ευρετήρια τέλους βιβλίου. Κατά τη διαδικασία της προεπεξεργασίας του κειμένου που μπορεί να δοθεί ως αρχείο pdf, LATEX ή Word, εφαρμόζεται λημματοποίηση, αφαίρεση κοινών λέξεων (stop- words) και άλλες τεχνικές. Ακολουθεί η εξαγωγή N-Grams (unigrams, bi-grams και tri- grams) και στη συνέχεια, εφαρμόζοντας στατιστική (π.χ συχνότητα εμφάνισης όρων) και λεξικογραφική ανάλυση (POS Tagging) δημιουργείται κατάλογος με τους σημαντικότερους όρους του κειμένου. Όπως δείχνουν τα αποτελέσματα που παρουσιάζονται στην εργασία, το παραγόμενο ευρετήριο μπορεί να είναι ένα αρκετά ικανοποιητικό αρχικό προσχέδιο που στη συνέχεια μπορούμε να επεξεργαστούμε, συνήθως με αφαίρεση και ομαδοποίηση όρων, για την παραγωγή του τελικού ευρετηρίου. Για την περίπτωση που στόχος είναι ο back-of-book index να δημιουργηθεί μέσω LATEX, κέθε επιλεγμένο keyword εμφωλεύεται στην ετικέτα ”\index{}” καθιστώντας το κείμενο έτοιμο για την τελική μορφοποίηση. Text Mining techniques are widely used for analyzing and understanding texts from different fields, ranging from tweets and social network chats to scientific publications, books etc. In case of long texts, apart from table of contents, it is often necessary to include a back-of-book index. It is well-known that the construction of ”back-of-book index” is a demanding process undertaken by specialists with the assistance of special and expensive software. The goals of this thesis are (a) the automated keyword extraction from texts and (b) the semi-automatic generation of back-of-book indexing from the Text-to-Matrix Generator (TMG), MATLAB based, toolbox. Our intention is to simplify the drafting of a back-of- book index through the developed software and graphical user interface (GUI). During the preprocessing step of any text in pdf, LATEX or Word format, tokenization and stopword removal are applied as well as other techniques. Then, N-Grams (unigrams, bi-grams και tri-grams) extraction follows along with statistical and syntax analysis (POS tagging). This results in a list including the most important terms of each text. Results from experiments with various scientific books indicate that the generated index can serve as a well-structured starting draft that the user can then refine, e.g by term removal and term grouping, and turn into a reliable back-of-book index. For the special case of texts prepared using LATEX, the system that was developed can embed every selected keyword into an ”\index{}” tag, thus making the corresponding text ready for LATEX formatting and automatic index generation. 2018-12-26T20:12:30Z 2018-12-26T20:12:30Z 2018-09-19 Thesis http://hdl.handle.net/10889/11823 gr 0 application/pdf

Αυτοματοποιημένη εξαγωγή λέξεων-κλειδιών και ευρετηριοποίηση : αλγόριθμοι και υλοποιήσεις

Παρόμοια τεκμήρια