GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκρι...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15429 |
id |
nemertes-10889-15429 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-154292022-09-05T20:52:08Z GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python GraphDocsPy : representation of multiple textual documents as a graph using the Python programming language Κάρκας, Νικόλαος Karkas, Nikolaos Ανάλυση κειμένων Επεξεργασία φυσικής γλώσσας Αναπαράσταση κειμένων Βιβλιοθήκες γράφων Αλγόριθμοι γράφων Text analysis Natural language processing Text representation Graph libraries Graph algorithms Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων. In text analysis, document representation is one of the most important steps. Among the methods of text representation that have been proposed, a method – which has become increasingly popular in recent years – is the representation of texts as a graph. This way of representing texts has many advantages, such as visualizing the relationships between words and employing graph theory for text analysis problems. Although computer science is widely used in both the design and analysis of graphs, as well as in text analysis, software packages that combine both fields are rare. One such case is the GraphDocsPy library, a graph–based text representation library written in the programming language Python. A special feature of GraphDocsPy is that it enables the representation of more than one documents in a single graph. This diploma thesis presents in detail the development of the aforementioned library. In particular, the graph–based text representation model that the library implements is first described. Then, all the included functions are analyzed one by one. Finally, to test its effectiveness, the GraphDocsPy library is used in classical text analysis applications. 2021-10-25T05:00:17Z 2021-10-25T05:00:17Z 2021-10-20 http://hdl.handle.net/10889/15429 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ανάλυση κειμένων Επεξεργασία φυσικής γλώσσας Αναπαράσταση κειμένων Βιβλιοθήκες γράφων Αλγόριθμοι γράφων Text analysis Natural language processing Text representation Graph libraries Graph algorithms |
spellingShingle |
Ανάλυση κειμένων Επεξεργασία φυσικής γλώσσας Αναπαράσταση κειμένων Βιβλιοθήκες γράφων Αλγόριθμοι γράφων Text analysis Natural language processing Text representation Graph libraries Graph algorithms Κάρκας, Νικόλαος GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
description |
Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα
προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων. |
author2 |
Karkas, Nikolaos |
author_facet |
Karkas, Nikolaos Κάρκας, Νικόλαος |
author |
Κάρκας, Νικόλαος |
author_sort |
Κάρκας, Νικόλαος |
title |
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
title_short |
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
title_full |
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
title_fullStr |
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
title_full_unstemmed |
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python |
title_sort |
graphdocspy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας python |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15429 |
work_keys_str_mv |
AT karkasnikolaos graphdocspyanaparastasēpollaplōnengraphōnkeimenousegraphomechrēsētēsglōssaspython AT karkasnikolaos graphdocspyrepresentationofmultipletextualdocumentsasagraphusingthepythonprogramminglanguage |
_version_ |
1771297332048953344 |