GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python

Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκρι...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κάρκας, Νικόλαος
Άλλοι συγγραφείς: Karkas, Nikolaos
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15429
id nemertes-10889-15429
record_format dspace
spelling nemertes-10889-154292022-09-05T20:52:08Z GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python GraphDocsPy : representation of multiple textual documents as a graph using the Python programming language Κάρκας, Νικόλαος Karkas, Nikolaos Ανάλυση κειμένων Επεξεργασία φυσικής γλώσσας Αναπαράσταση κειμένων Βιβλιοθήκες γράφων Αλγόριθμοι γράφων Text analysis Natural language processing Text representation Graph libraries Graph algorithms Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων. In text analysis, document representation is one of the most important steps. Among the methods of text representation that have been proposed, a method – which has become increasingly popular in recent years – is the representation of texts as a graph. This way of representing texts has many advantages, such as visualizing the relationships between words and employing graph theory for text analysis problems. Although computer science is widely used in both the design and analysis of graphs, as well as in text analysis, software packages that combine both fields are rare. One such case is the GraphDocsPy library, a graph–based text representation library written in the programming language Python. A special feature of GraphDocsPy is that it enables the representation of more than one documents in a single graph. This diploma thesis presents in detail the development of the aforementioned library. In particular, the graph–based text representation model that the library implements is first described. Then, all the included functions are analyzed one by one. Finally, to test its effectiveness, the GraphDocsPy library is used in classical text analysis applications. 2021-10-25T05:00:17Z 2021-10-25T05:00:17Z 2021-10-20 http://hdl.handle.net/10889/15429 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Ανάλυση κειμένων
Επεξεργασία φυσικής γλώσσας
Αναπαράσταση κειμένων
Βιβλιοθήκες γράφων
Αλγόριθμοι γράφων
Text analysis
Natural language processing
Text representation
Graph libraries
Graph algorithms
spellingShingle Ανάλυση κειμένων
Επεξεργασία φυσικής γλώσσας
Αναπαράσταση κειμένων
Βιβλιοθήκες γράφων
Αλγόριθμοι γράφων
Text analysis
Natural language processing
Text representation
Graph libraries
Graph algorithms
Κάρκας, Νικόλαος
GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
description Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων.
author2 Karkas, Nikolaos
author_facet Karkas, Nikolaos
Κάρκας, Νικόλαος
author Κάρκας, Νικόλαος
author_sort Κάρκας, Νικόλαος
title GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
title_short GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
title_full GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
title_fullStr GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
title_full_unstemmed GraphDocsPy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας Python
title_sort graphdocspy : αναπαράσταση πολλαπλών εγγράφων κειμένου σε γράφο με χρήση της γλώσσας python
publishDate 2021
url http://hdl.handle.net/10889/15429
work_keys_str_mv AT karkasnikolaos graphdocspyanaparastasēpollaplōnengraphōnkeimenousegraphomechrēsētēsglōssaspython
AT karkasnikolaos graphdocspyrepresentationofmultipletextualdocumentsasagraphusingthepythonprogramminglanguage
_version_ 1771297332048953344