Περίληψη: | Στην ανάλυση κειμένων, ένα στάδιο με σπουδαία σημασία είναι αυτό της αναπαράστασης των εγγράφων. Ανάμεσα στις μεθόδους αναπαράστασης κειμένων που έχουν προταθεί, μία μέθοδος – η οποία αποκτά ολοένα και μεγαλύτερη δημοτικότητα τα τελευταία χρόνια – είναι η αναπαράσταση κειμένων σε γράφους. Ο συγκεκριμένος τρόπος αναπαράστασης κειμένων παρουσιάζει πολλά πλεονεκτήματα, όπως η απεικόνιση των σχέσεων μεταξύ των λέξεων και η χρήση της θεωρίας γράφων σε προβλήματα ανάλυσης κειμένων. Παρ’ ότι η επιστήμη της πληροφορικής χρησιμοποιείται κατά κόρον τόσο στο πεδίο της σχεδίασης και ανάλυσης γράφων, όσο και στο πεδίο της ανάλυσης κειμένων, σπάνιες είναι οι περιπτώσεις όπου ένα λογισμικό πακέτο συνδυάζει τα δύο ανωτέρω πεδία. Μία τέτοια περίπτωση είναι η βιβλιοθήκη GraphDocsPy, μία βιβλιοθήκη αναπαράστασης κειμένων σε γράφους γραμμένη στη γλώσσα
προγραμματισμού Python. Ένα ιδιαίτερο χαρακτηριστικό της GraphDocsPy είναι ότι επιτρέπει την αναπαράσταση περισσότερων του ενός εγγράφων σε έναν γράφο. Η παρούσα εργασία παρουσιάζει αναλυτικά την ανάπτυξη της βιβλιοθήκης. Πιο συγκεκριμένα, περιγράφεται αρχικά το μοντέλο αναπαράστασης κειμένων σε γράφους στο οποίο βασίζεται η βιβλιοθήκη. Έπειτα, αναλύονται μία προς μία όλες οι συναρτήσεις που περιλαμβάνονται σε αυτήν. Τέλος, για την εξέταση της αποτελεσματικότητάς της, η βιβλιοθήκη GraphDocsPy χρησιμοποιείται σε ορισμένες εφαρμογές ανάλυσης κειμένων.
|