Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων

Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομέ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σταθόπουλος, Διονύσιος
Άλλοι συγγραφείς: Stathopoulos, Dionysios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16311
Περιγραφή
Περίληψη:Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομένης μιας συλλογής πραγματοποιείται η αναπαράσταση κάθε κειμένου με μορφή γραφήματος ανάλογα με το μοντέλο που χρησιμοποιείται. Η προτεινόμενη βελτίωση γίνεται εντάσσοντας στα γραφήματα των κειμένων με την μορφή βάρους στις ακμές διανυσματικές αναπαραστά- σεις λέξεων (word embeddings) ή κόμβων (node embeddings) καθώς και συνδυασμό των παραπάνω. Χρησιμοποιούνται προεκπαιδευμένες διανυσματικές αναπαραστάσεις λέξεων (word embeddings) οι οποίες έχουν εκπαιδευτεί σε διαφορετικές συλλογές και έχουν παραχθεί μέσω εφαρμογής των μοντέλων Word2vec και GloVe. Στη συνέχεια, για την παραγωγή διανυσματικών αναπαραστάσεων κόμβων (node embeddings) έχει εφαρμοστεί στο συνολικό γράφημα της συλλογής το μοντέλο node2vec εντάσσοντας στο βάρος των ακμών και δομική πληροφορία του γραφήματος, ενώ προτιμήθηκε η παραγωγή διανυσματικών αναπαραστάσεων για τους κόμβους που αποτελούν τον κύριο πυρήνα του γραφήματος χρησιμοποιώντας την μέθοδο ανάλυσης του γραφήματος σε επίπεδα πυρήνων (core decomposition).