Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων

Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομέ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σταθόπουλος, Διονύσιος
Άλλοι συγγραφείς: Stathopoulos, Dionysios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16311
id nemertes-10889-16311
record_format dspace
spelling nemertes-10889-163112022-09-05T14:09:57Z Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων Text retrieval employing word and node embeddings Σταθόπουλος, Διονύσιος Stathopoulos, Dionysios Ανάκτηση πληροφορίας Ανάκτηση κειμένων Graphical Set-Based μοντέλο ανάκτησης πληροφορίας Διανυσματική αναπαράσταση λέξεων Διανυσματική αναπαράσταση κόμβων Information retrieval Text retrieval Graphical Set-Based model Word embeddings Node embeddings word2vec GloVe node2vec Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομένης μιας συλλογής πραγματοποιείται η αναπαράσταση κάθε κειμένου με μορφή γραφήματος ανάλογα με το μοντέλο που χρησιμοποιείται. Η προτεινόμενη βελτίωση γίνεται εντάσσοντας στα γραφήματα των κειμένων με την μορφή βάρους στις ακμές διανυσματικές αναπαραστά- σεις λέξεων (word embeddings) ή κόμβων (node embeddings) καθώς και συνδυασμό των παραπάνω. Χρησιμοποιούνται προεκπαιδευμένες διανυσματικές αναπαραστάσεις λέξεων (word embeddings) οι οποίες έχουν εκπαιδευτεί σε διαφορετικές συλλογές και έχουν παραχθεί μέσω εφαρμογής των μοντέλων Word2vec και GloVe. Στη συνέχεια, για την παραγωγή διανυσματικών αναπαραστάσεων κόμβων (node embeddings) έχει εφαρμοστεί στο συνολικό γράφημα της συλλογής το μοντέλο node2vec εντάσσοντας στο βάρος των ακμών και δομική πληροφορία του γραφήματος, ενώ προτιμήθηκε η παραγωγή διανυσματικών αναπαραστάσεων για τους κόμβους που αποτελούν τον κύριο πυρήνα του γραφήματος χρησιμοποιώντας την μέθοδο ανάλυσης του γραφήματος σε επίπεδα πυρήνων (core decomposition). The aim of this thesis is to improve the Graphical Set-based model as well as some of it’s extensions which make use of windows, i.e. these extensions divide the documents of the collection in parts to which the graph generation algorithms are applied. Initially, given a collection of documents, each document represented as a graph depending of the used model. The proposed improvement is made by embedding to the generated graphs in the form of weight in the edges word or node embeddings as well as a combination of the two. The word embeddings which are used are pre-trained and more specifically they have been trained in different collections and have been generated through the application of Word2vec and GloVe models. Then, for the computation of node embeddings, the node2vec model has been applied to the union graph of the collection, embedding in the weight of the edges structural information about the graph. It was also preferred to compute node embeddings for the nodes that constitute the main core of the graph using k-core decomposition. 2022-06-28T11:35:49Z 2022-06-28T11:35:49Z 2022-06-28 http://hdl.handle.net/10889/16311 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Ανάκτηση πληροφορίας
Ανάκτηση κειμένων
Graphical Set-Based μοντέλο ανάκτησης πληροφορίας
Διανυσματική αναπαράσταση λέξεων
Διανυσματική αναπαράσταση κόμβων
Information retrieval
Text retrieval
Graphical Set-Based model
Word embeddings
Node embeddings
word2vec
GloVe
node2vec
spellingShingle Ανάκτηση πληροφορίας
Ανάκτηση κειμένων
Graphical Set-Based μοντέλο ανάκτησης πληροφορίας
Διανυσματική αναπαράσταση λέξεων
Διανυσματική αναπαράσταση κόμβων
Information retrieval
Text retrieval
Graphical Set-Based model
Word embeddings
Node embeddings
word2vec
GloVe
node2vec
Σταθόπουλος, Διονύσιος
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
description Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομένης μιας συλλογής πραγματοποιείται η αναπαράσταση κάθε κειμένου με μορφή γραφήματος ανάλογα με το μοντέλο που χρησιμοποιείται. Η προτεινόμενη βελτίωση γίνεται εντάσσοντας στα γραφήματα των κειμένων με την μορφή βάρους στις ακμές διανυσματικές αναπαραστά- σεις λέξεων (word embeddings) ή κόμβων (node embeddings) καθώς και συνδυασμό των παραπάνω. Χρησιμοποιούνται προεκπαιδευμένες διανυσματικές αναπαραστάσεις λέξεων (word embeddings) οι οποίες έχουν εκπαιδευτεί σε διαφορετικές συλλογές και έχουν παραχθεί μέσω εφαρμογής των μοντέλων Word2vec και GloVe. Στη συνέχεια, για την παραγωγή διανυσματικών αναπαραστάσεων κόμβων (node embeddings) έχει εφαρμοστεί στο συνολικό γράφημα της συλλογής το μοντέλο node2vec εντάσσοντας στο βάρος των ακμών και δομική πληροφορία του γραφήματος, ενώ προτιμήθηκε η παραγωγή διανυσματικών αναπαραστάσεων για τους κόμβους που αποτελούν τον κύριο πυρήνα του γραφήματος χρησιμοποιώντας την μέθοδο ανάλυσης του γραφήματος σε επίπεδα πυρήνων (core decomposition).
author2 Stathopoulos, Dionysios
author_facet Stathopoulos, Dionysios
Σταθόπουλος, Διονύσιος
author Σταθόπουλος, Διονύσιος
author_sort Σταθόπουλος, Διονύσιος
title Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
title_short Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
title_full Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
title_fullStr Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
title_full_unstemmed Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
title_sort ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
publishDate 2022
url http://hdl.handle.net/10889/16311
work_keys_str_mv AT stathopoulosdionysios anaktēsēkeimenōnmetēnboētheiadianysmatikōnanaparastaseōnlexeōnkaikombōn
AT stathopoulosdionysios textretrievalemployingwordandnodeembeddings
_version_ 1771297248349519872