Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων
Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομέ...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2022
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/16311 |
id |
nemertes-10889-16311 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-163112022-09-05T14:09:57Z Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων Text retrieval employing word and node embeddings Σταθόπουλος, Διονύσιος Stathopoulos, Dionysios Ανάκτηση πληροφορίας Ανάκτηση κειμένων Graphical Set-Based μοντέλο ανάκτησης πληροφορίας Διανυσματική αναπαράσταση λέξεων Διανυσματική αναπαράσταση κόμβων Information retrieval Text retrieval Graphical Set-Based model Word embeddings Node embeddings word2vec GloVe node2vec Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομένης μιας συλλογής πραγματοποιείται η αναπαράσταση κάθε κειμένου με μορφή γραφήματος ανάλογα με το μοντέλο που χρησιμοποιείται. Η προτεινόμενη βελτίωση γίνεται εντάσσοντας στα γραφήματα των κειμένων με την μορφή βάρους στις ακμές διανυσματικές αναπαραστά- σεις λέξεων (word embeddings) ή κόμβων (node embeddings) καθώς και συνδυασμό των παραπάνω. Χρησιμοποιούνται προεκπαιδευμένες διανυσματικές αναπαραστάσεις λέξεων (word embeddings) οι οποίες έχουν εκπαιδευτεί σε διαφορετικές συλλογές και έχουν παραχθεί μέσω εφαρμογής των μοντέλων Word2vec και GloVe. Στη συνέχεια, για την παραγωγή διανυσματικών αναπαραστάσεων κόμβων (node embeddings) έχει εφαρμοστεί στο συνολικό γράφημα της συλλογής το μοντέλο node2vec εντάσσοντας στο βάρος των ακμών και δομική πληροφορία του γραφήματος, ενώ προτιμήθηκε η παραγωγή διανυσματικών αναπαραστάσεων για τους κόμβους που αποτελούν τον κύριο πυρήνα του γραφήματος χρησιμοποιώντας την μέθοδο ανάλυσης του γραφήματος σε επίπεδα πυρήνων (core decomposition). The aim of this thesis is to improve the Graphical Set-based model as well as some of it’s extensions which make use of windows, i.e. these extensions divide the documents of the collection in parts to which the graph generation algorithms are applied. Initially, given a collection of documents, each document represented as a graph depending of the used model. The proposed improvement is made by embedding to the generated graphs in the form of weight in the edges word or node embeddings as well as a combination of the two. The word embeddings which are used are pre-trained and more specifically they have been trained in different collections and have been generated through the application of Word2vec and GloVe models. Then, for the computation of node embeddings, the node2vec model has been applied to the union graph of the collection, embedding in the weight of the edges structural information about the graph. It was also preferred to compute node embeddings for the nodes that constitute the main core of the graph using k-core decomposition. 2022-06-28T11:35:49Z 2022-06-28T11:35:49Z 2022-06-28 http://hdl.handle.net/10889/16311 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ανάκτηση πληροφορίας Ανάκτηση κειμένων Graphical Set-Based μοντέλο ανάκτησης πληροφορίας Διανυσματική αναπαράσταση λέξεων Διανυσματική αναπαράσταση κόμβων Information retrieval Text retrieval Graphical Set-Based model Word embeddings Node embeddings word2vec GloVe node2vec |
spellingShingle |
Ανάκτηση πληροφορίας Ανάκτηση κειμένων Graphical Set-Based μοντέλο ανάκτησης πληροφορίας Διανυσματική αναπαράσταση λέξεων Διανυσματική αναπαράσταση κόμβων Information retrieval Text retrieval Graphical Set-Based model Word embeddings Node embeddings word2vec GloVe node2vec Σταθόπουλος, Διονύσιος Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
description |
Στόχος της παρούσας διπλωματικής εργασίας είναι η βελτίωση του επεκτεταμένου με γραφήματα Set-Based μοντέλου καθώς και κάποιων επεκτάσεών του οι οποίες κάνουν χρήση παραθύρων, δηλαδή χωρίζουν τα κείμενα της συλλογής σε τμήματα στα οποία εφαρμόζονται οι αλγόριθμοι παραγωγής γραφημάτων. Αρχικά, δεδομένης μιας συλλογής πραγματοποιείται η αναπαράσταση κάθε κειμένου με μορφή γραφήματος ανάλογα με το μοντέλο που χρησιμοποιείται. Η προτεινόμενη βελτίωση γίνεται εντάσσοντας στα
γραφήματα των κειμένων με την μορφή βάρους στις ακμές διανυσματικές αναπαραστά-
σεις λέξεων (word embeddings) ή κόμβων (node embeddings) καθώς και συνδυασμό
των παραπάνω. Χρησιμοποιούνται προεκπαιδευμένες διανυσματικές αναπαραστάσεις
λέξεων (word embeddings) οι οποίες έχουν εκπαιδευτεί σε διαφορετικές συλλογές και
έχουν παραχθεί μέσω εφαρμογής των μοντέλων Word2vec και GloVe. Στη συνέχεια,
για την παραγωγή διανυσματικών αναπαραστάσεων κόμβων (node embeddings) έχει
εφαρμοστεί στο συνολικό γράφημα της συλλογής το μοντέλο node2vec εντάσσοντας στο βάρος των ακμών και δομική πληροφορία του γραφήματος, ενώ προτιμήθηκε η
παραγωγή διανυσματικών αναπαραστάσεων για τους κόμβους που αποτελούν τον κύριο
πυρήνα του γραφήματος χρησιμοποιώντας την μέθοδο ανάλυσης του γραφήματος σε
επίπεδα πυρήνων (core decomposition). |
author2 |
Stathopoulos, Dionysios |
author_facet |
Stathopoulos, Dionysios Σταθόπουλος, Διονύσιος |
author |
Σταθόπουλος, Διονύσιος |
author_sort |
Σταθόπουλος, Διονύσιος |
title |
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
title_short |
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
title_full |
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
title_fullStr |
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
title_full_unstemmed |
Ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
title_sort |
ανάκτηση κειμένων με την βοήθεια διανυσματικών αναπαραστάσεων λέξεων και κόμβων |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16311 |
work_keys_str_mv |
AT stathopoulosdionysios anaktēsēkeimenōnmetēnboētheiadianysmatikōnanaparastaseōnlexeōnkaikombōn AT stathopoulosdionysios textretrievalemployingwordandnodeembeddings |
_version_ |
1771297248349519872 |