Προσδιορισμός σημασιολογικής ομοιότητας κειμένου

Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Φραδέλος, Γεώργιος
Άλλοι συγγραφείς: Fradelos, Georgios
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15543
id nemertes-10889-15543
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία φυσικής γλώσσας
Βαθιά μάθηση
Νευρωνικά δίκτυα
Natural language processing
Deep learning
Neural networks
spellingShingle Επεξεργασία φυσικής γλώσσας
Βαθιά μάθηση
Νευρωνικά δίκτυα
Natural language processing
Deep learning
Neural networks
Φραδέλος, Γεώργιος
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
description Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α. Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης.
author2 Fradelos, Georgios
author_facet Fradelos, Georgios
Φραδέλος, Γεώργιος
author Φραδέλος, Γεώργιος
author_sort Φραδέλος, Γεώργιος
title Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_short Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_full Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_fullStr Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_full_unstemmed Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_sort προσδιορισμός σημασιολογικής ομοιότητας κειμένου
publishDate 2021
url http://hdl.handle.net/10889/15543
work_keys_str_mv AT phradelosgeōrgios prosdiorismossēmasiologikēsomoiotētaskeimenou
AT phradelosgeōrgios determiningtextualsemanticsimilarity
_version_ 1771297364063027200
spelling nemertes-10889-155432022-09-06T05:12:46Z Προσδιορισμός σημασιολογικής ομοιότητας κειμένου Determining textual semantic similarity Φραδέλος, Γεώργιος Fradelos, Georgios Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α. Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης. The field of Natural Language Processing or NLP has flourished during the past decades in computer science, and that is largely due to the exponential growth of internet popularity. Search engines, social network platforms and chatbots are few examples of applications that create needs for the evolution of existing technologies and the development of new more efficient techniques and methods since, among other things, a number of issues are delt with, such as question-answering, sentiment analysis, plagiarism detection, spam detection, fake news detection etc. In this dissertation we are going to take an in-depth look of the short text semantic similarity task through the prism of Deep Learning. First, we are getting to know the theory behind the Deep Learning field, that is going to be vital for the completion of our task. Next, we present some related work on the various techniques that have been proposed through the years on the STS task. Next we present three different neural network models that we developed in the context of this thesis study, both of Siamese and simple architecture, in order to be able to recognize semantic similarity over two short passages of text. In the models that we developed we used two different techniques for creating word embeddings. For the first model we used a classic token-to-vec embedding layer using GloVe embeddings. In the other two models we implemented the Transformers model BERT, instead of a GloVe embedding layer. Finally, we compare each model in terms of performance, through experimental studies, and we draw conclusions about the advantages and disadvantages that each one offers. The simple architecture, integrating BERT achieved a mean validation accuracy of 83.8%, while its Siamese counterpart achieved 79.9%. The Siamese architecture with GloVe embeddings achieved 80.5% validation accuracy, however, this is a relatively static implementation with restricted practical flexibility. The best results yielded from the simple architecture using the largest BERT model that we managed to train, due to limited resources, with 87.44% validation accuracy. The models that use BERT, although demanding in memory and computational resources, are very flexible to use with high development dynamics. 2021-11-09T06:41:47Z 2021-11-09T06:41:47Z 2021-11-08 http://hdl.handle.net/10889/15543 gr application/pdf