Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δη...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15543 |
id |
nemertes-10889-15543 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks |
spellingShingle |
Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks Φραδέλος, Γεώργιος Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
description |
Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α.
Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης. |
author2 |
Fradelos, Georgios |
author_facet |
Fradelos, Georgios Φραδέλος, Γεώργιος |
author |
Φραδέλος, Γεώργιος |
author_sort |
Φραδέλος, Γεώργιος |
title |
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
title_short |
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
title_full |
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
title_fullStr |
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
title_full_unstemmed |
Προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
title_sort |
προσδιορισμός σημασιολογικής ομοιότητας κειμένου |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15543 |
work_keys_str_mv |
AT phradelosgeōrgios prosdiorismossēmasiologikēsomoiotētaskeimenou AT phradelosgeōrgios determiningtextualsemanticsimilarity |
_version_ |
1771297364063027200 |
spelling |
nemertes-10889-155432022-09-06T05:12:46Z Προσδιορισμός σημασιολογικής ομοιότητας κειμένου Determining textual semantic similarity Φραδέλος, Γεώργιος Fradelos, Georgios Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α. Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης. The field of Natural Language Processing or NLP has flourished during the past decades in computer science, and that is largely due to the exponential growth of internet popularity. Search engines, social network platforms and chatbots are few examples of applications that create needs for the evolution of existing technologies and the development of new more efficient techniques and methods since, among other things, a number of issues are delt with, such as question-answering, sentiment analysis, plagiarism detection, spam detection, fake news detection etc. In this dissertation we are going to take an in-depth look of the short text semantic similarity task through the prism of Deep Learning. First, we are getting to know the theory behind the Deep Learning field, that is going to be vital for the completion of our task. Next, we present some related work on the various techniques that have been proposed through the years on the STS task. Next we present three different neural network models that we developed in the context of this thesis study, both of Siamese and simple architecture, in order to be able to recognize semantic similarity over two short passages of text. In the models that we developed we used two different techniques for creating word embeddings. For the first model we used a classic token-to-vec embedding layer using GloVe embeddings. In the other two models we implemented the Transformers model BERT, instead of a GloVe embedding layer. Finally, we compare each model in terms of performance, through experimental studies, and we draw conclusions about the advantages and disadvantages that each one offers. The simple architecture, integrating BERT achieved a mean validation accuracy of 83.8%, while its Siamese counterpart achieved 79.9%. The Siamese architecture with GloVe embeddings achieved 80.5% validation accuracy, however, this is a relatively static implementation with restricted practical flexibility. The best results yielded from the simple architecture using the largest BERT model that we managed to train, due to limited resources, with 87.44% validation accuracy. The models that use BERT, although demanding in memory and computational resources, are very flexible to use with high development dynamics. 2021-11-09T06:41:47Z 2021-11-09T06:41:47Z 2021-11-08 http://hdl.handle.net/10889/15543 gr application/pdf |