Προσδιορισμός σημασιολογικής ομοιότητας κειμένου

Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δη...

Full description

Bibliographic Details
Main Author:	Φραδέλος, Γεώργιος
Other Authors:	Fradelos, Georgios
Language:	Greek
Published:	2021
Subjects:	Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks
Online Access:	http://hdl.handle.net/10889/15543

id	nemertes-10889-15543
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks
spellingShingle	Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks Φραδέλος, Γεώργιος Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
description	Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α. Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης.
author2	Fradelos, Georgios
author_facet	Fradelos, Georgios Φραδέλος, Γεώργιος
author	Φραδέλος, Γεώργιος
author_sort	Φραδέλος, Γεώργιος
title	Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_short	Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_full	Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_fullStr	Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_full_unstemmed	Προσδιορισμός σημασιολογικής ομοιότητας κειμένου
title_sort	προσδιορισμός σημασιολογικής ομοιότητας κειμένου
publishDate	2021
url	http://hdl.handle.net/10889/15543
work_keys_str_mv	AT phradelosgeōrgios prosdiorismossēmasiologikēsomoiotētaskeimenou AT phradelosgeōrgios determiningtextualsemanticsimilarity
_version_	1771297364063027200
spelling	nemertes-10889-155432022-09-06T05:12:46Z Προσδιορισμός σημασιολογικής ομοιότητας κειμένου Determining textual semantic similarity Φραδέλος, Γεώργιος Fradelos, Georgios Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα Natural language processing Deep learning Neural networks Ο τομέας της επεξεργασίας φυσικής γλωσσας (NLP) έχει γνωρίσει μεγάλη άνθηση τις τελευταίες δεκαετίες στην επιστήμη των υπολογιστών, και αυτό οφείλεται σε μεγάλο βαθμό στη ραγδαία αύξηση της δημοτικότητας του διαδικτύου. Εργαλεία όπως μηχανές αναζήτησης, μέσα κοινωνικής δικτύωσης και chatbots κ.α. δημιουργούν ανάγκες για εξέλιξη των υπαρχόντων τεχνολογιών και ανάπτυξη νέων αποδοτικότερων τεχνικών και μεθόδων αφού μεταξύ άλλων πραγματέυονται μια πλειάδα θεμάτων επεξεργασίας φυσικής γλώσσας όπως συστήματα ερωταπαντήσεων, ανάλυση συναισθηματικού περιεχομένου, ανίχνευση λογοκλοπής, spam detection, αναγνώριση fake news κ.α. Στην παρούσα διπλωματική εργασία θα μελετήσουμε σε βάθος το θέμα της σημασιολογικής ομοιότητας κειμένων μέσα από το πρίσμα της Βαθιάς Μάθησης. Αρχικά κάνουμε μια εισαγωγή στο θεωρητικό υπόβαθρο της Βαθιάς Μάθησης. Έπειτα παραθέτουμε μια βιβλιογραφική μελέτη σχετικών ερευνών πάνω στις διάφορες τεχνικές που έχουν προταθεί κατά καιρούς για την αναγνώριση της σημασιολογικής ομοιότητας κειμένων. Στη συνέχεια παρουσιάζουμε τρία διαφορετικά μοντέλα νευρωνικών δικτύων, σιαμαίας και απλής αρχιτεκτονικής, τα οποία αναπτύξαμε στα πλαίσια της παρούσας διπλωματικής εργασίας με σκοπό τον προσδιοσριμό της σημασιολογκής ομοιότητας μεταξύ δύο προτάσεων. Για τα μοντέλα που αναπτύξαμε χρησιμοποιήσαμε δύο διαφορετικές τεχνικές διανυσματικής αναπαράστασης γλωσσικών δεδομένων, αρχικά μέσω της συλλογής διανυσμάτων λέξεων GloVe, και στη συνέχεια με τη χρήση του μοντέλου μετασχηματιστών BERT. Τέλος, συγκρίνουμε τις υλοποιήσεις ως προς την απόδοση, μέσα από πειραματικά αποτελέσματα, και βγάζουμε συμπεράσματα ως προς τα πλεονεκτήματα και μειονεκτήματα που πρσφέρει η κάθε μία. Η απλή αρχιτεκτονική με ενσωμάτωση του BERT πέτυχε κατά μέσο όρο ακρίβεια επιτυχίας προβλέψεων 83.8%, ενώ η αντίστοιχη σιαμαία υλοποίηση πέτυχε μέγιστη ακρίβεια προβλέψεων 79.9%. Η σιαμαία αρχιτεκτονική με διανύσματα GloVe πέτυχε αρκετά ικανοποιητικά αποτελέσματα με μέγιστη ακρίβεια 80.5%, ωστόσο πρόκειται για μια σχετικά στατική υλοποίηση χωρίς μεγάλη πρακτική ευελιξία. Τα καλύτερα αποτελέσματα τα πήραμε από την απλή αρχιτεκτονική με χρηση του μεγαλύτερου μοντέλου BERT που καταφέραμε να εκπαιδεύσουμε λόγω περιορισμένων πόρων, με 87.44% ακρίβεια προβλέψεων. Τα μοντέλα που χρησιμοποιούν το BERT αν και απαιτητικά σε μνήμη υπολογιστικούς πόρους, πρόκειται για ιδιαίτερα ευέλικτα στη χρήση εργαλεία με μεγάλη δυναμική εξέλιξης. The field of Natural Language Processing or NLP has flourished during the past decades in computer science, and that is largely due to the exponential growth of internet popularity. Search engines, social network platforms and chatbots are few examples of applications that create needs for the evolution of existing technologies and the development of new more efficient techniques and methods since, among other things, a number of issues are delt with, such as question-answering, sentiment analysis, plagiarism detection, spam detection, fake news detection etc. In this dissertation we are going to take an in-depth look of the short text semantic similarity task through the prism of Deep Learning. First, we are getting to know the theory behind the Deep Learning field, that is going to be vital for the completion of our task. Next, we present some related work on the various techniques that have been proposed through the years on the STS task. Next we present three different neural network models that we developed in the context of this thesis study, both of Siamese and simple architecture, in order to be able to recognize semantic similarity over two short passages of text. In the models that we developed we used two different techniques for creating word embeddings. For the first model we used a classic token-to-vec embedding layer using GloVe embeddings. In the other two models we implemented the Transformers model BERT, instead of a GloVe embedding layer. Finally, we compare each model in terms of performance, through experimental studies, and we draw conclusions about the advantages and disadvantages that each one offers. The simple architecture, integrating BERT achieved a mean validation accuracy of 83.8%, while its Siamese counterpart achieved 79.9%. The Siamese architecture with GloVe embeddings achieved 80.5% validation accuracy, however, this is a relatively static implementation with restricted practical flexibility. The best results yielded from the simple architecture using the largest BERT model that we managed to train, due to limited resources, with 87.44% validation accuracy. The models that use BERT, although demanding in memory and computational resources, are very flexible to use with high development dynamics. 2021-11-09T06:41:47Z 2021-11-09T06:41:47Z 2021-11-08 http://hdl.handle.net/10889/15543 gr application/pdf

Προσδιορισμός σημασιολογικής ομοιότητας κειμένου

Similar Items