Συσταδοποίηση κειμένων με χρήση της μετρικής Wasserstein και τεχνικές βέλτιστης μεταφοράς

Για τη διερεύνηση ομοιότητας ανάμεσα σε κείμενα υπάρχουν πολλές τεχνικές που χρησιμοποιούν τις συχνότητες εμφάνισης λέξεων και άλλες στατιστικές πληροφορίες που παράγονται από τα μητρώα όρων - κειμένων. Τι γίνεται όμως όταν οι λέξεις εκλαμβάνονται ως οντότητες σε ειδικούς χώρους με ειδικά επιλεγμένε...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καλογερόπουλος, Διονύσιος
Άλλοι συγγραφείς: Γαλλόπουλος, Ευστράτιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11702
Περιγραφή
Περίληψη:Για τη διερεύνηση ομοιότητας ανάμεσα σε κείμενα υπάρχουν πολλές τεχνικές που χρησιμοποιούν τις συχνότητες εμφάνισης λέξεων και άλλες στατιστικές πληροφορίες που παράγονται από τα μητρώα όρων - κειμένων. Τι γίνεται όμως όταν οι λέξεις εκλαμβάνονται ως οντότητες σε ειδικούς χώρους με ειδικά επιλεγμένες αποστάσεις ομοιότητας; Στόχος της παρούσας εργασίας είναι η διερεύνηση τεχνικών μέτρησης υπολογισμού ομοιότητας και ομαδοποίησης κειμένων χρησιμοποιώντας ως μετρική την απόσταση Wasserstein . Ονομάζουμε τη μεθοδολογία αυτή W2EC (Wasserstein by Word Embedding Clustering). Για την εξαγωγή των πληροφοριών (στατιστικών και λεξιλογίου) χρησιμοποιείται η εργαλειοθήκη {\sc TMG} (Text to Matrix Generator). Κάθε κείμενο εκλαμβάνεται ως μια κατανομή και κάθε στοιχείο της κατανομής ως ένας όρος από ένα λεξικό που έχει μετασχηματιστεί σε διανυσματικό χώρο μέσω ενσωματώσεων λέξεων (word embeddings) όπως word2vec και GloVe . Το κάθε κείμενο αποτελείται από τους όρους που εμφανίστηκαν σε αυτό και ο έλεγχος ομοιότητας πραγματοποιείται επιλύοντας ένα πρόβλημα βέλτιστης μεταφοράς (optimal transport) \cite{kantorovich} της μιας κατανομής στην άλλη. Η εύρεση της στρατηγικής βέλτιστης μεταφοράς γίνεται είτε με επίλυση προβλήματος γραμμικού προγραμματισμού είτε με ομαλοποίηση του προβλήματος και εφαρμογή του αλγορίθμου Sinkhorn για αμφίπλευρη στοχαστικοποίηση. %Ένα πρόβλημα που μελετάται είναι η απόδοση ως προς την ταχύτητα της βέλτιστης μεταφοράς καθώς είναι γνωστό ότι πρόκειται για μια διαδικασία με υψηλό υπολογιστικό κόστος και μπορεί να γίνει απαγορευτική καθώς μεγαλώνει ο όγκος των δεδομένων. Εντέλει, για κάθε κείμενο υπολογίζεται η βέλτιστη μεταφορά του ως προς τα υπόλοιπα κείμενα και δημιουργείται ένα μητρώο με αποστάσεις Wasserstein. Η συσταδοποίηση επιτυγχάνεται βάσει αυτού του μητρώου με γνωστούς φασματικούς αλγόριθμους (kMeans, PDDP κλπ) και γίνεται σύγκριση των αποτελεσμάτων σε σχέση με την συσταδοποίηση που προκύπτει από το μητρώο όρων-κειμένων. Τα δεδομένα που χρησιμοποιήθηκαν αποτελούνται από γνωστές συλλογές κειμένων και η αξιολόγηση των αποτελεσμάτων για κάθε σύνολο δεδομένων γίνεται ως προς την ποιότητα, ταχύτητα αλλά και κλιμακωσιμότητα αυτών. Τα αποτελέσματα που παράγονται μέσω της μεθοδολογίας W2EC εμφανίζουν έντονες σημασιολογικές σχέσεις στα κείμενα που συσταδοποιήθηκαν μαζί και αναδεικνύουν τη χρησιμότητα τη μετρικής Wasserstein.