Περίληψη: | Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής
γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και
η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν
η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην βιβλιογραφία ως
Wikification. Ο βασικός λόγος που καθιστά το πρόβλημα δύσκολο να επιλυθεί, είναι η
πολυσημία των λέξεων και η δυσκολία εντοπισμού της σωστής οντότητας με την οποία
πρέπει να γίνει αντιστοίχιση, δηλαδή την αποσαφήνιση. Πολλές προσπάθειες έχουν γίνει
μέχρι τώρα που χρησιμοποιούν περίπλοκες τεχνικές, τεχνικές μηχανικής μάθησης και
νευρωνικά δίκτυα προσπαθώντας να εξάγουν πληροφορίες από το εννοιολογικό
περιεχόμενο που περιβάλλει τις οντότητες και έχουν πετύχει πολύ καλή. Παρόλα αυτά η
χρονική πολυπλοκότητα και η υπολογιστική ισχύς που απαιτείται αυξάνεται κατά πολύ.
Για αυτόν τον λόγο στη παρούσα εργασία προσεγγίζουμε το πρόβλημα από μια
διαφορετική οπτική. Πολλές φορές έχουμε ανάγκη για μια πιο γρήγορη λύση, η οποία
μπορεί να παρέχει καλά αποτελέσματα (με σαφώς πολύ μικρότερη ακρίβεια) αλλά σε
πολύ μικρότερο χρόνο. Έτσι λοιπόν υλοποιήσαμε ένα σύστημα το οποίο εντοπίζει την
οντότητα της Wikipedia με την οποία είναι πιο πιθανό να γίνει η διασύνδεση. Για την
διαδικασία της αποσαφήνισης δεν χρησιμοποιείται το περιβάλλoν εννοιολογικό
περιεχόμενο αλλά υπολογίζεται η πιο πιθανή οντότητα μέσω μετρικών όπως το πόσο
συνηθισμένη είναι μια οντότητα (commonness) αλλά και ποια οντότητα είναι πιο πιθανό
να διασυνδεθεί (link probability). Αυτές οι μετρικές μπορούν να υπολογιστούν εκ των
προτέρων με αποτέλεσμα η συνολική χρονική πολυπλοκότητα να μένει πολύ χαμηλή,
διατηρώντας μια σχετικά καλή ακρίβεια στα αποτελέσματα.
|