Περίληψη: | Η δυνατότητα αξιοποίησης της πληροφορίας που υπάρχει στη φυσική γλώσσα αποτελεί ανοιχτό πρόβλημα και έχει υπάρξει σημείο μελέτης πολλών ερευνητικών ομάδων. Για να καταστεί δυνατή, χρειάζεται πρώτα η μετατροπή της φυσικής γλώσσας σε μια μορφή που να μπορεί να επεξεργαστεί και να αναλυθεί από υπολογιστικά συστήματα. Μια υποσχόμενη μορφή αποτελεί η XML, μια επεκτάσιμη γλώσσα σήμανσης από τις κυρίαρχες προταθείσες λύσεις για το ευρύτερο όραμα του σημασιολογικού ιστού (Semantic Web / Web 3.0). H ταυτόχρονη παρουσία δομής και περιεχομένου στα XML έγγραφα, μας επιτρέπει την επινόηση πολλών τρόπων διαχείρισης και επεξεργασίας των στοιχείων αυτών, είτε χρησιμοποιώντας τα ξεχωριστά, είτε και τα δύο μαζί.
Η μηχανική αποσαφήνιση κειμένου, η διαδικασία δηλαδή της σημασιολογικής αναγνώρισης σημαντικών λέξεων σε ένα κείμενο, αποτελεί επίσης μείζον ερευνητικό θέμα εδώ και πολύ καιρό. Η διαδικασία συνήθως περιλαμβάνει τη σύνδεση της λέξης προς αποσαφήνιση με κάποια έννοια από μια γνωσιακή βάση, όπως για παράδειγμα το WordNet.
Στην εργασία αυτή προτείνεται μια νέα μέθοδος αποσαφήνισης XML εγγράφων, χρησιμοποιώντας ως γνωσιακή βάση τη Wikipedia, θεωρώντας τα άρθρα της ως οντότητες επισημείωσης. Η ιδιαιτερότητα των XML εγγράφων, η ταυτόχρονη δηλαδή συνύπαρξη περιεχομένου και δομής, σε αντίθεση με το αδόμητο κείμενο προϋποθέτει συμβατότητα της αποσαφήνισης στα δύο αυτά επίπεδα καθώς η δομή επηρεάζει σε σημαντικό βαθμό την σημασιολογία ενός όρου στο XML έγγραφο. Για παράδειγμα, η λέξη Beethoven κάτω από τον κόμβο composer, αφορά στον μουσικό-συνθέτη, ενώ κάτω από τον κόμβο movie, μας παραπέμπει πιθανότατα στην κωμική ταινία. Έτσι, έγγραφα με παρόμοια δομή μπορεί να έχουν διαφορετικό σημασιολογικό περιεχόμενο ή και το αντίθετο (διαφορετική δομή με παρόμοιο σημασιολογικό περιεχόμενο). Η μέθοδος που προτείνεται, μέσω μια επαναληπτικής μεθόδου επιτυγχάνει την αποσαφήνιση κόμβου ενός XML εγγράφου, αντιστοιχίζοντάς το με μια οντότητα της Wikipedia. Για την υλοποίηση των πειραμάτων δημιουργήθηκε ένα νέο XML dataset που περιλαμβάνει επισημειωμένες λέξεις και φράσεις με οντότητες της Wikipedia, αντλώντας ελεύθερο κείμενο της Wikipedia και δομώντας με αυτοματοποιημένο τρόπο σε μορφή XML.
|