Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia
Η δυνατότητα αξιοποίησης της πληροφορίας που υπάρχει στη φυσική γλώσσα αποτελεί ανοιχτό πρόβλημα και έχει υπάρξει σημείο μελέτης πολλών ερευνητικών ομάδων. Για να καταστεί δυνατή, χρειάζεται πρώτα η μετατροπή της φυσικής γλώσσας σε μια μορφή που να μπορεί να επεξεργαστεί και να αναλυθεί από υπολογισ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2018
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/10971 |
id |
nemertes-10889-10971 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική αποσαφήνιση κειμένου Οντότητες XML Wikipedia 006.332 |
spellingShingle |
Μηχανική αποσαφήνιση κειμένου Οντότητες XML Wikipedia 006.332 Μεσσαλάς, Ιωάννης Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
description |
Η δυνατότητα αξιοποίησης της πληροφορίας που υπάρχει στη φυσική γλώσσα αποτελεί ανοιχτό πρόβλημα και έχει υπάρξει σημείο μελέτης πολλών ερευνητικών ομάδων. Για να καταστεί δυνατή, χρειάζεται πρώτα η μετατροπή της φυσικής γλώσσας σε μια μορφή που να μπορεί να επεξεργαστεί και να αναλυθεί από υπολογιστικά συστήματα. Μια υποσχόμενη μορφή αποτελεί η XML, μια επεκτάσιμη γλώσσα σήμανσης από τις κυρίαρχες προταθείσες λύσεις για το ευρύτερο όραμα του σημασιολογικού ιστού (Semantic Web / Web 3.0). H ταυτόχρονη παρουσία δομής και περιεχομένου στα XML έγγραφα, μας επιτρέπει την επινόηση πολλών τρόπων διαχείρισης και επεξεργασίας των στοιχείων αυτών, είτε χρησιμοποιώντας τα ξεχωριστά, είτε και τα δύο μαζί.
Η μηχανική αποσαφήνιση κειμένου, η διαδικασία δηλαδή της σημασιολογικής αναγνώρισης σημαντικών λέξεων σε ένα κείμενο, αποτελεί επίσης μείζον ερευνητικό θέμα εδώ και πολύ καιρό. Η διαδικασία συνήθως περιλαμβάνει τη σύνδεση της λέξης προς αποσαφήνιση με κάποια έννοια από μια γνωσιακή βάση, όπως για παράδειγμα το WordNet.
Στην εργασία αυτή προτείνεται μια νέα μέθοδος αποσαφήνισης XML εγγράφων, χρησιμοποιώντας ως γνωσιακή βάση τη Wikipedia, θεωρώντας τα άρθρα της ως οντότητες επισημείωσης. Η ιδιαιτερότητα των XML εγγράφων, η ταυτόχρονη δηλαδή συνύπαρξη περιεχομένου και δομής, σε αντίθεση με το αδόμητο κείμενο προϋποθέτει συμβατότητα της αποσαφήνισης στα δύο αυτά επίπεδα καθώς η δομή επηρεάζει σε σημαντικό βαθμό την σημασιολογία ενός όρου στο XML έγγραφο. Για παράδειγμα, η λέξη Beethoven κάτω από τον κόμβο composer, αφορά στον μουσικό-συνθέτη, ενώ κάτω από τον κόμβο movie, μας παραπέμπει πιθανότατα στην κωμική ταινία. Έτσι, έγγραφα με παρόμοια δομή μπορεί να έχουν διαφορετικό σημασιολογικό περιεχόμενο ή και το αντίθετο (διαφορετική δομή με παρόμοιο σημασιολογικό περιεχόμενο). Η μέθοδος που προτείνεται, μέσω μια επαναληπτικής μεθόδου επιτυγχάνει την αποσαφήνιση κόμβου ενός XML εγγράφου, αντιστοιχίζοντάς το με μια οντότητα της Wikipedia. Για την υλοποίηση των πειραμάτων δημιουργήθηκε ένα νέο XML dataset που περιλαμβάνει επισημειωμένες λέξεις και φράσεις με οντότητες της Wikipedia, αντλώντας ελεύθερο κείμενο της Wikipedia και δομώντας με αυτοματοποιημένο τρόπο σε μορφή XML. |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Μεσσαλάς, Ιωάννης |
format |
Thesis |
author |
Μεσσαλάς, Ιωάννης |
author_sort |
Μεσσαλάς, Ιωάννης |
title |
Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
title_short |
Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
title_full |
Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
title_fullStr |
Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
title_full_unstemmed |
Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia |
title_sort |
εννοιολογική αποσαφήνιση xml εγγράφων με οντότητες της wikipedia |
publishDate |
2018 |
url |
http://hdl.handle.net/10889/10971 |
work_keys_str_mv |
AT messalasiōannēs ennoiologikēaposaphēnisēxmlengraphōnmeontotētestēswikipedia AT messalasiōannēs xmldocumentsdisambiguationwithwikipediaentities |
_version_ |
1771297291383078912 |
spelling |
nemertes-10889-109712022-09-05T20:20:25Z Εννοιολογική αποσαφήνιση XML εγγράφων με οντότητες της Wikipedia XML documents disambiguation with Wikipedia entities Μεσσαλάς, Ιωάννης Μακρής, Χρήστος Μακρής, Χρήστος Παυλίδης, Γεώργιος Χατζηλυγερούδης, Ιωάννης Messalas, Ioannis Μηχανική αποσαφήνιση κειμένου Οντότητες XML Wikipedia 006.332 Η δυνατότητα αξιοποίησης της πληροφορίας που υπάρχει στη φυσική γλώσσα αποτελεί ανοιχτό πρόβλημα και έχει υπάρξει σημείο μελέτης πολλών ερευνητικών ομάδων. Για να καταστεί δυνατή, χρειάζεται πρώτα η μετατροπή της φυσικής γλώσσας σε μια μορφή που να μπορεί να επεξεργαστεί και να αναλυθεί από υπολογιστικά συστήματα. Μια υποσχόμενη μορφή αποτελεί η XML, μια επεκτάσιμη γλώσσα σήμανσης από τις κυρίαρχες προταθείσες λύσεις για το ευρύτερο όραμα του σημασιολογικού ιστού (Semantic Web / Web 3.0). H ταυτόχρονη παρουσία δομής και περιεχομένου στα XML έγγραφα, μας επιτρέπει την επινόηση πολλών τρόπων διαχείρισης και επεξεργασίας των στοιχείων αυτών, είτε χρησιμοποιώντας τα ξεχωριστά, είτε και τα δύο μαζί. Η μηχανική αποσαφήνιση κειμένου, η διαδικασία δηλαδή της σημασιολογικής αναγνώρισης σημαντικών λέξεων σε ένα κείμενο, αποτελεί επίσης μείζον ερευνητικό θέμα εδώ και πολύ καιρό. Η διαδικασία συνήθως περιλαμβάνει τη σύνδεση της λέξης προς αποσαφήνιση με κάποια έννοια από μια γνωσιακή βάση, όπως για παράδειγμα το WordNet. Στην εργασία αυτή προτείνεται μια νέα μέθοδος αποσαφήνισης XML εγγράφων, χρησιμοποιώντας ως γνωσιακή βάση τη Wikipedia, θεωρώντας τα άρθρα της ως οντότητες επισημείωσης. Η ιδιαιτερότητα των XML εγγράφων, η ταυτόχρονη δηλαδή συνύπαρξη περιεχομένου και δομής, σε αντίθεση με το αδόμητο κείμενο προϋποθέτει συμβατότητα της αποσαφήνισης στα δύο αυτά επίπεδα καθώς η δομή επηρεάζει σε σημαντικό βαθμό την σημασιολογία ενός όρου στο XML έγγραφο. Για παράδειγμα, η λέξη Beethoven κάτω από τον κόμβο composer, αφορά στον μουσικό-συνθέτη, ενώ κάτω από τον κόμβο movie, μας παραπέμπει πιθανότατα στην κωμική ταινία. Έτσι, έγγραφα με παρόμοια δομή μπορεί να έχουν διαφορετικό σημασιολογικό περιεχόμενο ή και το αντίθετο (διαφορετική δομή με παρόμοιο σημασιολογικό περιεχόμενο). Η μέθοδος που προτείνεται, μέσω μια επαναληπτικής μεθόδου επιτυγχάνει την αποσαφήνιση κόμβου ενός XML εγγράφου, αντιστοιχίζοντάς το με μια οντότητα της Wikipedia. Για την υλοποίηση των πειραμάτων δημιουργήθηκε ένα νέο XML dataset που περιλαμβάνει επισημειωμένες λέξεις και φράσεις με οντότητες της Wikipedia, αντλώντας ελεύθερο κείμενο της Wikipedia και δομώντας με αυτοματοποιημένο τρόπο σε μορφή XML. The ability to exploit the enormous amount of information that exists in the natural language form is a hot topic and it has been a point of study for many research groups. To make it possible, you first need to convert the natural language into a form that can be processed and analyzed by computer systems. A promising form is the XML language, an extensible markup language, which is the one of the dominant proposed solutions serving the wider vision of Semantic Web / Web 3.0. The simultaneous presence of structure and content information in XML documents allows us to devise many ways of data management and knowledge discovery, either using them separately or both. Word Sense Disambiguation (WSD), the task which is able to identify which sense of a word (i.e. meaning) is used in a sentence, when the word has multiple meanings has also been a major research topic for a long time. This process usually includes the task of identifying the semantically dominant concepts in a text segment and then, attaching them with a sense from a thesaurus inventory or semantic ontology. In this paper, a new method of Word Sense Disambiguation of XML documents is proposed, using Wikipedia as a thesaurus inventory and considering its articles as sense entities. The specificity of XML documents, which is the simultaneous coexistence of content and structure information, as opposed to the unstructured text, requires a balanced task of disambiguation process at these two levels as the structure greatly affects the semantics of a term in the XML document. For example, the “Beethoven” word under the node “composer” imply the meaning of the music composer, while under the node “movie”, we are most likely referring to the comedy movie. Thus, documents with a similar structure may have different semantic content or the opposite (a different structure with similar semantic content). The method proposed in this paper, through an iterative approach succeeds in disambiguating the tag name of a node of an XML document, matching it with a Wikipedia entity. To evaluate our proposed method, we created through an automated way a new XML dataset that contains words and phrases as hyperlinks to Wikipedia articles. 2018-01-17T07:35:00Z 2018-01-17T07:35:00Z 2017-09-26 Thesis http://hdl.handle.net/10889/10971 gr 0 application/pdf |