Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής
Η επισημείωση αδόμητου κειμένου με σχετική εννοιολογική πληροφορία αποτελεί σημαντικό βήμα προεπεξεργασίας σε πεδία σαν την ανάκτηση πληροφορίας, την τεχνητή νοημοσύνη, την μηχανική μάθηση, την διαχείριση δεδομένων κ.α. Οι οντότητες που υπάρχουν στην Wikipedia συνοδεύονται από κοινά αποδεκτές περιγρ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/16439 |
id |
nemertes-10889-16439 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Σύνδεση οντοτήτων Αποσαφήνιση λέξεων Κοινότητες γραφημάτων Νευρωνικά δίκτυα Βαθιά μάθηση Entity linking Word sense disambiguation Wikipedia K-means Graph communities Neural networks Deep learning |
spellingShingle |
Σύνδεση οντοτήτων Αποσαφήνιση λέξεων Κοινότητες γραφημάτων Νευρωνικά δίκτυα Βαθιά μάθηση Entity linking Word sense disambiguation Wikipedia K-means Graph communities Neural networks Deep learning Κύρος, Στέργιος Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
description |
Η επισημείωση αδόμητου κειμένου με σχετική εννοιολογική πληροφορία αποτελεί σημαντικό βήμα προεπεξεργασίας σε πεδία σαν την ανάκτηση πληροφορίας, την τεχνητή νοημοσύνη, την μηχανική μάθηση, την διαχείριση δεδομένων κ.α. Οι οντότητες που υπάρχουν στην Wikipedia συνοδεύονται από κοινά αποδεκτές περιγραφές εννοιών. Η διαδικασία επισημείωσης κειμένου
με την χρήση οντοτήτων της Wikipedia, διαδικασία γνωστή και ως Wikification είναι διαδικασία δύο βημάτων. Το πρώτο βήμα είναι η αναγνώριση των κυρίαρχων εννοιών του κειμένου (αναγνώριση επονομαζόμενων οντοτήτων) και στην συνέχεια η σύνδεση τους με άρθρο της Wikipedia αντίστοιχου εννοιολογικού πλαισίου (αποσαφήνιση επονομαζόμενων οντοτήτων). Τα σύγχρονα συστήματα σύνδεσης οντοτήτων δεν περιορίζουν την ανάλυση τους μόνο στα λεξιλογικά χαρακτηριστικά του κειμένου. Ένας από τους τρόπους για να αναπαρασταθούν πιο λεπτομερώς οι σχέσεις μεταξύ των οντοτήτων είναι με την μοντελοποίηση των σχέσεων μεταξύ των οντοτήτων και τον αναφορών σε γράφημα με την βοήθεια μεγάλων βάσεων γνώσης σαν την Wikipedia. Αυτό παρέχει την δυνατότητα να εξαχθούν σύνθετα χαρακτηριστικά εκμεταλλευόμενοι την σύνθετη σχέση που δημιουργείται ανάμεσα στις οντότητες, όπως και την τοπολογία του γραφήματος. Η παρούσα διπλωματική εργασία επικεντρώνεται στην επισημείωση αδόμητου κειμένου με την χρήση οντοτήτων Wikipedia, χρησιμοποιώντας τον αλγόριθμο K-μέσων για την εκμετάλλευση των σύνθετων σχέσεων του γραφήματος της Wikipedia με την εύρεση κοινοτήτων οντοτήτων και την εξαγωγή χρήσιμων χαρακτηριστικών, ώστε να γίνει χρήση Νευρωνικών Δικτύων βαθιάς αρχιτεκτονικής για την επίτευξη αξιόπιστων προβλέψεων. Η υλοποίηση που παρέχεται αποτελεί μια πλήρως κατανεμημένη και κλιμακώσιμη προσέγγιση, η οποία δείχνει την συμβολή της χρήσης της πληροφορίας των κοινοτήτων στην επιτυχή αντιστοίχιση αναφοράς σε οντότητα. |
author2 |
Kyros, Stergios |
author_facet |
Kyros, Stergios Κύρος, Στέργιος |
author |
Κύρος, Στέργιος |
author_sort |
Κύρος, Στέργιος |
title |
Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
title_short |
Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
title_full |
Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
title_fullStr |
Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
title_full_unstemmed |
Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
title_sort |
κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική k-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16439 |
work_keys_str_mv |
AT kyrosstergios katanemēmenēylopoiēsētechnikōnepisēmeiōsēsadomētoukeimenoumeontotēteswikipediamechrēsētechnikōnentopismoukoinotētōnmebasētēntechnikēkmesōnkaineurōnikōndiktyōnbathiasarchitektonikēs AT kyrosstergios distributedimplementationoftechniquesforunstructuredtextlabellingusingwikipediaentitiesutilizingtechniquesofdetectionofcommunitiesbasedonthekmeansalgorithmanddeeplearningneuralnetworks |
_version_ |
1771297153378942976 |
spelling |
nemertes-10889-164392022-09-05T05:38:27Z Κατανεμημένη υλοποίηση τεχνικών επισημείωσης αδόμητου κειμένου με οντότητες Wikipedia, με χρήση τεχνικών εντοπισμού κοινοτήτων με βάση την τεχνική K-μέσων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής Distributed implementation of techniques for unstructured text labelling using Wikipedia entities, utilizing techniques of detection of communities based on the k-means algorithm and deep learning neural networks Κύρος, Στέργιος Kyros, Stergios Σύνδεση οντοτήτων Αποσαφήνιση λέξεων Κοινότητες γραφημάτων Νευρωνικά δίκτυα Βαθιά μάθηση Entity linking Word sense disambiguation Wikipedia K-means Graph communities Neural networks Deep learning Η επισημείωση αδόμητου κειμένου με σχετική εννοιολογική πληροφορία αποτελεί σημαντικό βήμα προεπεξεργασίας σε πεδία σαν την ανάκτηση πληροφορίας, την τεχνητή νοημοσύνη, την μηχανική μάθηση, την διαχείριση δεδομένων κ.α. Οι οντότητες που υπάρχουν στην Wikipedia συνοδεύονται από κοινά αποδεκτές περιγραφές εννοιών. Η διαδικασία επισημείωσης κειμένου με την χρήση οντοτήτων της Wikipedia, διαδικασία γνωστή και ως Wikification είναι διαδικασία δύο βημάτων. Το πρώτο βήμα είναι η αναγνώριση των κυρίαρχων εννοιών του κειμένου (αναγνώριση επονομαζόμενων οντοτήτων) και στην συνέχεια η σύνδεση τους με άρθρο της Wikipedia αντίστοιχου εννοιολογικού πλαισίου (αποσαφήνιση επονομαζόμενων οντοτήτων). Τα σύγχρονα συστήματα σύνδεσης οντοτήτων δεν περιορίζουν την ανάλυση τους μόνο στα λεξιλογικά χαρακτηριστικά του κειμένου. Ένας από τους τρόπους για να αναπαρασταθούν πιο λεπτομερώς οι σχέσεις μεταξύ των οντοτήτων είναι με την μοντελοποίηση των σχέσεων μεταξύ των οντοτήτων και τον αναφορών σε γράφημα με την βοήθεια μεγάλων βάσεων γνώσης σαν την Wikipedia. Αυτό παρέχει την δυνατότητα να εξαχθούν σύνθετα χαρακτηριστικά εκμεταλλευόμενοι την σύνθετη σχέση που δημιουργείται ανάμεσα στις οντότητες, όπως και την τοπολογία του γραφήματος. Η παρούσα διπλωματική εργασία επικεντρώνεται στην επισημείωση αδόμητου κειμένου με την χρήση οντοτήτων Wikipedia, χρησιμοποιώντας τον αλγόριθμο K-μέσων για την εκμετάλλευση των σύνθετων σχέσεων του γραφήματος της Wikipedia με την εύρεση κοινοτήτων οντοτήτων και την εξαγωγή χρήσιμων χαρακτηριστικών, ώστε να γίνει χρήση Νευρωνικών Δικτύων βαθιάς αρχιτεκτονικής για την επίτευξη αξιόπιστων προβλέψεων. Η υλοποίηση που παρέχεται αποτελεί μια πλήρως κατανεμημένη και κλιμακώσιμη προσέγγιση, η οποία δείχνει την συμβολή της χρήσης της πληροφορίας των κοινοτήτων στην επιτυχή αντιστοίχιση αναφοράς σε οντότητα. The annotation of unstructured text using relative conceptual information is an important step of preprocessing in fields such as information retrieval, artificial intelligence, machine learning, data management etc. Entities that exist in Wikipedia are paired with commonly accepted concept descriptions. The process of annotating text using Wikipedia entities, a process also known as Wikification is a two-step process. The first step is the recognition of dominant concepts of a text (named entity recognition) and the second is their linking with an article of Wikipedia of similar conceptual context (named entity disambiguation). Modern entity linking systems do not limit their analysis solely on textual features of a text. One of the ways of representing more accurately the relations between entities is by modeling the relationship between entities and mentions in a graph using large knowledge sources such as Wikipedia. This allows the extraction of complex characteristics by taking advantage of the complex relations created between entities as well as the topology of the graph. This diploma thesis concentrates on annotating unstructured text using Wikipedia entities, by utilizing the K-means algorithm to exploit the complex relations of the Wikipedia graph by detecting communities of entities and extracting useful characteristics, so that Deep Neural Networks can be utilized to achieve reliable results. The implementation is a completely distributed and scalable approach, that shows the contribution of community information to achieve linking a mention to an entity. 2022-07-11T06:32:29Z 2022-07-11T06:32:29Z 2022-07-07 http://hdl.handle.net/10889/16439 gr application/pdf |