Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην β...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/23602 |
id |
nemertes-10889-23602 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-236022022-11-03T04:36:25Z Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση Distributed Implementation of a high efficiency algorithm for annotation of plain text with Wikipedia entities, investigation of machine learning solutions and visualization Κάλλιστρος, Ανδρέας Kallistros, Andreas Αποσαφήνιση οντοτήτων Wikification Word sense disambiguation Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην βιβλιογραφία ως Wikification. Ο βασικός λόγος που καθιστά το πρόβλημα δύσκολο να επιλυθεί, είναι η πολυσημία των λέξεων και η δυσκολία εντοπισμού της σωστής οντότητας με την οποία πρέπει να γίνει αντιστοίχιση, δηλαδή την αποσαφήνιση. Πολλές προσπάθειες έχουν γίνει μέχρι τώρα που χρησιμοποιούν περίπλοκες τεχνικές, τεχνικές μηχανικής μάθησης και νευρωνικά δίκτυα προσπαθώντας να εξάγουν πληροφορίες από το εννοιολογικό περιεχόμενο που περιβάλλει τις οντότητες και έχουν πετύχει πολύ καλή. Παρόλα αυτά η χρονική πολυπλοκότητα και η υπολογιστική ισχύς που απαιτείται αυξάνεται κατά πολύ. Για αυτόν τον λόγο στη παρούσα εργασία προσεγγίζουμε το πρόβλημα από μια διαφορετική οπτική. Πολλές φορές έχουμε ανάγκη για μια πιο γρήγορη λύση, η οποία μπορεί να παρέχει καλά αποτελέσματα (με σαφώς πολύ μικρότερη ακρίβεια) αλλά σε πολύ μικρότερο χρόνο. Έτσι λοιπόν υλοποιήσαμε ένα σύστημα το οποίο εντοπίζει την οντότητα της Wikipedia με την οποία είναι πιο πιθανό να γίνει η διασύνδεση. Για την διαδικασία της αποσαφήνισης δεν χρησιμοποιείται το περιβάλλoν εννοιολογικό περιεχόμενο αλλά υπολογίζεται η πιο πιθανή οντότητα μέσω μετρικών όπως το πόσο συνηθισμένη είναι μια οντότητα (commonness) αλλά και ποια οντότητα είναι πιο πιθανό να διασυνδεθεί (link probability). Αυτές οι μετρικές μπορούν να υπολογιστούν εκ των προτέρων με αποτέλεσμα η συνολική χρονική πολυπλοκότητα να μένει πολύ χαμηλή, διατηρώντας μια σχετικά καλή ακρίβεια στα αποτελέσματα. One of the most challenging tasks of Natural Language Processing (NLP), is the word sense disambiguation problem. Given an input plain text our system aims to identify and link words to the corresponding entity of a knowledge base. In case, that knowledge base is Wikipedia, the problem is called Wikification. The main challenge that makes the problem difficult to solve is the disambiguation process which is needed due to the polysemy of some words. Many attempts have been made thus far using sophisticated algorithms, machine learning techniques and neural networks while utilizing the context of the entity to be linked. These attempts have managed to increase the accuracy but have also increased the time complexity and the computational complexity. In this thesis we take a different approach on this problem. In some cases, we need a faster solution that has relatively good accuracy but noticeably lower time complexity. The system that we implemented is based on a simplistic idea and tries to link an anchor to the most probable Wikipedia entity. For the disambiguation process, we don’t use the context of the word but instead we use metrics such as commonness and link probability. Those metrics can be calculated in advance, so the total time complexity stays quite low while maintaining an acceptable accuracy 2022-11-02T06:15:33Z 2022-11-02T06:15:33Z 2022-11-01 https://hdl.handle.net/10889/23602 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Αποσαφήνιση οντοτήτων Wikification Word sense disambiguation |
spellingShingle |
Αποσαφήνιση οντοτήτων Wikification Word sense disambiguation Κάλλιστρος, Ανδρέας Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
description |
Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής
γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και
η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν
η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην βιβλιογραφία ως
Wikification. Ο βασικός λόγος που καθιστά το πρόβλημα δύσκολο να επιλυθεί, είναι η
πολυσημία των λέξεων και η δυσκολία εντοπισμού της σωστής οντότητας με την οποία
πρέπει να γίνει αντιστοίχιση, δηλαδή την αποσαφήνιση. Πολλές προσπάθειες έχουν γίνει
μέχρι τώρα που χρησιμοποιούν περίπλοκες τεχνικές, τεχνικές μηχανικής μάθησης και
νευρωνικά δίκτυα προσπαθώντας να εξάγουν πληροφορίες από το εννοιολογικό
περιεχόμενο που περιβάλλει τις οντότητες και έχουν πετύχει πολύ καλή. Παρόλα αυτά η
χρονική πολυπλοκότητα και η υπολογιστική ισχύς που απαιτείται αυξάνεται κατά πολύ.
Για αυτόν τον λόγο στη παρούσα εργασία προσεγγίζουμε το πρόβλημα από μια
διαφορετική οπτική. Πολλές φορές έχουμε ανάγκη για μια πιο γρήγορη λύση, η οποία
μπορεί να παρέχει καλά αποτελέσματα (με σαφώς πολύ μικρότερη ακρίβεια) αλλά σε
πολύ μικρότερο χρόνο. Έτσι λοιπόν υλοποιήσαμε ένα σύστημα το οποίο εντοπίζει την
οντότητα της Wikipedia με την οποία είναι πιο πιθανό να γίνει η διασύνδεση. Για την
διαδικασία της αποσαφήνισης δεν χρησιμοποιείται το περιβάλλoν εννοιολογικό
περιεχόμενο αλλά υπολογίζεται η πιο πιθανή οντότητα μέσω μετρικών όπως το πόσο
συνηθισμένη είναι μια οντότητα (commonness) αλλά και ποια οντότητα είναι πιο πιθανό
να διασυνδεθεί (link probability). Αυτές οι μετρικές μπορούν να υπολογιστούν εκ των
προτέρων με αποτέλεσμα η συνολική χρονική πολυπλοκότητα να μένει πολύ χαμηλή,
διατηρώντας μια σχετικά καλή ακρίβεια στα αποτελέσματα. |
author2 |
Kallistros, Andreas |
author_facet |
Kallistros, Andreas Κάλλιστρος, Ανδρέας |
author |
Κάλλιστρος, Ανδρέας |
author_sort |
Κάλλιστρος, Ανδρέας |
title |
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
title_short |
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
title_full |
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
title_fullStr |
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
title_full_unstemmed |
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
title_sort |
κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση |
publishDate |
2022 |
url |
https://hdl.handle.net/10889/23602 |
work_keys_str_mv |
AT kallistrosandreas katanemēmenēylopoiēsēalgorithmouypsēlēsapodosēsgiaepisēmeiōsēadomētoukeimenoumeontotēteswikipediadiereunēsēmetechnikesmēchanikēsmathēsēskaioptikopoiēsē AT kallistrosandreas distributedimplementationofahighefficiencyalgorithmforannotationofplaintextwithwikipediaentitiesinvestigationofmachinelearningsolutionsandvisualization |
_version_ |
1771297254069501952 |