Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση

Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην β...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κάλλιστρος, Ανδρέας
Άλλοι συγγραφείς: Kallistros, Andreas
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23602
id nemertes-10889-23602
record_format dspace
spelling nemertes-10889-236022022-11-03T04:36:25Z Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση Distributed Implementation of a high efficiency algorithm for annotation of plain text with Wikipedia entities, investigation of machine learning solutions and visualization Κάλλιστρος, Ανδρέας Kallistros, Andreas Αποσαφήνιση οντοτήτων Wikification Word sense disambiguation Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην βιβλιογραφία ως Wikification. Ο βασικός λόγος που καθιστά το πρόβλημα δύσκολο να επιλυθεί, είναι η πολυσημία των λέξεων και η δυσκολία εντοπισμού της σωστής οντότητας με την οποία πρέπει να γίνει αντιστοίχιση, δηλαδή την αποσαφήνιση. Πολλές προσπάθειες έχουν γίνει μέχρι τώρα που χρησιμοποιούν περίπλοκες τεχνικές, τεχνικές μηχανικής μάθησης και νευρωνικά δίκτυα προσπαθώντας να εξάγουν πληροφορίες από το εννοιολογικό περιεχόμενο που περιβάλλει τις οντότητες και έχουν πετύχει πολύ καλή. Παρόλα αυτά η χρονική πολυπλοκότητα και η υπολογιστική ισχύς που απαιτείται αυξάνεται κατά πολύ. Για αυτόν τον λόγο στη παρούσα εργασία προσεγγίζουμε το πρόβλημα από μια διαφορετική οπτική. Πολλές φορές έχουμε ανάγκη για μια πιο γρήγορη λύση, η οποία μπορεί να παρέχει καλά αποτελέσματα (με σαφώς πολύ μικρότερη ακρίβεια) αλλά σε πολύ μικρότερο χρόνο. Έτσι λοιπόν υλοποιήσαμε ένα σύστημα το οποίο εντοπίζει την οντότητα της Wikipedia με την οποία είναι πιο πιθανό να γίνει η διασύνδεση. Για την διαδικασία της αποσαφήνισης δεν χρησιμοποιείται το περιβάλλoν εννοιολογικό περιεχόμενο αλλά υπολογίζεται η πιο πιθανή οντότητα μέσω μετρικών όπως το πόσο συνηθισμένη είναι μια οντότητα (commonness) αλλά και ποια οντότητα είναι πιο πιθανό να διασυνδεθεί (link probability). Αυτές οι μετρικές μπορούν να υπολογιστούν εκ των προτέρων με αποτέλεσμα η συνολική χρονική πολυπλοκότητα να μένει πολύ χαμηλή, διατηρώντας μια σχετικά καλή ακρίβεια στα αποτελέσματα. One of the most challenging tasks of Natural Language Processing (NLP), is the word sense disambiguation problem. Given an input plain text our system aims to identify and link words to the corresponding entity of a knowledge base. In case, that knowledge base is Wikipedia, the problem is called Wikification. The main challenge that makes the problem difficult to solve is the disambiguation process which is needed due to the polysemy of some words. Many attempts have been made thus far using sophisticated algorithms, machine learning techniques and neural networks while utilizing the context of the entity to be linked. These attempts have managed to increase the accuracy but have also increased the time complexity and the computational complexity. In this thesis we take a different approach on this problem. In some cases, we need a faster solution that has relatively good accuracy but noticeably lower time complexity. The system that we implemented is based on a simplistic idea and tries to link an anchor to the most probable Wikipedia entity. For the disambiguation process, we don’t use the context of the word but instead we use metrics such as commonness and link probability. Those metrics can be calculated in advance, so the total time complexity stays quite low while maintaining an acceptable accuracy 2022-11-02T06:15:33Z 2022-11-02T06:15:33Z 2022-11-01 https://hdl.handle.net/10889/23602 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf
institution UPatras
collection Nemertes
language Greek
topic Αποσαφήνιση οντοτήτων
Wikification
Word sense disambiguation
spellingShingle Αποσαφήνιση οντοτήτων
Wikification
Word sense disambiguation
Κάλλιστρος, Ανδρέας
Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
description Ένα από τα πολύ δύσκολα προβλήματα του τομέα της επεξεργασίας φυσικής γλώσσας (NLP) το οποίο απασχολεί την επιστημονική κοινότητα είναι ο εντοπισμός και η διασύνδεση οντοτήτων αδόμητου κειμένου με οντότητες από μια βάση γνώσης. Όταν η βάση γνώσης είναι η Wikipedia, το πρόβλημα αυτό αναφέρεται στην βιβλιογραφία ως Wikification. Ο βασικός λόγος που καθιστά το πρόβλημα δύσκολο να επιλυθεί, είναι η πολυσημία των λέξεων και η δυσκολία εντοπισμού της σωστής οντότητας με την οποία πρέπει να γίνει αντιστοίχιση, δηλαδή την αποσαφήνιση. Πολλές προσπάθειες έχουν γίνει μέχρι τώρα που χρησιμοποιούν περίπλοκες τεχνικές, τεχνικές μηχανικής μάθησης και νευρωνικά δίκτυα προσπαθώντας να εξάγουν πληροφορίες από το εννοιολογικό περιεχόμενο που περιβάλλει τις οντότητες και έχουν πετύχει πολύ καλή. Παρόλα αυτά η χρονική πολυπλοκότητα και η υπολογιστική ισχύς που απαιτείται αυξάνεται κατά πολύ. Για αυτόν τον λόγο στη παρούσα εργασία προσεγγίζουμε το πρόβλημα από μια διαφορετική οπτική. Πολλές φορές έχουμε ανάγκη για μια πιο γρήγορη λύση, η οποία μπορεί να παρέχει καλά αποτελέσματα (με σαφώς πολύ μικρότερη ακρίβεια) αλλά σε πολύ μικρότερο χρόνο. Έτσι λοιπόν υλοποιήσαμε ένα σύστημα το οποίο εντοπίζει την οντότητα της Wikipedia με την οποία είναι πιο πιθανό να γίνει η διασύνδεση. Για την διαδικασία της αποσαφήνισης δεν χρησιμοποιείται το περιβάλλoν εννοιολογικό περιεχόμενο αλλά υπολογίζεται η πιο πιθανή οντότητα μέσω μετρικών όπως το πόσο συνηθισμένη είναι μια οντότητα (commonness) αλλά και ποια οντότητα είναι πιο πιθανό να διασυνδεθεί (link probability). Αυτές οι μετρικές μπορούν να υπολογιστούν εκ των προτέρων με αποτέλεσμα η συνολική χρονική πολυπλοκότητα να μένει πολύ χαμηλή, διατηρώντας μια σχετικά καλή ακρίβεια στα αποτελέσματα.
author2 Kallistros, Andreas
author_facet Kallistros, Andreas
Κάλλιστρος, Ανδρέας
author Κάλλιστρος, Ανδρέας
author_sort Κάλλιστρος, Ανδρέας
title Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
title_short Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
title_full Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
title_fullStr Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
title_full_unstemmed Κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες Wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
title_sort κατανεμημένη υλοποίηση αλγορίθμου υψηλής απόδοσης για επισημείωση αδόμητου κειμένου με οντότητες wikipedia, διερεύνηση με τεχνικές μηχανικής μάθησης και οπτικοποίηση
publishDate 2022
url https://hdl.handle.net/10889/23602
work_keys_str_mv AT kallistrosandreas katanemēmenēylopoiēsēalgorithmouypsēlēsapodosēsgiaepisēmeiōsēadomētoukeimenoumeontotēteswikipediadiereunēsēmetechnikesmēchanikēsmathēsēskaioptikopoiēsē
AT kallistrosandreas distributedimplementationofahighefficiencyalgorithmforannotationofplaintextwithwikipediaentitiesinvestigationofmachinelearningsolutionsandvisualization
_version_ 1771297254069501952