Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων

Το παράδειγμα των Διασυνδεδεμένων Δεδομένων (Linked Data) περιλαμβάνει πρακτικές για την έκδοση, τη διασύνδεση και τη διανομή των δεδομένων στον Παγκόσμιο Ιστό και προσφέρει ένα νέο τρόπο για την ενοποίηση και τη διαλειτουργικότητα τους. Με λίγα λόγια, τα Διασυνδεδεμένα Δεδομένα έχουν ως στόχο τη χ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λυκοκανέλλος, Φιλοποίμην
Άλλοι συγγραφείς: Lykokanellos, Filopoimin
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23753
id nemertes-10889-23753
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Σημασιολογικός Ιστός
Διασυνδεδεμένα δεδομένα
Semantic Web
Linked data
spellingShingle Σημασιολογικός Ιστός
Διασυνδεδεμένα δεδομένα
Semantic Web
Linked data
Λυκοκανέλλος, Φιλοποίμην
Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
description Το παράδειγμα των Διασυνδεδεμένων Δεδομένων (Linked Data) περιλαμβάνει πρακτικές για την έκδοση, τη διασύνδεση και τη διανομή των δεδομένων στον Παγκόσμιο Ιστό και προσφέρει ένα νέο τρόπο για την ενοποίηση και τη διαλειτουργικότητα τους. Με λίγα λόγια, τα Διασυνδεδεμένα Δεδομένα έχουν ως στόχο τη χρήση του Παγκόσμιου Ιστού για να δημιουργηθούν σύνδεσμοι μεταξύ δεδομένων από διαφορετικές πηγές .Ο κινητήριος μοχλός για την υλοποίηση χώρων Διασυνδεδεμένων Δεδομένων (Linked Data spaces) είναι η τεχνολογία RDF . Οι βασικές αρχές της υλοποίησης είναι α) η χρήση του μοντέλου RDF για την κοινοποίηση δομημένων δεδομένων στον Παγκόσμιο Ιστό και (β) η χρήση συνδέσμων RDF (RDF links) για την ενοποίηση δεδομένων από διαφορετικές πηγές. Οι τεχνολογίες για Διασυνδεδεμένα Δεδομένα οδήγησαν στη δημιουργία του Ιστού Δεδομένων: “έναν παγκόσμιο ιστό πόρων, ο οποίος περιγράφεται από δεδομένα” . Ο Ιστός Δεδομένων διευρύνει τον τωρινό Παγκόσμιο Ιστό σε ένα ενιαίο χώρο δεδομένων από διαφορετικούς τομείς. Αναπτύσσονται με τον τρόπο αυτό υπηρεσίες και εφαρμογές που λειτουργούν πάνω σε έναν αδέσμευτο, ενιαίο χώρο δεδομένων και όχι σε ένα προκαθορισμένο σύνολο πηγών δεδομένων. Το Πρόβλημα Τα Διασυνδεδεμένα Δεδομένα περιλαμβάνουν συνδέσμους μεταξύ πόρων (resources) από διαφορετικές πηγές δεδομένων, είναι δηλαδή στην ουσία κατανεμημένα δεδομένα. Μία πρόκληση είναι να αναπτυχθούν αποδοτικές και αποτελεσματικές μέθοδοι για την έκθεση και διαχείριση μεγάλου όγκου Διασυνδεδεμένων Δεδομένων από διαφορετικές πηγές. Για το σκοπό αυτό είναι αναγκαία η χρήση τεχνικών για την (ημι)αυτόματη διασύνδεση (interlinking) και μίξη (fusion) δεδομένων από διαφορετικές πηγές στον Παγκόσμιο Ιστό. Επί του παρόντος, διάφορες προσεγγίσεις του προβλήματος έχουν αναπτυχθεί βασισμένες σε αλγορίθμους Ανάλυσης Οντοτήτων (Entity Resolution). Στόχος των τελευταίων είναι να μειωθεί ο αριθμός συγκρίσεων μεταξύ πόρων από τις πηγές Διασυνδεδεμένων Δεδομένων που απαιτείται για τον εντοπισμό των συνδέσμων. Στόχος Διπλωματικής Εργασίας Αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι η ανάλυση και ανασκόπηση των μεθόδων Ανάλυσης Οντοτήτων για Ενοποίηση Διασυνδεδεμένων Δεδομένων. Συγκεκριμένα στα πλαίσια αυτής της διπλωματικής: 1. Μελετώνται τα συγκεκριμένα χαρακτηριστικά και οι ειδικές απαιτήσεις που χρειάζονται για την ενοποίηση των Διασυνδεδεμένων Δεδομένων χρησιμοποιώντας μεθόδους Ανάλυσης Οντοτήτων συγκριτικά με συνήθεις προσεγγίσεις ενοποίησης παραδοσιακών δομημένων δεδομένων. 2. Αναλύονται και μελετώνται τεχνολογίες αιχμής για Ανάλυση Οντοτήτων σε Διασυνδεδεμένα Δεδομένα και γίνεται ανασκόπηση στα χαρακτηριστικά τους και στους αλγορίθμους που χρησιμοποιούν. 3. Δημιουργείται ένα περιβάλλον αξιολόγησης, χρησιμοποιώντας συλλογές ανοιχτών Διασυνδεδεμένων Δεδομένων με ποικίλα χαρακτηριστικά και διαθέσιμες υλοποιήσεις μεθόδων Ανάλυσης Οντοτήτων σε Διασυνδεδεμένα Δεδομένα (όπου αυτό είναι εφικτό, ανάλογα με τη διαθεσιμότητα του λογισμικού των μεθόδων). 4. Εκτελούνται πειράματα διασύνδεσης χρησιμοποιώντας όλες τις διαφορετικές μεθόδους και παρουσιάζεται η απόδοση τους σε θέματα της ποιότητας διασύνδεσης και της χρονικής διάρκειας. 5. Προτείνονται και υλοποιούνται μέθοδοι που βελτιστοποιούν την απόδοση της ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων σε περιπτώσεις όπου ο αριθμός των πηγών και των οντοτήτων είναι μεγάλος.
author2 Lykokanellos, Filopoimin
author_facet Lykokanellos, Filopoimin
Λυκοκανέλλος, Φιλοποίμην
author Λυκοκανέλλος, Φιλοποίμην
author_sort Λυκοκανέλλος, Φιλοποίμην
title Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
title_short Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
title_full Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
title_fullStr Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
title_full_unstemmed Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
title_sort μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων
publishDate 2022
url https://hdl.handle.net/10889/23753
work_keys_str_mv AT lykokanellosphilopoimēn methodoianalysēsontotētōngiaenopoiēsēdiasyndedemenōndedomenōn
AT lykokanellosphilopoimēn entityresolutionmethodsforlinkeddataintegration
_version_ 1771297143802298368
spelling nemertes-10889-237532022-11-08T04:34:57Z Μέθοδοι ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων Entity resolution methods for linked data integration Λυκοκανέλλος, Φιλοποίμην Lykokanellos, Filopoimin Σημασιολογικός Ιστός Διασυνδεδεμένα δεδομένα Semantic Web Linked data Το παράδειγμα των Διασυνδεδεμένων Δεδομένων (Linked Data) περιλαμβάνει πρακτικές για την έκδοση, τη διασύνδεση και τη διανομή των δεδομένων στον Παγκόσμιο Ιστό και προσφέρει ένα νέο τρόπο για την ενοποίηση και τη διαλειτουργικότητα τους. Με λίγα λόγια, τα Διασυνδεδεμένα Δεδομένα έχουν ως στόχο τη χρήση του Παγκόσμιου Ιστού για να δημιουργηθούν σύνδεσμοι μεταξύ δεδομένων από διαφορετικές πηγές .Ο κινητήριος μοχλός για την υλοποίηση χώρων Διασυνδεδεμένων Δεδομένων (Linked Data spaces) είναι η τεχνολογία RDF . Οι βασικές αρχές της υλοποίησης είναι α) η χρήση του μοντέλου RDF για την κοινοποίηση δομημένων δεδομένων στον Παγκόσμιο Ιστό και (β) η χρήση συνδέσμων RDF (RDF links) για την ενοποίηση δεδομένων από διαφορετικές πηγές. Οι τεχνολογίες για Διασυνδεδεμένα Δεδομένα οδήγησαν στη δημιουργία του Ιστού Δεδομένων: “έναν παγκόσμιο ιστό πόρων, ο οποίος περιγράφεται από δεδομένα” . Ο Ιστός Δεδομένων διευρύνει τον τωρινό Παγκόσμιο Ιστό σε ένα ενιαίο χώρο δεδομένων από διαφορετικούς τομείς. Αναπτύσσονται με τον τρόπο αυτό υπηρεσίες και εφαρμογές που λειτουργούν πάνω σε έναν αδέσμευτο, ενιαίο χώρο δεδομένων και όχι σε ένα προκαθορισμένο σύνολο πηγών δεδομένων. Το Πρόβλημα Τα Διασυνδεδεμένα Δεδομένα περιλαμβάνουν συνδέσμους μεταξύ πόρων (resources) από διαφορετικές πηγές δεδομένων, είναι δηλαδή στην ουσία κατανεμημένα δεδομένα. Μία πρόκληση είναι να αναπτυχθούν αποδοτικές και αποτελεσματικές μέθοδοι για την έκθεση και διαχείριση μεγάλου όγκου Διασυνδεδεμένων Δεδομένων από διαφορετικές πηγές. Για το σκοπό αυτό είναι αναγκαία η χρήση τεχνικών για την (ημι)αυτόματη διασύνδεση (interlinking) και μίξη (fusion) δεδομένων από διαφορετικές πηγές στον Παγκόσμιο Ιστό. Επί του παρόντος, διάφορες προσεγγίσεις του προβλήματος έχουν αναπτυχθεί βασισμένες σε αλγορίθμους Ανάλυσης Οντοτήτων (Entity Resolution). Στόχος των τελευταίων είναι να μειωθεί ο αριθμός συγκρίσεων μεταξύ πόρων από τις πηγές Διασυνδεδεμένων Δεδομένων που απαιτείται για τον εντοπισμό των συνδέσμων. Στόχος Διπλωματικής Εργασίας Αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι η ανάλυση και ανασκόπηση των μεθόδων Ανάλυσης Οντοτήτων για Ενοποίηση Διασυνδεδεμένων Δεδομένων. Συγκεκριμένα στα πλαίσια αυτής της διπλωματικής: 1. Μελετώνται τα συγκεκριμένα χαρακτηριστικά και οι ειδικές απαιτήσεις που χρειάζονται για την ενοποίηση των Διασυνδεδεμένων Δεδομένων χρησιμοποιώντας μεθόδους Ανάλυσης Οντοτήτων συγκριτικά με συνήθεις προσεγγίσεις ενοποίησης παραδοσιακών δομημένων δεδομένων. 2. Αναλύονται και μελετώνται τεχνολογίες αιχμής για Ανάλυση Οντοτήτων σε Διασυνδεδεμένα Δεδομένα και γίνεται ανασκόπηση στα χαρακτηριστικά τους και στους αλγορίθμους που χρησιμοποιούν. 3. Δημιουργείται ένα περιβάλλον αξιολόγησης, χρησιμοποιώντας συλλογές ανοιχτών Διασυνδεδεμένων Δεδομένων με ποικίλα χαρακτηριστικά και διαθέσιμες υλοποιήσεις μεθόδων Ανάλυσης Οντοτήτων σε Διασυνδεδεμένα Δεδομένα (όπου αυτό είναι εφικτό, ανάλογα με τη διαθεσιμότητα του λογισμικού των μεθόδων). 4. Εκτελούνται πειράματα διασύνδεσης χρησιμοποιώντας όλες τις διαφορετικές μεθόδους και παρουσιάζεται η απόδοση τους σε θέματα της ποιότητας διασύνδεσης και της χρονικής διάρκειας. 5. Προτείνονται και υλοποιούνται μέθοδοι που βελτιστοποιούν την απόδοση της ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων σε περιπτώσεις όπου ο αριθμός των πηγών και των οντοτήτων είναι μεγάλος. The Linked Data paradigm involves practices to publish, share, and connect data on the Web, and offers a new way of data integration and interoperability. Briefly, Linked Data is about using the Web to create typed links between data from different sources. The driving force to implement Linked Data spaces is the RDF technology. The basic principles of the Linked Data paradigm is (a) use the RDF data model to publish structured data on the Web, and (b) use RDF links to interlink data from different data sources. Linked Data technologies have given rise to the Web of Data: “a Web of things in the world, described by data on the Web”. The Web of Data extents current Web to a global data space connecting data from diverse domains. This gives added value for decision support and business intelligence applications, and enables new types of services that operate on top of an unbound, global data space and not on a fixed set of data sources as in Web 2.0 mashups. Linked Data (LD) includes links between resources from difference data sources. Thus, LD is actually distributed data. A key challenge is to develop efficient and effective methods for exposing and managing large volumes of LOD from highly heterogeneous data. To deal with this challenge, we need techniques to (semi)automatically interlink and fuse LD from different data sources on the Web. Currently, several approaches have been developed to (semi)automatically and effectively interlink different LD based on entity resolution algorithms to reduce the necessary number of comparisons between LD resources to detect interlinks. This thesis will provide a critical review on entity resolution methods for LD integration. Specifically: 1. It will study the particular characteristics and special requirements needed to integrate LD using entity resolution methods compared to standard structured data integration approaches. 2. It will study the state-of-the-art techniques for entity resolution methods on LD, and make a critical review on their characteristics and algorithms used. 3. It will prepare an evaluation setup, using open LD collections with diverse characteristics, and ready implementations of entity resolution methods on LD (where available). 4. It will run interlinking experiments using all different methods and report on their performance in terms of quality of interlinking and time efficiency. 5. It will propose and implement optimization methods regarding the efficiency of the entity solution problem for LD integration in cases where the number of either the sources or the entities is big. 2022-11-07T10:32:56Z 2022-11-07T10:32:56Z 2021-09 https://hdl.handle.net/10889/23753 gr application/pdf