Περίληψη: | Το παράδειγμα των Διασυνδεδεμένων Δεδομένων (Linked Data) περιλαμβάνει πρακτικές για την έκδοση, τη διασύνδεση και τη διανομή των δεδομένων στον Παγκόσμιο Ιστό και προσφέρει ένα νέο τρόπο για την ενοποίηση και τη διαλειτουργικότητα τους. Με λίγα λόγια, τα Διασυνδεδεμένα Δεδομένα έχουν ως στόχο τη χρήση του Παγκόσμιου Ιστού για να δημιουργηθούν σύνδεσμοι μεταξύ δεδομένων από διαφορετικές πηγές .Ο κινητήριος μοχλός για την υλοποίηση χώρων Διασυνδεδεμένων Δεδομένων (Linked Data spaces) είναι η τεχνολογία RDF . Οι βασικές αρχές της υλοποίησης είναι α) η χρήση του μοντέλου RDF για την κοινοποίηση δομημένων δεδομένων στον Παγκόσμιο Ιστό και (β) η χρήση συνδέσμων RDF (RDF links) για την ενοποίηση δεδομένων από διαφορετικές πηγές. Οι τεχνολογίες για Διασυνδεδεμένα Δεδομένα οδήγησαν στη δημιουργία του Ιστού Δεδομένων: “έναν παγκόσμιο ιστό πόρων, ο οποίος περιγράφεται από δεδομένα” . Ο Ιστός Δεδομένων διευρύνει τον τωρινό Παγκόσμιο Ιστό σε ένα ενιαίο χώρο δεδομένων από διαφορετικούς τομείς. Αναπτύσσονται με τον τρόπο αυτό υπηρεσίες και εφαρμογές που λειτουργούν πάνω σε έναν αδέσμευτο, ενιαίο χώρο δεδομένων και όχι σε ένα προκαθορισμένο σύνολο πηγών δεδομένων.
Το Πρόβλημα
Τα Διασυνδεδεμένα Δεδομένα περιλαμβάνουν συνδέσμους μεταξύ πόρων (resources) από διαφορετικές πηγές δεδομένων, είναι δηλαδή στην ουσία κατανεμημένα δεδομένα. Μία πρόκληση είναι να αναπτυχθούν αποδοτικές και αποτελεσματικές μέθοδοι για την έκθεση και διαχείριση μεγάλου όγκου Διασυνδεδεμένων Δεδομένων από διαφορετικές πηγές. Για το σκοπό αυτό είναι αναγκαία η χρήση τεχνικών για την (ημι)αυτόματη διασύνδεση (interlinking) και μίξη (fusion) δεδομένων από διαφορετικές πηγές στον Παγκόσμιο Ιστό. Επί του παρόντος, διάφορες προσεγγίσεις του προβλήματος έχουν αναπτυχθεί βασισμένες σε αλγορίθμους Ανάλυσης Οντοτήτων (Entity Resolution). Στόχος των τελευταίων είναι να μειωθεί ο αριθμός συγκρίσεων μεταξύ πόρων από τις πηγές Διασυνδεδεμένων Δεδομένων που απαιτείται για τον εντοπισμό των συνδέσμων.
Στόχος Διπλωματικής Εργασίας
Αντικείμενο της παρούσας μεταπτυχιακής εργασίας είναι η ανάλυση και ανασκόπηση των μεθόδων Ανάλυσης Οντοτήτων για Ενοποίηση Διασυνδεδεμένων Δεδομένων. Συγκεκριμένα στα πλαίσια αυτής της διπλωματικής:
1. Μελετώνται τα συγκεκριμένα χαρακτηριστικά και οι ειδικές απαιτήσεις που χρειάζονται για την ενοποίηση των Διασυνδεδεμένων Δεδομένων χρησιμοποιώντας μεθόδους Ανάλυσης Οντοτήτων συγκριτικά με συνήθεις προσεγγίσεις ενοποίησης παραδοσιακών δομημένων δεδομένων.
2. Αναλύονται και μελετώνται τεχνολογίες αιχμής για Ανάλυση Οντοτήτων σε Διασυνδεδεμένα Δεδομένα και γίνεται ανασκόπηση στα χαρακτηριστικά τους και στους αλγορίθμους που χρησιμοποιούν.
3. Δημιουργείται ένα περιβάλλον αξιολόγησης, χρησιμοποιώντας συλλογές ανοιχτών Διασυνδεδεμένων Δεδομένων με ποικίλα χαρακτηριστικά και διαθέσιμες υλοποιήσεις μεθόδων Ανάλυσης Οντοτήτων σε Διασυνδεδεμένα Δεδομένα (όπου αυτό είναι εφικτό, ανάλογα με τη διαθεσιμότητα του λογισμικού των μεθόδων).
4. Εκτελούνται πειράματα διασύνδεσης χρησιμοποιώντας όλες τις διαφορετικές μεθόδους και παρουσιάζεται η απόδοση τους σε θέματα της ποιότητας διασύνδεσης και της χρονικής διάρκειας.
5. Προτείνονται και υλοποιούνται μέθοδοι που βελτιστοποιούν την απόδοση της ανάλυσης οντοτήτων για ενοποίηση διασυνδεδεμένων δεδομένων σε περιπτώσεις όπου ο αριθμός των πηγών και των οντοτήτων είναι μεγάλος.
|