Σχεδιασμός και ανάπτυξη τεχνικών προστατευόμενης διασύνδεσης ιδιωτικών εγγραφών σε συστήματα διαχείρισης μεγάλου όγκου δεδομένων

Ως διασύνδεση εγγραφών (Record Linkage - RL) αναφερόμαστε στη διαδικασία ταυτοποίησης των εγγραφών από πολλαπλές βάσεις δεδομένων οι οποίες αναφέρονται στην ίδια οντότητα η οποία είναι συνήθως ένα φυσικό πρόσωπο. Πολύ συχνά, διαφορετικές βάσεις δεδομένων δεν μοιράζονται πεδία ταυτοποίησης (identifie...

Full description

Bibliographic Details
Main Author: Μπούσης, Δημήτρης
Other Authors: Τσακαλίδης, Αθανάσιος
Format: Thesis
Language:Greek
Published: 2016
Subjects:
Online Access:http://hdl.handle.net/10889/9790
Description
Summary:Ως διασύνδεση εγγραφών (Record Linkage - RL) αναφερόμαστε στη διαδικασία ταυτοποίησης των εγγραφών από πολλαπλές βάσεις δεδομένων οι οποίες αναφέρονται στην ίδια οντότητα η οποία είναι συνήθως ένα φυσικό πρόσωπο. Πολύ συχνά, διαφορετικές βάσεις δεδομένων δεν μοιράζονται πεδία ταυτοποίησης (identifiers), καθιστώντας έτσι την χρήση άλλων ιδιωτικών πεδίων όπως το όνομα, επίθετο, διεύθυνση απαραίτητα για την ολοκλήρωση της διαδικασίας. Παράλληλα, αρχές και οργανισμοί οι οποίοι διαχειρίζονται προσωπικά δεδομένα εμφανίζονται διστακτικοί στο να εφαρμόσουν την διασύνδεση εγγραφών με άλλους φορείς λόγω πολιτικών προστασίας ιδιωτικών δεδομένων. Η Προστατευόμενη Διασύνδεση Ιδιωτικών εγγραφών (Privacy-Preserving Record Linkage - PPRL) είναι ένα σύνολο μεθοδολογιών και τεχνικών που επιτρέπουν την διασύνδεση εγγραφών δίχως να αποκαλύπτονται ευαίσθητα προσωπικά δεδομένα. Η εν λόγω διαδικασία χαρακτηρίζεται από τρεις προκλήσεις (1)Επεκτασιμότητα των τεχνικών αυτών σε βάσεις με μεγάλο όγκο δεδομένων. (2) Υψηλής ποιότητας διασύνδεση εγγραφών, κατηγοριοποιώντας ζευγάρια εγγραφών ως όμοια (matched) ή ως ανόμοια (non-matched). (3) Παροχή εγγυήσεων ιδιωτικότητας και ασφάλειας μεταξύ των μελών που συμμετέχουν στην διαδικασία αλλά και εκτός αυτών των μελών. Σε αυτή την διπλωματική εργασία παρουσιάζεται η συνολική προσπάθεια του συγγραφέα για τον σχεδιασμό και ανάπτυξη αλγορίθμων, μεθοδολογιών και πρωτοκόλλων που ανήκουν στο πλαίσιο της Προστατευόμενης Διασύνδεσης Ιδιωτικών Εγγραφών σε περιβάλλοντα διαχείρισης μεγάλου όγκου δεδομένων όπως το Apache Hadoop.