Περίληψη: | Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός και η απαλοιφή των διπλότυπων εγγραφών μίας βάσης δεδομένων η οποία διενεργείται κατά το στάδιο της προεπεξεργασίας. Σε ένα σύστημα με καθαρά δεδομένα, η ενοποίηση των διπλότυπων εγγραφών συνίσταται στην ένωση των βάσεων δεδομένων με βάση τα πεδία ταυτοποίησής τους. Σε δεδομένα πραγματικού κόσμου, η έλλειψη κοινών πεδίων ταυτοποίησης είναι ένα συχνό φαινόμενο. Επιπροσθέτως, η ποιότητα των πληροφοριών μπορεί να επηρεαστεί από ανθρώπινα λάθη κατά το στάδιο τις καταχώρησης των δεδομένων, από αστοχίες εξοπλισμού αλλά και από την δομική ανομοιογένεια των δεδομένων στις πολλαπλές βάσεις. Στην παρούσα διπλωματική εργασία θα παρουσιάσουμε τα διαφορετικά στάδια της ενοποίησης διπλότυπων εγγραφών και τις διαφορετικές τεχνικές που αναπτύχθηκαν για την αντιμετώπιση των παραπάνω προβλημάτων.
Στο πρώτο κεφάλαιο παρουσιάζονται οι στόχοι και οι προκλήσεις της ενοποίησης εγγραφών, γίνεται μία σύντομη ιστορική αναδρομή και περιγράφονται κάποια από τα πεδία εφαρμογής της. Στο δεύτερο κεφάλαιο εξετάζουμε τα διάφορα προβλήματα που μπορούν να εντοπιστούν κατά το στάδιο της προεπεξεργασίας των δεδομένων, όπως η έλλειψη τιμών και η παρουσία θορύβου στα δεδομένα. Στο τρίτο κεφάλαιο περιγράφονται οι βασικότερες τεχνικές ευρετηριοποίησης που στόχο έχουν την μείωση του όγκου των δεδομένων που πρέπει να εξεταστούν ενώ στο τέταρτο κεφάλαιο παρουσιάζονται κάποιες συναρτήσεις ομοιότητας για την σύγκριση των διαφορετικών πεδίων των βάσεων δεδομένων. Τέλος, το πέμπτο κεφάλαιο πραγματεύεται την ταξινόμηση των εγγραφών σε τρεις κλάσεις, όμοιες εγγραφές (matches), ανόμοιες εγγραφές (non matches) και πιθανόν όμοιες εγγραφές (potential matches). Στο κεφάλαιο αυτό παρουσιάζονται επίσης μερικά από τα βασικότερα μέτρα αξιολόγησης της ενοποίησης των εγγραφών.
|