Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων

Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κυριακούλη, Δήμητρα
Άλλοι συγγραφείς: Kyriakouli, Dimitra
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15870
id nemertes-10889-15870
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Ενοποίηση εγγραφών
Διπλότυπες εγγραφές
Ταίριασμα εγγραφών
Διασύνδεση εγγραφών
Απαλοιφή διπλότυπων εγγραφών
Ευρετηριοποίηση
Data matching
Record linkage
Field matching
Entity resolution
Merge-purge
Data deduplication
Duplicate record detection
Indexing
spellingShingle Ενοποίηση εγγραφών
Διπλότυπες εγγραφές
Ταίριασμα εγγραφών
Διασύνδεση εγγραφών
Απαλοιφή διπλότυπων εγγραφών
Ευρετηριοποίηση
Data matching
Record linkage
Field matching
Entity resolution
Merge-purge
Data deduplication
Duplicate record detection
Indexing
Κυριακούλη, Δήμητρα
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
description Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός και η απαλοιφή των διπλότυπων εγγραφών μίας βάσης δεδομένων η οποία διενεργείται κατά το στάδιο της προεπεξεργασίας. Σε ένα σύστημα με καθαρά δεδομένα, η ενοποίηση των διπλότυπων εγγραφών συνίσταται στην ένωση των βάσεων δεδομένων με βάση τα πεδία ταυτοποίησής τους. Σε δεδομένα πραγματικού κόσμου, η έλλειψη κοινών πεδίων ταυτοποίησης είναι ένα συχνό φαινόμενο. Επιπροσθέτως, η ποιότητα των πληροφοριών μπορεί να επηρεαστεί από ανθρώπινα λάθη κατά το στάδιο τις καταχώρησης των δεδομένων, από αστοχίες εξοπλισμού αλλά και από την δομική ανομοιογένεια των δεδομένων στις πολλαπλές βάσεις. Στην παρούσα διπλωματική εργασία θα παρουσιάσουμε τα διαφορετικά στάδια της ενοποίησης διπλότυπων εγγραφών και τις διαφορετικές τεχνικές που αναπτύχθηκαν για την αντιμετώπιση των παραπάνω προβλημάτων. Στο πρώτο κεφάλαιο παρουσιάζονται οι στόχοι και οι προκλήσεις της ενοποίησης εγγραφών, γίνεται μία σύντομη ιστορική αναδρομή και περιγράφονται κάποια από τα πεδία εφαρμογής της. Στο δεύτερο κεφάλαιο εξετάζουμε τα διάφορα προβλήματα που μπορούν να εντοπιστούν κατά το στάδιο της προεπεξεργασίας των δεδομένων, όπως η έλλειψη τιμών και η παρουσία θορύβου στα δεδομένα. Στο τρίτο κεφάλαιο περιγράφονται οι βασικότερες τεχνικές ευρετηριοποίησης που στόχο έχουν την μείωση του όγκου των δεδομένων που πρέπει να εξεταστούν ενώ στο τέταρτο κεφάλαιο παρουσιάζονται κάποιες συναρτήσεις ομοιότητας για την σύγκριση των διαφορετικών πεδίων των βάσεων δεδομένων. Τέλος, το πέμπτο κεφάλαιο πραγματεύεται την ταξινόμηση των εγγραφών σε τρεις κλάσεις, όμοιες εγγραφές (matches), ανόμοιες εγγραφές (non matches) και πιθανόν όμοιες εγγραφές (potential matches). Στο κεφάλαιο αυτό παρουσιάζονται επίσης μερικά από τα βασικότερα μέτρα αξιολόγησης της ενοποίησης των εγγραφών.
author2 Kyriakouli, Dimitra
author_facet Kyriakouli, Dimitra
Κυριακούλη, Δήμητρα
author Κυριακούλη, Δήμητρα
author_sort Κυριακούλη, Δήμητρα
title Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
title_short Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
title_full Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
title_fullStr Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
title_full_unstemmed Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
title_sort ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
publishDate 2022
url http://hdl.handle.net/10889/15870
work_keys_str_mv AT kyriakoulēdēmētra enopoiēsēdiplotypōnengraphōnsebaseisdedomenōn
AT kyriakoulēdēmētra matchingofduplicatedatarecords
_version_ 1771297329649811456
spelling nemertes-10889-158702022-09-05T20:19:44Z Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων Matching of duplicate data records Κυριακούλη, Δήμητρα Kyriakouli, Dimitra Ενοποίηση εγγραφών Διπλότυπες εγγραφές Ταίριασμα εγγραφών Διασύνδεση εγγραφών Απαλοιφή διπλότυπων εγγραφών Ευρετηριοποίηση Data matching Record linkage Field matching Entity resolution Merge-purge Data deduplication Duplicate record detection Indexing Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός και η απαλοιφή των διπλότυπων εγγραφών μίας βάσης δεδομένων η οποία διενεργείται κατά το στάδιο της προεπεξεργασίας. Σε ένα σύστημα με καθαρά δεδομένα, η ενοποίηση των διπλότυπων εγγραφών συνίσταται στην ένωση των βάσεων δεδομένων με βάση τα πεδία ταυτοποίησής τους. Σε δεδομένα πραγματικού κόσμου, η έλλειψη κοινών πεδίων ταυτοποίησης είναι ένα συχνό φαινόμενο. Επιπροσθέτως, η ποιότητα των πληροφοριών μπορεί να επηρεαστεί από ανθρώπινα λάθη κατά το στάδιο τις καταχώρησης των δεδομένων, από αστοχίες εξοπλισμού αλλά και από την δομική ανομοιογένεια των δεδομένων στις πολλαπλές βάσεις. Στην παρούσα διπλωματική εργασία θα παρουσιάσουμε τα διαφορετικά στάδια της ενοποίησης διπλότυπων εγγραφών και τις διαφορετικές τεχνικές που αναπτύχθηκαν για την αντιμετώπιση των παραπάνω προβλημάτων. Στο πρώτο κεφάλαιο παρουσιάζονται οι στόχοι και οι προκλήσεις της ενοποίησης εγγραφών, γίνεται μία σύντομη ιστορική αναδρομή και περιγράφονται κάποια από τα πεδία εφαρμογής της. Στο δεύτερο κεφάλαιο εξετάζουμε τα διάφορα προβλήματα που μπορούν να εντοπιστούν κατά το στάδιο της προεπεξεργασίας των δεδομένων, όπως η έλλειψη τιμών και η παρουσία θορύβου στα δεδομένα. Στο τρίτο κεφάλαιο περιγράφονται οι βασικότερες τεχνικές ευρετηριοποίησης που στόχο έχουν την μείωση του όγκου των δεδομένων που πρέπει να εξεταστούν ενώ στο τέταρτο κεφάλαιο παρουσιάζονται κάποιες συναρτήσεις ομοιότητας για την σύγκριση των διαφορετικών πεδίων των βάσεων δεδομένων. Τέλος, το πέμπτο κεφάλαιο πραγματεύεται την ταξινόμηση των εγγραφών σε τρεις κλάσεις, όμοιες εγγραφές (matches), ανόμοιες εγγραφές (non matches) και πιθανόν όμοιες εγγραφές (potential matches). Στο κεφάλαιο αυτό παρουσιάζονται επίσης μερικά από τα βασικότερα μέτρα αξιολόγησης της ενοποίησης των εγγραφών. Data matching is the task of identifying, linking and merging records that refer to the same entity across multiple databases. A special case of data matching, performed in the preprocessing step, is the detection of duplicate records within a single database, a task known as deduplication. In a clean data system, data matching would be implemented by simply joining the different databases based on their shared identifiers. However, in real world data, the lack of unique identifiers is a common problem. Furthermore, the quality of the data to be matched may be compromised by human error, equipment failure or structural heterogeneity of the data across the different databases. In this thesis the different stages of the data matching process will be presented, as well as the different techniques that were developed in order to address the aforementioned problems. In the first chapter, the goals and challenges of the data matching task are presented along with a brief historical overview and a description of different application areas. In the second chapter, various data quality issues and ways to overcome them are addressed, such as missing values and the presence of noise. In the third chapter different indexing techniques that aim to reduce the number of record pair comparisons are presented while the fourth chapter consists of a collection of various similarity functions. Finally, in the fifth chapter the process of classifying record pairs into matches, non matches and protentional matches is presented along with some of the main quality measures that aim to evaluate the data matching process. 2022-03-01T07:10:58Z 2022-03-01T07:10:58Z 2022-01-14 http://hdl.handle.net/10889/15870 gr application/pdf