Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων
Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15870 |
id |
nemertes-10889-15870 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ενοποίηση εγγραφών Διπλότυπες εγγραφές Ταίριασμα εγγραφών Διασύνδεση εγγραφών Απαλοιφή διπλότυπων εγγραφών Ευρετηριοποίηση Data matching Record linkage Field matching Entity resolution Merge-purge Data deduplication Duplicate record detection Indexing |
spellingShingle |
Ενοποίηση εγγραφών Διπλότυπες εγγραφές Ταίριασμα εγγραφών Διασύνδεση εγγραφών Απαλοιφή διπλότυπων εγγραφών Ευρετηριοποίηση Data matching Record linkage Field matching Entity resolution Merge-purge Data deduplication Duplicate record detection Indexing Κυριακούλη, Δήμητρα Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
description |
Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός και η απαλοιφή των διπλότυπων εγγραφών μίας βάσης δεδομένων η οποία διενεργείται κατά το στάδιο της προεπεξεργασίας. Σε ένα σύστημα με καθαρά δεδομένα, η ενοποίηση των διπλότυπων εγγραφών συνίσταται στην ένωση των βάσεων δεδομένων με βάση τα πεδία ταυτοποίησής τους. Σε δεδομένα πραγματικού κόσμου, η έλλειψη κοινών πεδίων ταυτοποίησης είναι ένα συχνό φαινόμενο. Επιπροσθέτως, η ποιότητα των πληροφοριών μπορεί να επηρεαστεί από ανθρώπινα λάθη κατά το στάδιο τις καταχώρησης των δεδομένων, από αστοχίες εξοπλισμού αλλά και από την δομική ανομοιογένεια των δεδομένων στις πολλαπλές βάσεις. Στην παρούσα διπλωματική εργασία θα παρουσιάσουμε τα διαφορετικά στάδια της ενοποίησης διπλότυπων εγγραφών και τις διαφορετικές τεχνικές που αναπτύχθηκαν για την αντιμετώπιση των παραπάνω προβλημάτων.
Στο πρώτο κεφάλαιο παρουσιάζονται οι στόχοι και οι προκλήσεις της ενοποίησης εγγραφών, γίνεται μία σύντομη ιστορική αναδρομή και περιγράφονται κάποια από τα πεδία εφαρμογής της. Στο δεύτερο κεφάλαιο εξετάζουμε τα διάφορα προβλήματα που μπορούν να εντοπιστούν κατά το στάδιο της προεπεξεργασίας των δεδομένων, όπως η έλλειψη τιμών και η παρουσία θορύβου στα δεδομένα. Στο τρίτο κεφάλαιο περιγράφονται οι βασικότερες τεχνικές ευρετηριοποίησης που στόχο έχουν την μείωση του όγκου των δεδομένων που πρέπει να εξεταστούν ενώ στο τέταρτο κεφάλαιο παρουσιάζονται κάποιες συναρτήσεις ομοιότητας για την σύγκριση των διαφορετικών πεδίων των βάσεων δεδομένων. Τέλος, το πέμπτο κεφάλαιο πραγματεύεται την ταξινόμηση των εγγραφών σε τρεις κλάσεις, όμοιες εγγραφές (matches), ανόμοιες εγγραφές (non matches) και πιθανόν όμοιες εγγραφές (potential matches). Στο κεφάλαιο αυτό παρουσιάζονται επίσης μερικά από τα βασικότερα μέτρα αξιολόγησης της ενοποίησης των εγγραφών. |
author2 |
Kyriakouli, Dimitra |
author_facet |
Kyriakouli, Dimitra Κυριακούλη, Δήμητρα |
author |
Κυριακούλη, Δήμητρα |
author_sort |
Κυριακούλη, Δήμητρα |
title |
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
title_short |
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
title_full |
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
title_fullStr |
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
title_full_unstemmed |
Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
title_sort |
ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/15870 |
work_keys_str_mv |
AT kyriakoulēdēmētra enopoiēsēdiplotypōnengraphōnsebaseisdedomenōn AT kyriakoulēdēmētra matchingofduplicatedatarecords |
_version_ |
1771297329649811456 |
spelling |
nemertes-10889-158702022-09-05T20:19:44Z Ενοποίηση διπλότυπων εγγραφών σε βάσεις δεδομένων Matching of duplicate data records Κυριακούλη, Δήμητρα Kyriakouli, Dimitra Ενοποίηση εγγραφών Διπλότυπες εγγραφές Ταίριασμα εγγραφών Διασύνδεση εγγραφών Απαλοιφή διπλότυπων εγγραφών Ευρετηριοποίηση Data matching Record linkage Field matching Entity resolution Merge-purge Data deduplication Duplicate record detection Indexing Η ενοποίηση των διπλότυπων εγγραφών σε βάσεις δεδομένων είναι η διαδικασία κατά την οποία εγγραφές οι οποίες αναφέρονται στην ίδια οντότητα σε πολλαπλές βάσεις δεδομένων εντοπίζονται, συνδέονται και συγχωνεύονται σε μία νέα βάση δεδομένων. Μία ειδική περίπτωση της διαδικασίας αυτή είναι ο εντοπισμός και η απαλοιφή των διπλότυπων εγγραφών μίας βάσης δεδομένων η οποία διενεργείται κατά το στάδιο της προεπεξεργασίας. Σε ένα σύστημα με καθαρά δεδομένα, η ενοποίηση των διπλότυπων εγγραφών συνίσταται στην ένωση των βάσεων δεδομένων με βάση τα πεδία ταυτοποίησής τους. Σε δεδομένα πραγματικού κόσμου, η έλλειψη κοινών πεδίων ταυτοποίησης είναι ένα συχνό φαινόμενο. Επιπροσθέτως, η ποιότητα των πληροφοριών μπορεί να επηρεαστεί από ανθρώπινα λάθη κατά το στάδιο τις καταχώρησης των δεδομένων, από αστοχίες εξοπλισμού αλλά και από την δομική ανομοιογένεια των δεδομένων στις πολλαπλές βάσεις. Στην παρούσα διπλωματική εργασία θα παρουσιάσουμε τα διαφορετικά στάδια της ενοποίησης διπλότυπων εγγραφών και τις διαφορετικές τεχνικές που αναπτύχθηκαν για την αντιμετώπιση των παραπάνω προβλημάτων. Στο πρώτο κεφάλαιο παρουσιάζονται οι στόχοι και οι προκλήσεις της ενοποίησης εγγραφών, γίνεται μία σύντομη ιστορική αναδρομή και περιγράφονται κάποια από τα πεδία εφαρμογής της. Στο δεύτερο κεφάλαιο εξετάζουμε τα διάφορα προβλήματα που μπορούν να εντοπιστούν κατά το στάδιο της προεπεξεργασίας των δεδομένων, όπως η έλλειψη τιμών και η παρουσία θορύβου στα δεδομένα. Στο τρίτο κεφάλαιο περιγράφονται οι βασικότερες τεχνικές ευρετηριοποίησης που στόχο έχουν την μείωση του όγκου των δεδομένων που πρέπει να εξεταστούν ενώ στο τέταρτο κεφάλαιο παρουσιάζονται κάποιες συναρτήσεις ομοιότητας για την σύγκριση των διαφορετικών πεδίων των βάσεων δεδομένων. Τέλος, το πέμπτο κεφάλαιο πραγματεύεται την ταξινόμηση των εγγραφών σε τρεις κλάσεις, όμοιες εγγραφές (matches), ανόμοιες εγγραφές (non matches) και πιθανόν όμοιες εγγραφές (potential matches). Στο κεφάλαιο αυτό παρουσιάζονται επίσης μερικά από τα βασικότερα μέτρα αξιολόγησης της ενοποίησης των εγγραφών. Data matching is the task of identifying, linking and merging records that refer to the same entity across multiple databases. A special case of data matching, performed in the preprocessing step, is the detection of duplicate records within a single database, a task known as deduplication. In a clean data system, data matching would be implemented by simply joining the different databases based on their shared identifiers. However, in real world data, the lack of unique identifiers is a common problem. Furthermore, the quality of the data to be matched may be compromised by human error, equipment failure or structural heterogeneity of the data across the different databases. In this thesis the different stages of the data matching process will be presented, as well as the different techniques that were developed in order to address the aforementioned problems. In the first chapter, the goals and challenges of the data matching task are presented along with a brief historical overview and a description of different application areas. In the second chapter, various data quality issues and ways to overcome them are addressed, such as missing values and the presence of noise. In the third chapter different indexing techniques that aim to reduce the number of record pair comparisons are presented while the fourth chapter consists of a collection of various similarity functions. Finally, in the fifth chapter the process of classifying record pairs into matches, non matches and protentional matches is presented along with some of the main quality measures that aim to evaluate the data matching process. 2022-03-01T07:10:58Z 2022-03-01T07:10:58Z 2022-01-14 http://hdl.handle.net/10889/15870 gr application/pdf |