Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων. Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2019
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/12105 |
id |
nemertes-10889-12105 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Κανόνες συσχέτισης Κατανεμημένα συστήματα Εξόρυξη γνώσης Εννοιολογικές ιεραρχίες Association rules Hadoop Distributed systems Data mining Concept hierarchies Apriori 005.74 |
spellingShingle |
Κανόνες συσχέτισης Κατανεμημένα συστήματα Εξόρυξη γνώσης Εννοιολογικές ιεραρχίες Association rules Hadoop Distributed systems Data mining Concept hierarchies Apriori 005.74 Κόρδας, Αθανάσιος Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
description |
Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να
παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης
σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων.
Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος
των δεδομένων είναι τεράστιος και επεκτείνεται ταχύτατα ενώ ταυτόχρονα πολύ
συχνά χρειάζεται να ανακαλυφθεί χρήσιμη και ενδιαφέρουσα γνώση από αρκετά
διαφορετικές πηγές δεδομένων. Παρόλο που μεθοδολογίες και λύσεις υπάρχουν
για εξόρυξη κανόνων αποδοτικά σε ένα περιβάλλον που συνίσταται από ένα
μοναδικό κόμβο, αυτές οι μεθοδολογίες αποτυγχάνουν όταν ο όγκος των
δεδομένων εκτείνεται πέρα από ένα κατώφλι. Από την άλλη πλευρά, κατανεμημένα
συστήματα και πλατφόρμες έχουν εμφανιστεί για να παρουσιάσουν ένα
εναλλακτικό μοντέλο επεξεργασίας ικανό να διαχειρίζεται αποδοτικά μαζικά φορτία
δεδομένων. Παρόλες τις τεράστιες δυνατότητες, αυτά τα συστήματα υπολείπονται
εγκαθιδρυμένων μεθοδολογιών που να αξιοποιούν πλήρως τους πόρους τους.
Ο στόχος είναι να ληφθούν τα θετικά χαρακτηριστικά από όλα τα μοντέλα και να
συνδυαστούν σε ένα ενοποιημένο μοντέλο, ικανό να διαχειρίζεται όγκο μαζικών
δεδομένων και να εκτελεί εγκαθιδρυμένες μεθοδολογίες ανακάλυψης γνώσης
(εξόρυξη κανόνων συσχέτισης) σε αυτά. Η εστίαση μας είναι διττή:
Συνδυασμός κανόνων συσχέτισης και εννοιολογικές ιεραρχίες ώστε να είναι
δυνατή η εξόρυξη πολύ-επίπεδων κανόνων από ενοποιημένες και
επαυξημένες πηγές δεδομένων. Αξιοποίηση της επεξεργαστικής ισχύος και δυνατοτήτων των κατανεμημένων
συστημάτων για την αποδοτική διαχείριση του αυξημένου όγκου
δεδομένων.
Προκειμένου να ολοκληρώσουμε το σκοπό αυτό, επαυξάνουμε τα δεδομένα
εισόδου, βασιζόμενοι σε εννοιολογικές ιεραρχίες (οι οποίες προσαρμόζονται στο εκάστοτε πρόβλημα), για να παράγουμε ένα ενοποιημένο και επαυξημένο αρχείο
δεδομένων. Το αρχείο αποστέλλεται σε ένα κατανεμημένο σύστημα επεξεργασίας
(Hadoop Framework Stack) για να δημιουργήσει μεγάλα συχνά στοιχειοσύνολα
αποδοτικά, βασιζόμενο στην διεργασία που προτείνεται από τον αλγόριθμο apriori.
Στη συνέχεια, πολύ-επίπεδοι κανόνες συσχέτισης παράγονται από αυτά τα
στοιχειοσύνολα και κλαδεύονται με βάση παραμέτρους βελτιστοποίησης, ώστε να
διατηρηθούν μόνο αυτοί που είναι ενδιαφέροντες. |
author2 |
Μεγαλοοικονόμου, Βασίλειος |
author_facet |
Μεγαλοοικονόμου, Βασίλειος Κόρδας, Αθανάσιος |
format |
Thesis |
author |
Κόρδας, Αθανάσιος |
author_sort |
Κόρδας, Αθανάσιος |
title |
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
title_short |
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
title_full |
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
title_fullStr |
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
title_full_unstemmed |
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
title_sort |
κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων |
publishDate |
2019 |
url |
http://hdl.handle.net/10889/12105 |
work_keys_str_mv |
AT kordasathanasios katanemēmenēexoryxēpolyepipedōnkanonōnsyschetisēsapopollapleseterogeneispēgesdedomenōn AT kordasathanasios distributedminingofmultilevelassociationrulesfrommultipleheterogeneousdatasources |
_version_ |
1771297363052199937 |
spelling |
nemertes-10889-121052022-09-06T05:12:46Z Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων Distributed mining of multi-level association rules from multiple heterogeneous data sources Κόρδας, Αθανάσιος Μεγαλοοικονόμου, Βασίλειος Μεγαλοοικονόμου, Βασίλειος Παυλίδης, Γεώργιος Μακρής, Χρήστος Kordas, Athanasios Κανόνες συσχέτισης Κατανεμημένα συστήματα Εξόρυξη γνώσης Εννοιολογικές ιεραρχίες Association rules Hadoop Distributed systems Data mining Concept hierarchies Apriori 005.74 Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων. Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος των δεδομένων είναι τεράστιος και επεκτείνεται ταχύτατα ενώ ταυτόχρονα πολύ συχνά χρειάζεται να ανακαλυφθεί χρήσιμη και ενδιαφέρουσα γνώση από αρκετά διαφορετικές πηγές δεδομένων. Παρόλο που μεθοδολογίες και λύσεις υπάρχουν για εξόρυξη κανόνων αποδοτικά σε ένα περιβάλλον που συνίσταται από ένα μοναδικό κόμβο, αυτές οι μεθοδολογίες αποτυγχάνουν όταν ο όγκος των δεδομένων εκτείνεται πέρα από ένα κατώφλι. Από την άλλη πλευρά, κατανεμημένα συστήματα και πλατφόρμες έχουν εμφανιστεί για να παρουσιάσουν ένα εναλλακτικό μοντέλο επεξεργασίας ικανό να διαχειρίζεται αποδοτικά μαζικά φορτία δεδομένων. Παρόλες τις τεράστιες δυνατότητες, αυτά τα συστήματα υπολείπονται εγκαθιδρυμένων μεθοδολογιών που να αξιοποιούν πλήρως τους πόρους τους. Ο στόχος είναι να ληφθούν τα θετικά χαρακτηριστικά από όλα τα μοντέλα και να συνδυαστούν σε ένα ενοποιημένο μοντέλο, ικανό να διαχειρίζεται όγκο μαζικών δεδομένων και να εκτελεί εγκαθιδρυμένες μεθοδολογίες ανακάλυψης γνώσης (εξόρυξη κανόνων συσχέτισης) σε αυτά. Η εστίαση μας είναι διττή: Συνδυασμός κανόνων συσχέτισης και εννοιολογικές ιεραρχίες ώστε να είναι δυνατή η εξόρυξη πολύ-επίπεδων κανόνων από ενοποιημένες και επαυξημένες πηγές δεδομένων. Αξιοποίηση της επεξεργαστικής ισχύος και δυνατοτήτων των κατανεμημένων συστημάτων για την αποδοτική διαχείριση του αυξημένου όγκου δεδομένων. Προκειμένου να ολοκληρώσουμε το σκοπό αυτό, επαυξάνουμε τα δεδομένα εισόδου, βασιζόμενοι σε εννοιολογικές ιεραρχίες (οι οποίες προσαρμόζονται στο εκάστοτε πρόβλημα), για να παράγουμε ένα ενοποιημένο και επαυξημένο αρχείο δεδομένων. Το αρχείο αποστέλλεται σε ένα κατανεμημένο σύστημα επεξεργασίας (Hadoop Framework Stack) για να δημιουργήσει μεγάλα συχνά στοιχειοσύνολα αποδοτικά, βασιζόμενο στην διεργασία που προτείνεται από τον αλγόριθμο apriori. Στη συνέχεια, πολύ-επίπεδοι κανόνες συσχέτισης παράγονται από αυτά τα στοιχειοσύνολα και κλαδεύονται με βάση παραμέτρους βελτιστοποίησης, ώστε να διατηρηθούν μόνο αυτοί που είναι ενδιαφέροντες. The aim of this thesis is to present a novel way of mining multi-level association rules, using distributed processing tools and concept hierarchies. Nowadays, as a result of cheap storage and data availability, the volume of data is huge and is expanding rapidly and very often we need to discover useful and interesting knowledge from quite different data sources. While methodologies and solutions exist to mine rules effectively in a single node environment, these methodologies fail when data volume expands beyond a threshold. On the other hand, distributed tools and platforms have appeared to present an alternative processing model, capable of handling effectively massive loads of data. Despite their immense capabilities, these tools lack established methodologies in order to fully exploit their resources. Our goal is to take the positive features from both models and combine them into a unified model, capable of handling massive data volume and performing established knowledge discovery methodologies (association rule mining) on them. Our focus is twofold: Combination of association rules and concept hierarchies in order to mine multi-level rules from unified and augmented data sources Exploitation of the processing power and capabilities of distributed tools, aiming to effectively process the increased data volume To accomplish our objective, we augment input data (by injecting meta-information), based on concept hierarchies (which are adjusted on the problem at hand), to produce a unified and augmented data file. This file is sent to a distributed processing tool (Hadoop framework stack) to generate large frequent item-sets effectively, based on the procedure proposed by the Apriori algorithm. Multi-level association rules are then produced from these item-sets and are pruned based on optimization parameters and thresholds, in order to keep only those that are interesting. 2019-03-29T21:51:20Z 2019-03-29T21:51:20Z 2018-12-15 Thesis http://hdl.handle.net/10889/12105 gr 0 winrar winrar winrar application/pdf |