Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων

Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων. Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κόρδας, Αθανάσιος
Άλλοι συγγραφείς: Μεγαλοοικονόμου, Βασίλειος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12105
id nemertes-10889-12105
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Κανόνες συσχέτισης
Κατανεμημένα συστήματα
Εξόρυξη γνώσης
Εννοιολογικές ιεραρχίες
Association rules
Hadoop
Distributed systems
Data mining
Concept hierarchies
Apriori
005.74
spellingShingle Κανόνες συσχέτισης
Κατανεμημένα συστήματα
Εξόρυξη γνώσης
Εννοιολογικές ιεραρχίες
Association rules
Hadoop
Distributed systems
Data mining
Concept hierarchies
Apriori
005.74
Κόρδας, Αθανάσιος
Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
description Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων. Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος των δεδομένων είναι τεράστιος και επεκτείνεται ταχύτατα ενώ ταυτόχρονα πολύ συχνά χρειάζεται να ανακαλυφθεί χρήσιμη και ενδιαφέρουσα γνώση από αρκετά διαφορετικές πηγές δεδομένων. Παρόλο που μεθοδολογίες και λύσεις υπάρχουν για εξόρυξη κανόνων αποδοτικά σε ένα περιβάλλον που συνίσταται από ένα μοναδικό κόμβο, αυτές οι μεθοδολογίες αποτυγχάνουν όταν ο όγκος των δεδομένων εκτείνεται πέρα από ένα κατώφλι. Από την άλλη πλευρά, κατανεμημένα συστήματα και πλατφόρμες έχουν εμφανιστεί για να παρουσιάσουν ένα εναλλακτικό μοντέλο επεξεργασίας ικανό να διαχειρίζεται αποδοτικά μαζικά φορτία δεδομένων. Παρόλες τις τεράστιες δυνατότητες, αυτά τα συστήματα υπολείπονται εγκαθιδρυμένων μεθοδολογιών που να αξιοποιούν πλήρως τους πόρους τους. Ο στόχος είναι να ληφθούν τα θετικά χαρακτηριστικά από όλα τα μοντέλα και να συνδυαστούν σε ένα ενοποιημένο μοντέλο, ικανό να διαχειρίζεται όγκο μαζικών δεδομένων και να εκτελεί εγκαθιδρυμένες μεθοδολογίες ανακάλυψης γνώσης (εξόρυξη κανόνων συσχέτισης) σε αυτά. Η εστίαση μας είναι διττή:  Συνδυασμός κανόνων συσχέτισης και εννοιολογικές ιεραρχίες ώστε να είναι δυνατή η εξόρυξη πολύ-επίπεδων κανόνων από ενοποιημένες και επαυξημένες πηγές δεδομένων.  Αξιοποίηση της επεξεργαστικής ισχύος και δυνατοτήτων των κατανεμημένων συστημάτων για την αποδοτική διαχείριση του αυξημένου όγκου δεδομένων. Προκειμένου να ολοκληρώσουμε το σκοπό αυτό, επαυξάνουμε τα δεδομένα εισόδου, βασιζόμενοι σε εννοιολογικές ιεραρχίες (οι οποίες προσαρμόζονται στο εκάστοτε πρόβλημα), για να παράγουμε ένα ενοποιημένο και επαυξημένο αρχείο δεδομένων. Το αρχείο αποστέλλεται σε ένα κατανεμημένο σύστημα επεξεργασίας (Hadoop Framework Stack) για να δημιουργήσει μεγάλα συχνά στοιχειοσύνολα αποδοτικά, βασιζόμενο στην διεργασία που προτείνεται από τον αλγόριθμο apriori. Στη συνέχεια, πολύ-επίπεδοι κανόνες συσχέτισης παράγονται από αυτά τα στοιχειοσύνολα και κλαδεύονται με βάση παραμέτρους βελτιστοποίησης, ώστε να διατηρηθούν μόνο αυτοί που είναι ενδιαφέροντες.
author2 Μεγαλοοικονόμου, Βασίλειος
author_facet Μεγαλοοικονόμου, Βασίλειος
Κόρδας, Αθανάσιος
format Thesis
author Κόρδας, Αθανάσιος
author_sort Κόρδας, Αθανάσιος
title Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
title_short Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
title_full Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
title_fullStr Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
title_full_unstemmed Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
title_sort κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων
publishDate 2019
url http://hdl.handle.net/10889/12105
work_keys_str_mv AT kordasathanasios katanemēmenēexoryxēpolyepipedōnkanonōnsyschetisēsapopollapleseterogeneispēgesdedomenōn
AT kordasathanasios distributedminingofmultilevelassociationrulesfrommultipleheterogeneousdatasources
_version_ 1771297363052199937
spelling nemertes-10889-121052022-09-06T05:12:46Z Κατανεμημένη εξόρυξη πολυ-επίπεδων κανόνων συσχέτισης από πολλαπλές ετερογενείς πηγές δεδομένων Distributed mining of multi-level association rules from multiple heterogeneous data sources Κόρδας, Αθανάσιος Μεγαλοοικονόμου, Βασίλειος Μεγαλοοικονόμου, Βασίλειος Παυλίδης, Γεώργιος Μακρής, Χρήστος Kordas, Athanasios Κανόνες συσχέτισης Κατανεμημένα συστήματα Εξόρυξη γνώσης Εννοιολογικές ιεραρχίες Association rules Hadoop Distributed systems Data mining Concept hierarchies Apriori 005.74 Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων. Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος των δεδομένων είναι τεράστιος και επεκτείνεται ταχύτατα ενώ ταυτόχρονα πολύ συχνά χρειάζεται να ανακαλυφθεί χρήσιμη και ενδιαφέρουσα γνώση από αρκετά διαφορετικές πηγές δεδομένων. Παρόλο που μεθοδολογίες και λύσεις υπάρχουν για εξόρυξη κανόνων αποδοτικά σε ένα περιβάλλον που συνίσταται από ένα μοναδικό κόμβο, αυτές οι μεθοδολογίες αποτυγχάνουν όταν ο όγκος των δεδομένων εκτείνεται πέρα από ένα κατώφλι. Από την άλλη πλευρά, κατανεμημένα συστήματα και πλατφόρμες έχουν εμφανιστεί για να παρουσιάσουν ένα εναλλακτικό μοντέλο επεξεργασίας ικανό να διαχειρίζεται αποδοτικά μαζικά φορτία δεδομένων. Παρόλες τις τεράστιες δυνατότητες, αυτά τα συστήματα υπολείπονται εγκαθιδρυμένων μεθοδολογιών που να αξιοποιούν πλήρως τους πόρους τους. Ο στόχος είναι να ληφθούν τα θετικά χαρακτηριστικά από όλα τα μοντέλα και να συνδυαστούν σε ένα ενοποιημένο μοντέλο, ικανό να διαχειρίζεται όγκο μαζικών δεδομένων και να εκτελεί εγκαθιδρυμένες μεθοδολογίες ανακάλυψης γνώσης (εξόρυξη κανόνων συσχέτισης) σε αυτά. Η εστίαση μας είναι διττή:  Συνδυασμός κανόνων συσχέτισης και εννοιολογικές ιεραρχίες ώστε να είναι δυνατή η εξόρυξη πολύ-επίπεδων κανόνων από ενοποιημένες και επαυξημένες πηγές δεδομένων.  Αξιοποίηση της επεξεργαστικής ισχύος και δυνατοτήτων των κατανεμημένων συστημάτων για την αποδοτική διαχείριση του αυξημένου όγκου δεδομένων. Προκειμένου να ολοκληρώσουμε το σκοπό αυτό, επαυξάνουμε τα δεδομένα εισόδου, βασιζόμενοι σε εννοιολογικές ιεραρχίες (οι οποίες προσαρμόζονται στο εκάστοτε πρόβλημα), για να παράγουμε ένα ενοποιημένο και επαυξημένο αρχείο δεδομένων. Το αρχείο αποστέλλεται σε ένα κατανεμημένο σύστημα επεξεργασίας (Hadoop Framework Stack) για να δημιουργήσει μεγάλα συχνά στοιχειοσύνολα αποδοτικά, βασιζόμενο στην διεργασία που προτείνεται από τον αλγόριθμο apriori. Στη συνέχεια, πολύ-επίπεδοι κανόνες συσχέτισης παράγονται από αυτά τα στοιχειοσύνολα και κλαδεύονται με βάση παραμέτρους βελτιστοποίησης, ώστε να διατηρηθούν μόνο αυτοί που είναι ενδιαφέροντες. The aim of this thesis is to present a novel way of mining multi-level association rules, using distributed processing tools and concept hierarchies. Nowadays, as a result of cheap storage and data availability, the volume of data is huge and is expanding rapidly and very often we need to discover useful and interesting knowledge from quite different data sources. While methodologies and solutions exist to mine rules effectively in a single node environment, these methodologies fail when data volume expands beyond a threshold. On the other hand, distributed tools and platforms have appeared to present an alternative processing model, capable of handling effectively massive loads of data. Despite their immense capabilities, these tools lack established methodologies in order to fully exploit their resources. Our goal is to take the positive features from both models and combine them into a unified model, capable of handling massive data volume and performing established knowledge discovery methodologies (association rule mining) on them. Our focus is twofold:  Combination of association rules and concept hierarchies in order to mine multi-level rules from unified and augmented data sources  Exploitation of the processing power and capabilities of distributed tools, aiming to effectively process the increased data volume To accomplish our objective, we augment input data (by injecting meta-information), based on concept hierarchies (which are adjusted on the problem at hand), to produce a unified and augmented data file. This file is sent to a distributed processing tool (Hadoop framework stack) to generate large frequent item-sets effectively, based on the procedure proposed by the Apriori algorithm. Multi-level association rules are then produced from these item-sets and are pruned based on optimization parameters and thresholds, in order to keep only those that are interesting. 2019-03-29T21:51:20Z 2019-03-29T21:51:20Z 2018-12-15 Thesis http://hdl.handle.net/10889/12105 gr 0 winrar winrar winrar application/pdf