Περίληψη: | Ο σκοπός της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι να
παρουσιάσει ένα καινοτόμο τρόπο εξόρυξης πολύ-επίπεδων κανόνων συσχέτισης
σε ένα κατανεμημένο περιβάλλον από πολλαπλές ετερογενείς πηγές δεδομένων.
Σήμερα, εξαιτίας την φθηνής αποθήκευσης και διαθεσιμότητας δεδομένων, ο όγκος
των δεδομένων είναι τεράστιος και επεκτείνεται ταχύτατα ενώ ταυτόχρονα πολύ
συχνά χρειάζεται να ανακαλυφθεί χρήσιμη και ενδιαφέρουσα γνώση από αρκετά
διαφορετικές πηγές δεδομένων. Παρόλο που μεθοδολογίες και λύσεις υπάρχουν
για εξόρυξη κανόνων αποδοτικά σε ένα περιβάλλον που συνίσταται από ένα
μοναδικό κόμβο, αυτές οι μεθοδολογίες αποτυγχάνουν όταν ο όγκος των
δεδομένων εκτείνεται πέρα από ένα κατώφλι. Από την άλλη πλευρά, κατανεμημένα
συστήματα και πλατφόρμες έχουν εμφανιστεί για να παρουσιάσουν ένα
εναλλακτικό μοντέλο επεξεργασίας ικανό να διαχειρίζεται αποδοτικά μαζικά φορτία
δεδομένων. Παρόλες τις τεράστιες δυνατότητες, αυτά τα συστήματα υπολείπονται
εγκαθιδρυμένων μεθοδολογιών που να αξιοποιούν πλήρως τους πόρους τους.
Ο στόχος είναι να ληφθούν τα θετικά χαρακτηριστικά από όλα τα μοντέλα και να
συνδυαστούν σε ένα ενοποιημένο μοντέλο, ικανό να διαχειρίζεται όγκο μαζικών
δεδομένων και να εκτελεί εγκαθιδρυμένες μεθοδολογίες ανακάλυψης γνώσης
(εξόρυξη κανόνων συσχέτισης) σε αυτά. Η εστίαση μας είναι διττή:
Συνδυασμός κανόνων συσχέτισης και εννοιολογικές ιεραρχίες ώστε να είναι
δυνατή η εξόρυξη πολύ-επίπεδων κανόνων από ενοποιημένες και
επαυξημένες πηγές δεδομένων. Αξιοποίηση της επεξεργαστικής ισχύος και δυνατοτήτων των κατανεμημένων
συστημάτων για την αποδοτική διαχείριση του αυξημένου όγκου
δεδομένων.
Προκειμένου να ολοκληρώσουμε το σκοπό αυτό, επαυξάνουμε τα δεδομένα
εισόδου, βασιζόμενοι σε εννοιολογικές ιεραρχίες (οι οποίες προσαρμόζονται στο εκάστοτε πρόβλημα), για να παράγουμε ένα ενοποιημένο και επαυξημένο αρχείο
δεδομένων. Το αρχείο αποστέλλεται σε ένα κατανεμημένο σύστημα επεξεργασίας
(Hadoop Framework Stack) για να δημιουργήσει μεγάλα συχνά στοιχειοσύνολα
αποδοτικά, βασιζόμενο στην διεργασία που προτείνεται από τον αλγόριθμο apriori.
Στη συνέχεια, πολύ-επίπεδοι κανόνες συσχέτισης παράγονται από αυτά τα
στοιχειοσύνολα και κλαδεύονται με βάση παραμέτρους βελτιστοποίησης, ώστε να
διατηρηθούν μόνο αυτοί που είναι ενδιαφέροντες.
|