Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό

Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τσιράκης, Νικόλαος
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2007
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/542
Περιγραφή
Περίληψη:Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό την εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά. Οι μέθοδοι εξόρυξης δεδομένων παρουσιάζουν ιδιαίτερο ενδιαφέρον ειδικά στην περίπτωση όπου η πηγή των δεδομένων μας είναι οι ροές δεδομένων. Με τον όρο ροές δεδομένων εννοούμε προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων υπάρχουν σε μεγάλο όγκο, συνήθως δεν τελειώνουν, αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα. Αν λάβουμε υπ’όψιν το γεγονός πως ο όγκος πληροφορίας που είναι αποθηκευμένος στο διαδίκτυο είναι πολύ μεγάλος και διαρκώς αυξάνεται γεννάται η ανάγκη εφαρμογής μεθόδων εξόρυξης της πληροφορίας αυτής από ροές δεδομένων του παγκόσμιου ιστού. Ο τομέας αυτός (web mining) είναι αρκετά σύγχρονος και υπάρξουν αρκετές τεχνικές εφαρμογής του. Ειδικά στην κατηγορία τεχνικών γνωστές ως web usage mining techniques η διαχείριση των web click data streams καθώς και άλλων μορφών δεδομένων που έχουν να κάνουν με το χρήστη μπορεί να οδηγήσει στην δημιουργία τάσεων (trends) και προτύπων (patterns) για τη βελτίωση της ποιότητας των υπηρεσιών και των αναγκών του χρήστη. Στα πλαίσια αυτής της διπλωµατικής εργασίας γίνεται αναφορά σε τεχνικές αποδοτικής επεξεργασίας και ανάλυσης εξόρυξης δεδομένων όταν η πηγή της πληροφορίας είναι ροές δεδομένων με σκοπό την συσταδοποίηση (clustering) και τον προσδιορισμό κατανομών ή προτύπων. Μελετάμε διάφορες εφαρμογές στον παγκόσμιο ιστό και με τη βοήθεια των τεχνικών αυτών διερευνούμε τεχνικές προσωποποίησης χρηστών (web mining for web personalization). Κύριος στόχος της εργασίας είναι η μελέτη και η υλοποίηση ενός συστήματος ομαδοποίησης χρηστών και εξαγωγής συμπερασμάτων για αυτούς αλλά και για τα δεδομένα που είχαν πρόσβαση. Αναλυτικότερα γίνεται χρήση τεχνικών μίκρο (micro) και μάκρο (macro) συσταδοποίησης σε ροές δεδομένων και μετέπειτα χρήση προηγμένων δομών δεδομένων με απώτερο στόχο την αποδοτικότερη και πιο γρήγορη δημιουργία προφίλ χρηστών. Στο πρώτο μέρος γίνεται μια εισαγωγή στον τομέα της εξόρυξης γνώσης με παρουσίαση εφαρμογών και αλγορίθμων που υπάρχουν μέχρι και σήμερα. Στην συνέχεια εστιάζουμε στην εξόρυξη γνώσης από τον παγκόσμιο ιστό παρουσιάζοντας τα στάδια της διαδικασίας αυτής και αναλύοντας εφαρμογές που χρησιμοποιούν τέτοιες τεχνικές. Πριν παρουσιαστεί σε βάθος η τεχνική της συσταδοποίησης δεδομένων γίνεται μια αναφορά στις ροές δεδομένων με τεχνικές, αλγορίθμους, κατηγορίες και συστήματα που έχουν ως τώρα μελετηθεί και υλοποιηθεί. Στο τέλος αυτού του μέρους παρουσιάζουμε αναλυτικά τη μέθοδο της συσταδοποίησης και ειδικά της συσταδοποίησης ροών δεδομένων. Σε δεύτερο επίπεδο, γίνεται η παρουσίαση του υλοποιημένου συστήματος εξόρυξης γνώσης από τον παγκόσμιο ιστό. Ειδικότερα αναφέρονται τα βήματα και τα μέρη του συστήματος καθώς και διάφορες αναλύσεις και συμπεράσματα. Τέλος γίνεται μια αναφορά σε μελλοντικές επεκτάσεις και ερευνητικές κατευθύνσεις της εργασίας. Το υλοποιημένο μοντέλο έχει παρουσιαστεί σαν αποδεκτή δημοσίευση στο International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. Επίσης βασίζεται σε μια προηγούμενη εργασία αναφορικά με ευχρηστία (usability) εφαρμογών και τεχνικές αξιολόγησης ευχρηστίας των συστημάτων, που παρουσιάστηκε στο Metainformatics Symposium 2005. Τέλος υπάρχει ακόμα μια εργασία πάνω στο δομικό υπολογισμό των Open Hypermedia Systems που παρουσιάστηκε στο Metainformatics Symposium 2004.