Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό
Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2007
|
Θέματα: | |
Διαθέσιμο Online: | http://nemertes.lis.upatras.gr/jspui/handle/10889/542 |
id |
nemertes-10889-542 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
025.524 |
spellingShingle |
025.524 Τσιράκης, Νικόλαος Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
description |
Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό την εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά. Οι μέθοδοι εξόρυξης δεδομένων παρουσιάζουν ιδιαίτερο ενδιαφέρον ειδικά στην περίπτωση όπου η πηγή των δεδομένων μας είναι οι ροές δεδομένων. Με τον όρο ροές δεδομένων εννοούμε προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων υπάρχουν σε μεγάλο όγκο, συνήθως δεν τελειώνουν, αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα. Αν λάβουμε υπ’όψιν το γεγονός πως ο όγκος πληροφορίας που είναι αποθηκευμένος στο διαδίκτυο είναι πολύ μεγάλος και διαρκώς αυξάνεται γεννάται η ανάγκη εφαρμογής μεθόδων εξόρυξης της πληροφορίας αυτής από ροές δεδομένων του παγκόσμιου ιστού. Ο τομέας αυτός (web mining) είναι αρκετά σύγχρονος και υπάρξουν αρκετές τεχνικές εφαρμογής του. Ειδικά στην κατηγορία τεχνικών γνωστές ως web usage mining techniques η διαχείριση των web click data streams καθώς και άλλων μορφών δεδομένων που έχουν να κάνουν με το χρήστη μπορεί να οδηγήσει στην δημιουργία τάσεων (trends) και προτύπων (patterns) για τη βελτίωση της ποιότητας των υπηρεσιών και των αναγκών του χρήστη.
Στα πλαίσια αυτής της διπλωµατικής εργασίας γίνεται αναφορά σε τεχνικές αποδοτικής επεξεργασίας και ανάλυσης εξόρυξης δεδομένων όταν η πηγή της πληροφορίας είναι ροές δεδομένων με σκοπό την συσταδοποίηση (clustering) και τον προσδιορισμό κατανομών ή προτύπων. Μελετάμε διάφορες εφαρμογές στον παγκόσμιο ιστό και με τη βοήθεια των τεχνικών αυτών διερευνούμε τεχνικές προσωποποίησης χρηστών (web mining for web personalization).
Κύριος στόχος της εργασίας είναι η μελέτη και η υλοποίηση ενός συστήματος ομαδοποίησης χρηστών και εξαγωγής συμπερασμάτων για αυτούς αλλά και για τα δεδομένα που είχαν πρόσβαση. Αναλυτικότερα γίνεται χρήση τεχνικών μίκρο (micro) και μάκρο (macro) συσταδοποίησης σε ροές δεδομένων και μετέπειτα χρήση προηγμένων δομών δεδομένων με απώτερο στόχο την αποδοτικότερη και πιο γρήγορη δημιουργία προφίλ χρηστών.
Στο πρώτο μέρος γίνεται μια εισαγωγή στον τομέα της εξόρυξης γνώσης με παρουσίαση εφαρμογών και αλγορίθμων που υπάρχουν μέχρι και σήμερα. Στην συνέχεια εστιάζουμε στην εξόρυξη γνώσης από τον παγκόσμιο ιστό παρουσιάζοντας τα στάδια της διαδικασίας αυτής και αναλύοντας εφαρμογές που χρησιμοποιούν τέτοιες τεχνικές. Πριν παρουσιαστεί σε βάθος η τεχνική της συσταδοποίησης δεδομένων γίνεται μια αναφορά στις ροές δεδομένων με τεχνικές, αλγορίθμους, κατηγορίες και συστήματα που έχουν ως τώρα μελετηθεί και υλοποιηθεί. Στο τέλος αυτού του μέρους παρουσιάζουμε αναλυτικά τη μέθοδο της συσταδοποίησης και ειδικά της συσταδοποίησης ροών δεδομένων.
Σε δεύτερο επίπεδο, γίνεται η παρουσίαση του υλοποιημένου συστήματος εξόρυξης γνώσης από τον παγκόσμιο ιστό. Ειδικότερα αναφέρονται τα βήματα και τα μέρη του συστήματος καθώς και διάφορες αναλύσεις και συμπεράσματα. Τέλος γίνεται μια αναφορά σε μελλοντικές επεκτάσεις και ερευνητικές κατευθύνσεις της εργασίας.
Το υλοποιημένο μοντέλο έχει παρουσιαστεί σαν αποδεκτή δημοσίευση στο International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. Επίσης βασίζεται σε μια προηγούμενη εργασία αναφορικά με ευχρηστία (usability) εφαρμογών και τεχνικές αξιολόγησης ευχρηστίας των συστημάτων, που παρουσιάστηκε στο Metainformatics Symposium 2005. Τέλος υπάρχει ακόμα μια εργασία πάνω στο δομικό υπολογισμό των Open Hypermedia Systems που παρουσιάστηκε στο Metainformatics Symposium 2004. |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Τσιράκης, Νικόλαος |
format |
Thesis |
author |
Τσιράκης, Νικόλαος |
author_sort |
Τσιράκης, Νικόλαος |
title |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
title_short |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
title_full |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
title_fullStr |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
title_full_unstemmed |
Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
title_sort |
αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό |
publishDate |
2007 |
url |
http://nemertes.lis.upatras.gr/jspui/handle/10889/542 |
work_keys_str_mv |
AT tsirakēsnikolaos algorithmoikaitechnikesexoryxēsdedomenōnaporoesdedomenōnstonpankosmioisto AT tsirakēsnikolaos algorithmsandtechniquesfordataminingoverclickstreamsontheweb |
_version_ |
1771297293740277760 |
spelling |
nemertes-10889-5422022-09-05T20:46:42Z Αλγόριθμοι και τεχνικές εξόρυξης δεδομένων απο ροές δεδομένων στον παγκόσμιο ιστό Algorithms and techniques for data mining over click streams on the web Τσιράκης, Νικόλαος Μακρής, Χρήστος Μακρής, Χρήστος Γαροφαλάκης, Ιωάννης Τσακαλίδης, Αθανάσιος Tsirakis, Nikolaos 025.524 Στα πλαίσια της μεταπτυχιακής εργασίας ασχολήθηκα με τεχνικές και αλγόριθμους εξόρυξης δεδομένων από ροές δεδομένων με τεχνικές βάσεων δεδομένων. Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό την εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά. Οι μέθοδοι εξόρυξης δεδομένων παρουσιάζουν ιδιαίτερο ενδιαφέρον ειδικά στην περίπτωση όπου η πηγή των δεδομένων μας είναι οι ροές δεδομένων. Με τον όρο ροές δεδομένων εννοούμε προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων υπάρχουν σε μεγάλο όγκο, συνήθως δεν τελειώνουν, αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα. Αν λάβουμε υπ’όψιν το γεγονός πως ο όγκος πληροφορίας που είναι αποθηκευμένος στο διαδίκτυο είναι πολύ μεγάλος και διαρκώς αυξάνεται γεννάται η ανάγκη εφαρμογής μεθόδων εξόρυξης της πληροφορίας αυτής από ροές δεδομένων του παγκόσμιου ιστού. Ο τομέας αυτός (web mining) είναι αρκετά σύγχρονος και υπάρξουν αρκετές τεχνικές εφαρμογής του. Ειδικά στην κατηγορία τεχνικών γνωστές ως web usage mining techniques η διαχείριση των web click data streams καθώς και άλλων μορφών δεδομένων που έχουν να κάνουν με το χρήστη μπορεί να οδηγήσει στην δημιουργία τάσεων (trends) και προτύπων (patterns) για τη βελτίωση της ποιότητας των υπηρεσιών και των αναγκών του χρήστη. Στα πλαίσια αυτής της διπλωµατικής εργασίας γίνεται αναφορά σε τεχνικές αποδοτικής επεξεργασίας και ανάλυσης εξόρυξης δεδομένων όταν η πηγή της πληροφορίας είναι ροές δεδομένων με σκοπό την συσταδοποίηση (clustering) και τον προσδιορισμό κατανομών ή προτύπων. Μελετάμε διάφορες εφαρμογές στον παγκόσμιο ιστό και με τη βοήθεια των τεχνικών αυτών διερευνούμε τεχνικές προσωποποίησης χρηστών (web mining for web personalization). Κύριος στόχος της εργασίας είναι η μελέτη και η υλοποίηση ενός συστήματος ομαδοποίησης χρηστών και εξαγωγής συμπερασμάτων για αυτούς αλλά και για τα δεδομένα που είχαν πρόσβαση. Αναλυτικότερα γίνεται χρήση τεχνικών μίκρο (micro) και μάκρο (macro) συσταδοποίησης σε ροές δεδομένων και μετέπειτα χρήση προηγμένων δομών δεδομένων με απώτερο στόχο την αποδοτικότερη και πιο γρήγορη δημιουργία προφίλ χρηστών. Στο πρώτο μέρος γίνεται μια εισαγωγή στον τομέα της εξόρυξης γνώσης με παρουσίαση εφαρμογών και αλγορίθμων που υπάρχουν μέχρι και σήμερα. Στην συνέχεια εστιάζουμε στην εξόρυξη γνώσης από τον παγκόσμιο ιστό παρουσιάζοντας τα στάδια της διαδικασίας αυτής και αναλύοντας εφαρμογές που χρησιμοποιούν τέτοιες τεχνικές. Πριν παρουσιαστεί σε βάθος η τεχνική της συσταδοποίησης δεδομένων γίνεται μια αναφορά στις ροές δεδομένων με τεχνικές, αλγορίθμους, κατηγορίες και συστήματα που έχουν ως τώρα μελετηθεί και υλοποιηθεί. Στο τέλος αυτού του μέρους παρουσιάζουμε αναλυτικά τη μέθοδο της συσταδοποίησης και ειδικά της συσταδοποίησης ροών δεδομένων. Σε δεύτερο επίπεδο, γίνεται η παρουσίαση του υλοποιημένου συστήματος εξόρυξης γνώσης από τον παγκόσμιο ιστό. Ειδικότερα αναφέρονται τα βήματα και τα μέρη του συστήματος καθώς και διάφορες αναλύσεις και συμπεράσματα. Τέλος γίνεται μια αναφορά σε μελλοντικές επεκτάσεις και ερευνητικές κατευθύνσεις της εργασίας. Το υλοποιημένο μοντέλο έχει παρουσιαστεί σαν αποδεκτή δημοσίευση στο International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. Επίσης βασίζεται σε μια προηγούμενη εργασία αναφορικά με ευχρηστία (usability) εφαρμογών και τεχνικές αξιολόγησης ευχρηστίας των συστημάτων, που παρουσιάστηκε στο Metainformatics Symposium 2005. Τέλος υπάρχει ακόμα μια εργασία πάνω στο δομικό υπολογισμό των Open Hypermedia Systems που παρουσιάστηκε στο Metainformatics Symposium 2004. The world wide web has gradually transformed into large data repository consisting of vast amount of data in many different types. These data doubles about every year, but useful information seems to be decreasing. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and handles various types of data. When the related data are data streams the problems seem to be very crucial and interesting. Data streams are large volumes of data arriving continuously. Data mining techniques have been proposed and studied to help users better understand and analyze the information. Clustering and other mining techniques have grasped the interest of the data mining community. Clustering is a useful and ubiquitous tool in data analysis. In broad strokes, is the problem of finding a partition of a data set so that, under some definition of “similarity,” similar items are in the same part of the partition and different items are in different parts. With the rapid increase in web-traffic and e-commerce, understanding user behavior based on their interaction with a website is becoming more and more important for website owners and clustering in correlation with personalization techniques of this information space has become a necessity. The knowledge obtained by learning the users preferences can help improve web content, find usability issues related to this content and its structure, ensure the security of provided data, analyze the different groups of users that can be derived from the web access logs and extract patterns, profiles and trends. In this thesis we introduce in data mining and then we mention techniques and algorithms related to web mining which is part of data mining area. We focus in web mining when the data are streams from the web (click stream data) and then we analyze the technique of clustering. The main purpose of this thesis is the presentation of a model that performs clustering in click stream data. The results from this procedure can show the differences between clusters and easily can be extracted trends and usability and security conclusions. The basic attribute of clustering data streams is one-pass algorithms. Current methods don’t address the following issues: a) the quality of clusters is poor when data evolves considerably over time. b) A data stream clustering algorithm requires much greater functionality in discovering and exploring clusters over different portions of the stream. The developed model has been tested using data from web servers and has been presented as a paper in the International Workshop on architectures, models and infrastructures to generate semantics in Peer to Peer and Hypermedia Systems of ACM Hypertext 2006. My thesis is also based on another paper of mine that argues about usability of systems and provide a technique for usability evaluation and has been presented in the Metainformatics Symposium 2005. Finally there is a paper that refers to Open Hypermedia Systems and structural computing and has been presented in Metainformatics Symposium 2004. 2007-10-09T07:16:59Z 2007-10-09T07:16:59Z 2006-09 2007-10-09T07:16:59Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/542 gr Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. application/pdf |