Περίληψη: | Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά.
Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα.
Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου.
Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων.
Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος.
Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους.
|