Περίληψη: | Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων τα οποία συλλέγονται και αποθηκεύονται σε διάφορες βάσεις δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων αυτών επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό τη βοήθεια του ανθρώπου στην εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά.
Οι τεχνικές εξόρυξης δεδομένων παρουσιάζουν τα τελευταία χρόνια ιδιαίτερο ενδιαφέρον στις περιπτώσεις όπου η πηγή των δεδομένων είναι οι ροές δεδομένων ή άλλες μορφές όπως τα XML έγγραφα. Σύγχρονα συστήματα και εφαρμογές όπως είναι αυτά των κοινοτήτων πρακτικής έχουν ανάγκη χρήσης τέτοιων τεχνικών εξόρυξης για να βοηθήσουν τα μέλη τους. Τέλος ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα για σκοπούς καλύτερης συντηρησιμότητας τους.
Από τη μια μεριά οι ροές δεδομένων είναι προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Υπάρχουν πολλές εφαρμογές που χειρίζονται δεδομένα σε μορφή ροών, όπως δεδομένα αισθητήρων, ροές κίνησης δικτύων, χρηματιστηριακά δεδομένα και τηλεπικοινωνίες. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων παρουσιάζουν μεγάλο όγκο και χαρακτηρίζονται από μια συνεχή ροή πληροφορίας που δεν έχει αρχή και τέλος. Αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Ίσως είναι η μοναδική πηγή γνώσης για εξόρυξη δεδομένων και ανάλυση στην περίπτωση όπου οι ανάγκες μιας εφαρμογής περιορίζονται από τον χρόνο απόκρισης και το χώρο αποθήκευσης. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα ιδιαίτερα στον Παγκόσμιο Ιστό.
Ένας άλλος τομέας ενδιαφέροντος για τη χρήση νέων τεχνικών εξόρυξης δεδομένων είναι οι κοινότητες πρακτικής. Οι κοινότητες πρακτικής (Communities of Practice) είναι ομάδες ανθρώπων που συμμετέχουν σε μια διαδικασία συλλογικής εκμάθησης. Μοιράζονται ένα ενδιαφέρον ή μια ιδέα που έχουν και αλληλεπιδρούν για να μάθουν καλύτερα για αυτό. Οι κοινότητες αυτές είναι μικρές ή μεγάλες, τοπικές ή παγκόσμιες, face to face ή on line, επίσημα αναγνωρίσιμες, ανεπίσημες ή και αόρατες. Υπάρχουν δηλαδή παντού και σχεδόν όλοι συμμετέχουμε σε δεκάδες από αυτές. Ένα παράδειγμα αυτών είναι τα γνωστά forum συζητήσεων. Σκοπός μας ήταν ο σχεδιασμός νέων αλγορίθμων εξόρυξης δεδομένων από τις κοινότητες πρακτικής με τελικό σκοπό να βρεθούν οι σχέσεις των μελών τους και να γίνει ανάλυση των εξαγόμενων δεδομένων με μετρικές κοινωνικών δικτύων ώστε συνολικά να αποτελέσει μια μεθοδολογία ανάλυσης τέτοιων κοινοτήτων.
Επίσης η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML μορφή δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Ταυτόχρονα λόγο της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας πρέπει να γίνεται το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες.
Από την άλλη μεριά οι διαστάσεις της εσωτερικής και εξωτερικής ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολύ έμφαση στην εξωτερική ποιότητα και διαφέρει από την εσωτερική, όπως για παράδειγμα στη σχεδίαση η οποία αναφέρεται στην εσωτερική ποιότητα και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι ο καθορισμός και η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψη τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος.
Στα πλαίσια αυτής της διδακτορικής διατριβής έγινε σε βάθος έρευνα σχετικά με τεχνικές εξόρυξης δεδομένων και εφαρμογές τόσο στο πρόβλημα διαχείρισης πληροφορίας όσο και στο πρόβλημα της αξιολόγησης λογισμικού.
|