Περίληψη: | Η ραγδαία ανάπτυξη του Παγκόσμιου Ιστού προσέφερε σε όλους τους χρήστες ανά τον κόσμο τη δυνατότητα άμεσης, γρήγορης και αποτελεσματικής προσπέλασης κάθε είδους πληροφορίας. Καθημερινά πραγματοποιούνται εκατομμύρια καταχωρήσεις πληροφοριών στο Διαδίκτυο με αποτέλεσμα ο όγκος της διακινούμενης πληροφορίας να αυξάνει με εκθετικούς ρυθμούς.
Με το πάτημα ενός κουμπιού, μια πληθώρα πληροφοριών, ακόμη και για το πιο εξειδικευμένο θέμα, βρίσκεται μπροστά στην οθόνη του χρήστη, έτοιμη προς ανάγνωση και επεξεργασία. Αυτή ακριβώς η «υπερδιάθεση» πληροφοριών καθιστά πολύ δύσκολη έως αδύνατη οποιουδήποτε είδους επεξεργασία των δεδομένων από το χρήστη, έστω και σε επίπεδο απλής ανάγνωσης.
Η ύπαρξη ενός εργαλείου ανάκτησης κειμένου και εξαγωγής όρων και κανόνων από μια υπερμεγέθη συλλογή κειμένων θα έδινε τη δυνατότητα στο χρήστη να ανακτήσει χρήσιμες πληροφορίες γρήγορα, χωρίς να είναι απαραίτητη η ανάγνωση και η φυσική επεξεργασία όλων αυτών των κειμένων.
Ειδικότερα στο ευαίσθητο πεδίο των Βιο-Επιστημών όπου η αδυναμία επεξεργασίας της διαθέσιμης πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων επηρεάζει αρνητικά την επιστημονική έρευνα, είναι επιτακτική η ανάγκη παρουσίας εργαλείων που θα διευκολύνουν τη διαδικασία εξόρυξης γνώσης από κείμενα με βιολογικό περιεχόμενο.
Στην παρούσα διπλωματική εργασία γίνεται μια παρουσίαση τεχνικών με τις οποίες είναι δυνατή η εξαγωγή γνώσης και κανόνων από κείμενα ηλεκτρονικής μορφής στο Διαδίκτυο τα οποία αφορούν στο επιστημονικό πεδίο της Βιολογίας.
Η προσπάθειά μας επικεντρώνεται κυρίως στη δυνατότητα εξόρυξης γνώσης από κείμενα που αναφέρονται σε ένα συγκεκριμένο θέμα Βιολογίας (π.χ. μεταγραφικοί παράγοντες) και που η πραγματοποίηση του στόχου αυτού θα ήταν διαφορετικά από δύσκολη έως αδύνατη καθώς το πλήθος των κειμένων είναι απαγορευτικό για την αναλυτική μελέτη τους από ειδικό ή ομάδα ειδικών, πόσο μάλλον από έναν απλό χρήστη.
Αρχικά, περιγράφουμε τον τρόπο ανάκτησης των κειμένων που αναφέρονται στο συγκεκριμένο θέμα του ενδιαφέροντός μας από την ηλεκτρονική βιβλιοθήκη National Library of Medicine και τη δημιουργία της προς επεξεργασία συλλογής κειμένων. Η συλλογή αυτή υπόκειται σε λεξικολογική ανάλυση και επεξεργασία κατά τη διάρκεια της οποίας διατηρούνται από κάθε κείμενο οι πιο σημαντικοί όροι, ενώ οι υπόλοιποι απορρίπτονται. Με τον τρόπο αυτό δημιουργείται ένα σύνολο από τους πιο αντιπροσωπευτικούς όρους ανά κείμενο με τη συχνότητα εμφάνισής τους σε αυτά.
Στη συνέχεια, εφαρμόζουμε τεχνικές ομαδοποίησης δεδομένων με στόχο τη δημιουργία ομάδων όρων, αλλά και ομάδων κειμένων. Στα πλαίσια της προσπάθειας αυτής, πειραματιστήκαμε με διάφορες γνωστές τεχνικές ομαδοποίησης (αλγόριθμοι k-means και ιεραρχικός μονής σύνδεσης), ενώ υλοποιήσαμε εκ νέου τον αλγόριθμο ISODATA σε περιβάλλον ανάπτυξης Matlab.
Η έρευνά μας ολοκληρώνεται με την εφαρμογή της τεχνικής του Latent Semantic Indexing πριν τη ομαδοποίηση των δεδομένων και τη σύγκριση των αποτελεσμάτων.
Μέσα από τις ομάδες που δημιουργούνται με αυτή τη διαδικασία, διαπιστώνουμε την παρουσία συνδέσεων μεταξύ όρων και κειμένων και, ακόμη περισσότερο, τη δυνατότητα εξαγωγής συμπερασμάτων, αλλά και εξόρυξης πραγματικά νέας γνώσης επάνω σε συγκεκριμένα πεδία της επιστήμης της Βιολογίας.
|