Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό

Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink. Το...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ιωάννου, Ζαφειρία - Μαρίνα
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2012
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/4946
id nemertes-10889-4946
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Εξόρυξη γνώσης από κείμενα βιοϊατρικής
Βιοπληροφορική
Συσταδοποίηση κειμένων
Biomedical text mining
Bioinformatics
Document clustering
006.312
spellingShingle Εξόρυξη γνώσης από κείμενα βιοϊατρικής
Βιοπληροφορική
Συσταδοποίηση κειμένων
Biomedical text mining
Bioinformatics
Document clustering
006.312
Ιωάννου, Ζαφειρία - Μαρίνα
Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
description Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink. Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου. Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα. Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου. Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες.
author2 Μακρής, Χρήστος
author_facet Μακρής, Χρήστος
Ιωάννου, Ζαφειρία - Μαρίνα
format Thesis
author Ιωάννου, Ζαφειρία - Μαρίνα
author_sort Ιωάννου, Ζαφειρία - Μαρίνα
title Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
title_short Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
title_full Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
title_fullStr Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
title_full_unstemmed Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
title_sort εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό
publishDate 2012
url http://hdl.handle.net/10889/4946
work_keys_str_mv AT iōannouzapheiriamarina exoryxēplērophoriasapobioïatrikēbibliographiaepharmogēstēnanalysēkeimenōntextminingapopēgesstonpankosmioisto
_version_ 1771297303485743104
spelling nemertes-10889-49462022-09-05T20:14:44Z Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό Ιωάννου, Ζαφειρία - Μαρίνα Μακρής, Χρήστος Μακρής, Χρήστος Ioannou, Zafeiria - Marina Εξόρυξη γνώσης από κείμενα βιοϊατρικής Βιοπληροφορική Συσταδοποίηση κειμένων Biomedical text mining Bioinformatics Document clustering 006.312 Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink. Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου. Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα. Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου. Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες. There is an increasing interest in automatic text mining in biomedical texts due to the increasing number of electronically available publications stored in databases such as PubMed and SpringerLink. The main problem that makes this goal more challenging and difficult is the inability of processing the available information and extracting useful connections and assumptions. Therefore, there is an urgent need for new text-mining tools to facilitate the process of text mining from biomedical documents. The goal of the present diploma thesis is to present known methods of text mining, and to develop an application that provides reliable knowledge from biomedical literature based on efficient text mining techniques. In particular, our attempt is mainly focused on developing an efficient clustering algorithm and using techniques for evaluating the results of clustering, in order to assist the users in their biological information seeking activities. The proposed algorithm involves different clustering techniques, such as Hierarchical Algorithm, Spherical K-means Algorithm and employs a final ranking according to Impact Factor of retrieved documents. The basic steps of our algorithm are: preprocessing of text’s content, representation with the vector space model, applying Latent Semantic Indexing (LSI), fuzzy clustering, hierarchical clustering, spherical k-means clustering, selection of the best cluster and ranking of biomedical documents according to their impact factor. The application that we implement is based on the above algorithm and provides two search methods: 1) search with user’s queries, which are saved in the database and thus playing the role of a compacted storage of his past search activities, 2) search through a list of pre-specified biological Topics, and thus providing the user with an extra assistance in his various queries. Moreover the whole scheme can mine useful associations between terms by exploiting the nature of the formed clusters. 2012-01-23T12:51:37Z 2012-01-23T12:51:37Z 2011-09 2012-01-23 Thesis http://hdl.handle.net/10889/4946 gr 0 application/pdf