Περίληψη: | Τα τελευταία χρόνια με την ανάπτυξη του παγκόσμιου ιστού, των ψηφιακών βιβλιοθηκών και των βάσεων δεδομένων έχει δημιουργηθεί ένα τεράστιο πρόβλημα συσσώρευσης μεγάλου όγκου κειμένων και πληροφοριών. Το φαινόμενο αυτό έχει απασχολήσει πάρα πολλούς χρήστες που προσπαθούν να εξαγάγουν γρήγορα και εύκολα χρήσιμες πληροφορίες από μεγάλες συλλογές κειμένων. Η δυσκολία έγκειται στην αδυναμία επεξεργασίας όλης αυτής της διαθέσιμης πληροφορίας και των μεγάλων κειμενικών πόρων με απώτερο σκοπό την αδυναμία εξαγωγής χρήσιμων ή νέων γνώσεων και συμπερασμάτων.
Προκειμένου να αντιμετωπισθεί το παραπάνω πρόβλημα, έχουν αναπτυχθεί αρκετές τεχνικές για την οργάνωση, την ανάλυση και την εξαγωγή νέας γνώσης από μεγάλους όγκους κειμένων. Μία από αυτές τις τεχνικές είναι η εξόρυξη γνώσης από κείμενα (Text Mining).
Μία από τις σημαντικότερες μεθόδους της εξόρυξης γνώσης από κείμενα (Text Mining) είναι η ομαδοποίηση, η οποία ως σκοπό έχει την οργάνωση μεγάλου όγκου κειμένων σε ομάδες (clusters) βάση ορισμένων κριτηρίων ομοιότητας, βοηθώντας καθοριστικά στην ανάλυσή τους και στην εξαγωγή νέων γνώσεων από αυτά.
Σκοπός της παρούσας μεταπτυχιακής εργασίας είναι η συλλογή των ερευνητικών προγραμμάτων από την Επιτροπή Ερευνών (ΕΛΚΕ) του Πανεπιστημίου Πατρών και η εφαρμογή της τεχνικής εξόρυξης γνώσης από κείμενα (Text Mining) με απώτερο σκοπό την εξαγωγή συμπερασμάτων για το ποια είναι τα κύρια ερευνητικά πεδία του Πανεπιστημίου Πατρών.
Πιο αναλυτικά στο πρώτο κεφάλαιο γίνεται μία σύντομη ανασκόπηση σχετικά με την εξόρυξη γνώσης από κείμενα (Text Mining) και περιγράφονται οι στόχοι, οι μέθοδοι και τα εργαλεία που χρησιμοποιεί. Στο δεύτερο κεφάλαιο παρουσιάζεται η διαδικασία προ-επεξεργασίας των κειμένων καθώς και ο τρόπος αναπαράστασης αυτών. Στο τρίτο κεφάλαιο περιγράφονται η διαδικασία της ομαδοποίησης, σημαντικοί αλγόριθμοι ομαδοποίησης και διάφορα μέτρα ομοιότητας. Στο τέταρτο κεφάλαιο περιγράφεται η διαδικασία συλλογής και προ-επεξεργασίας των ερευνητικών προγραμμάτων καθώς επίσης και η εφαρμογή του λογισμικού Text Mining, QDA Miner, σε συνδυασμό με το λογισμικό ανάλυσης περιεχομένου, Wordstat, προκειμένου τα εν λόγω ερευνητικά προγράμματα να ομαδοποιηθούν σε ομάδες (clusters) με απώτερο σκοπό την εξαγωγή κατάλληλων συμπερασμάτων, ώστε να αποφανθεί όπως προαναφέραμε, ποια είναι τα κύρια ερευνητικά πεδία του Πανεπιστημίου Πατρών. Η εν λόγω εργασία κλείνει με την ανάλυση των αποτελεσμάτων και τις προτάσεις για μελλοντική έρευνα.
|