Περίληψη: | Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού.
Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα.
Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση.
|