Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/13352 |
id |
nemertes-10889-13352 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-133522022-09-05T06:57:34Z Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics Implementation of the LDA and Word2Vec models and comparison of the TMG and text analytics toolboxes Ζαραφέτα, Κυριακή-Ηλέκτρα Γαλλόπουλος, Ευστράτιος Μεγαλοοικονόμου, Βασίλειος Zarafeta, Kyriaki-Ilektra Πιθανολογικό θεματικό μοντέλο Δειγματοληψία Gibbs Μηχανική μάθηση Εξόρυξη κειμένου Επεξεργασία φυσικής γλώσσας Νευρωνικό δίκτυο Διανυσματική αναπαράσταση λέξεων Μοντέλο Word2Vec Text-to-Matrix generator Text analytics LDA Probabilistic topic model Gibbs sampling Machine learning Text mining Natural language processing Neural network Word embeddings Word2Vec model Text-to-matrix generator Text analytics Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού. Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα. Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση. The main objectives of this thesis are the MATLAB implementation of the Latent Dirichlet Allocation (LDA) and Word2Vec models and their incorporation in the Text-to-Matrix Generator (TMG) toolbox. The thesis reviews these methods and discusses their TMG implementation. LDA provides TMG users the ability to conduct topic extraction from text collections. Word2Vec and specifically the Skip-Gram version, allows vector representations of words from documents or text collections and has been shown to be particularly effective for several text mining applications. The thesis, also, presents experiments on a dataset from Wikipedia using the enhanced TMG toolbox and compares its features and results with those obtained using the \texttt{Mathworks} Text Analytics toolbox. 2020-03-13T22:21:16Z 2020-03-13T22:21:16Z 2019-02-21 Thesis http://hdl.handle.net/10889/13352 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Πιθανολογικό θεματικό μοντέλο Δειγματοληψία Gibbs Μηχανική μάθηση Εξόρυξη κειμένου Επεξεργασία φυσικής γλώσσας Νευρωνικό δίκτυο Διανυσματική αναπαράσταση λέξεων Μοντέλο Word2Vec Text-to-Matrix generator Text analytics LDA Probabilistic topic model Gibbs sampling Machine learning Text mining Natural language processing Neural network Word embeddings Word2Vec model Text-to-matrix generator Text analytics |
spellingShingle |
Πιθανολογικό θεματικό μοντέλο Δειγματοληψία Gibbs Μηχανική μάθηση Εξόρυξη κειμένου Επεξεργασία φυσικής γλώσσας Νευρωνικό δίκτυο Διανυσματική αναπαράσταση λέξεων Μοντέλο Word2Vec Text-to-Matrix generator Text analytics LDA Probabilistic topic model Gibbs sampling Machine learning Text mining Natural language processing Neural network Word embeddings Word2Vec model Text-to-matrix generator Text analytics Ζαραφέτα, Κυριακή-Ηλέκτρα Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
description |
Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού.
Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα.
Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση. |
author2 |
Γαλλόπουλος, Ευστράτιος |
author_facet |
Γαλλόπουλος, Ευστράτιος Ζαραφέτα, Κυριακή-Ηλέκτρα |
format |
Thesis |
author |
Ζαραφέτα, Κυριακή-Ηλέκτρα |
author_sort |
Ζαραφέτα, Κυριακή-Ηλέκτρα |
title |
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
title_short |
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
title_full |
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
title_fullStr |
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
title_full_unstemmed |
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
title_sort |
υλοποίηση των μοντέλων lda και word2vec και σύγκριση των εργαλείων tmg και text analytics |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/13352 |
work_keys_str_mv |
AT zaraphetakyriakēēlektra ylopoiēsētōnmontelōnldakaiword2veckaisynkrisētōnergaleiōntmgkaitextanalytics AT zaraphetakyriakēēlektra implementationoftheldaandword2vecmodelsandcomparisonofthetmgandtextanalyticstoolboxes |
_version_ |
1771297181174595584 |