Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics

Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ζαραφέτα, Κυριακή-Ηλέκτρα
Άλλοι συγγραφείς: Γαλλόπουλος, Ευστράτιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13352
id nemertes-10889-13352
record_format dspace
spelling nemertes-10889-133522022-09-05T06:57:34Z Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics Implementation of the LDA and Word2Vec models and comparison of the TMG and text analytics toolboxes Ζαραφέτα, Κυριακή-Ηλέκτρα Γαλλόπουλος, Ευστράτιος Μεγαλοοικονόμου, Βασίλειος Zarafeta, Kyriaki-Ilektra Πιθανολογικό θεματικό μοντέλο Δειγματοληψία Gibbs Μηχανική μάθηση Εξόρυξη κειμένου Επεξεργασία φυσικής γλώσσας Νευρωνικό δίκτυο Διανυσματική αναπαράσταση λέξεων Μοντέλο Word2Vec Text-to-Matrix generator Text analytics LDA Probabilistic topic model Gibbs sampling Machine learning Text mining Natural language processing Neural network Word embeddings Word2Vec model Text-to-matrix generator Text analytics Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού. Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα. Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση. The main objectives of this thesis are the MATLAB implementation of the Latent Dirichlet Allocation (LDA) and Word2Vec models and their incorporation in the Text-to-Matrix Generator (TMG) toolbox. The thesis reviews these methods and discusses their TMG implementation. LDA provides TMG users the ability to conduct topic extraction from text collections. Word2Vec and specifically the Skip-Gram version, allows vector representations of words from documents or text collections and has been shown to be particularly effective for several text mining applications. The thesis, also, presents experiments on a dataset from Wikipedia using the enhanced TMG toolbox and compares its features and results with those obtained using the \texttt{Mathworks} Text Analytics toolbox. 2020-03-13T22:21:16Z 2020-03-13T22:21:16Z 2019-02-21 Thesis http://hdl.handle.net/10889/13352 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Πιθανολογικό θεματικό μοντέλο
Δειγματοληψία Gibbs
Μηχανική μάθηση
Εξόρυξη κειμένου
Επεξεργασία φυσικής γλώσσας
Νευρωνικό δίκτυο
Διανυσματική αναπαράσταση λέξεων
Μοντέλο Word2Vec
Text-to-Matrix generator
Text analytics
LDA
Probabilistic topic model
Gibbs sampling
Machine learning
Text mining
Natural language processing
Neural network
Word embeddings
Word2Vec model
Text-to-matrix generator
Text analytics
spellingShingle Πιθανολογικό θεματικό μοντέλο
Δειγματοληψία Gibbs
Μηχανική μάθηση
Εξόρυξη κειμένου
Επεξεργασία φυσικής γλώσσας
Νευρωνικό δίκτυο
Διανυσματική αναπαράσταση λέξεων
Μοντέλο Word2Vec
Text-to-Matrix generator
Text analytics
LDA
Probabilistic topic model
Gibbs sampling
Machine learning
Text mining
Natural language processing
Neural network
Word embeddings
Word2Vec model
Text-to-matrix generator
Text analytics
Ζαραφέτα, Κυριακή-Ηλέκτρα
Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
description Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού. Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα. Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση.
author2 Γαλλόπουλος, Ευστράτιος
author_facet Γαλλόπουλος, Ευστράτιος
Ζαραφέτα, Κυριακή-Ηλέκτρα
format Thesis
author Ζαραφέτα, Κυριακή-Ηλέκτρα
author_sort Ζαραφέτα, Κυριακή-Ηλέκτρα
title Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
title_short Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
title_full Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
title_fullStr Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
title_full_unstemmed Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics
title_sort υλοποίηση των μοντέλων lda και word2vec και σύγκριση των εργαλείων tmg και text analytics
publishDate 2020
url http://hdl.handle.net/10889/13352
work_keys_str_mv AT zaraphetakyriakēēlektra ylopoiēsētōnmontelōnldakaiword2veckaisynkrisētōnergaleiōntmgkaitextanalytics
AT zaraphetakyriakēēlektra implementationoftheldaandword2vecmodelsandcomparisonofthetmgandtextanalyticstoolboxes
_version_ 1771297181174595584