Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή

Τα τελευταία χρόνια, έχει αυξηθεί δραματικά η ανάγκη για κατανόηση και εκμετάλλευση της διαθέσιμης πληροφορίας. Η Μηχανική Μάθηση (ML) κατέχει πρωταρχικό ρόλο στην προσπάθεια αυτή, ειδικότερα ο ολοένα και αναπτυσσόμενος κλάδος της Επεξεργασίας Φυσικής Γλώσσας (NLP). Μία από τις πιο καινοτόμες τεχνικ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αναστασίου, Αλέξανδρος
Άλλοι συγγραφείς: Anastasiou, Alexandros
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16461
id nemertes-10889-16461
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Στατιστική ανάλυση
Επεξεργασία φυσικής γλώσσας
ARM επεξεργαστές
Χρονομέτρηση
Επιτάχυνση υλικού
Word2Vec
Machine learning
Statistical analysis
Natural language processing
ARM
Xilinx
Timing
Hardware acceleration
spellingShingle Μηχανική μάθηση
Στατιστική ανάλυση
Επεξεργασία φυσικής γλώσσας
ARM επεξεργαστές
Χρονομέτρηση
Επιτάχυνση υλικού
Word2Vec
Machine learning
Statistical analysis
Natural language processing
ARM
Xilinx
Timing
Hardware acceleration
Αναστασίου, Αλέξανδρος
Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
description Τα τελευταία χρόνια, έχει αυξηθεί δραματικά η ανάγκη για κατανόηση και εκμετάλλευση της διαθέσιμης πληροφορίας. Η Μηχανική Μάθηση (ML) κατέχει πρωταρχικό ρόλο στην προσπάθεια αυτή, ειδικότερα ο ολοένα και αναπτυσσόμενος κλάδος της Επεξεργασίας Φυσικής Γλώσσας (NLP). Μία από τις πιο καινοτόμες τεχνικές NLP αποτελεί το Word2Vec, μία τεχνική μάθησης χωρίς επίβλεψη, η οποία αναπτύχθηκε από τον Tomas Mikolov και άλλους ερευνητές της Google το 2013. Πρόκειται για μια τεχνική Word Embedding που είναι ικανή να βρίσκει ομοιότητες μεταξύ των λέξεων χρησιμοποιώντας τη μέτρηση ομοιότητας του συνημίτονου (cosine similarity), με ευρεία γκάμα εφαρμογών, από ταξινόμηση κειμένων μέχρι έξυπνες συστάσεις, εξαγωγή γνωστικών συμπερασμάτων και γενικότερα ό,τι έχει να κάνει με σημασιολογική συσχέτιση φυσικής γλώσσας. Τέλος, συχνή είναι πλέον και η ανάγκη να υλοποιούνται αυτές οι τεχνικές σε Ενσωματωμένα Συστήματα ειδικού σκοπού, καθώς τα προτερήματα χρήσης τους υπερτερούν κατά πολύ τις δυσκολίες υλοποίησής τους. Στην παρούσα διπλωματική εργασία, εξετάζεται η λύση σε ένα πρόβλημα NLP, που αφορά τη στατιστική ανάλυση κειμένων στην αγγλική γλώσσα, και ύστερα η υλοποίηση της σε ένα Ενσωματωμένο Σύστημα με ARM επεξεργαστή. Για το σκοπό αυτό, αρχικά υλοποιήθηκε μια αυτοματοποιημένη διαδικασία σε γλώσσα προγραμματισμού Python, για την εισαγωγή των δεδομένων, την επεξεργασία τους λέξη-προς-λέξη, την εξαγωγή και οπτικοποίηση των στατιστικών και την εφαρμογή του προ-εκπαιδευμένου Google Word2Vec λεξικού. Ακολουθεί η υλοποίηση της λύσης στη γλώσσα C, ύστερα σε SystemC και τέλος σε Scripting μορφή, ώστε η σχεδίαση να εφαρμοσθεί στο Ενσωματωμένο Σύστημα Zynq 7000 SoC και συγκεκριμένα στους ARM επεξεργαστές αυτού. Τέλος, κάθε στάδιο της υλοποίησης χρονομετρείται σε κάθε διαθέσιμο σύστημα και γίνεται σύγκριση και εξαγωγή συμπερασμάτων επί της εφαρμογής αυτής, παρατηρώντας πως με συγκεκριμένες βελτιώσεις η παραπάνω υλοποίηση μπορεί να επιταχυνθεί σημαντικά.
author2 Anastasiou, Alexandros
author_facet Anastasiou, Alexandros
Αναστασίου, Αλέξανδρος
author Αναστασίου, Αλέξανδρος
author_sort Αναστασίου, Αλέξανδρος
title Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
title_short Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
title_full Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
title_fullStr Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
title_full_unstemmed Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή
title_sort στατιστική ανάλυση κειμένων και συσχέτισή τους με το google word2vec λεξικό με χρήση arm επεξεργαστή
publishDate 2022
url http://hdl.handle.net/10889/16461
work_keys_str_mv AT anastasioualexandros statistikēanalysēkeimenōnkaisyschetisētousmetogoogleword2veclexikomechrēsēarmepexergastē
AT anastasioualexandros textstatisticalanalysisandcorrelationwithgooglesword2vecdictionaryusingarmprocessors
_version_ 1771297296369057792
spelling nemertes-10889-164612022-09-05T20:29:34Z Στατιστική ανάλυση κειμένων και συσχέτισή τους με το Google word2Vec λεξικό με χρήση ARM επεξεργαστή Text statistical analysis and correlation with Google's word2Vec dictionary using ARM processors Αναστασίου, Αλέξανδρος Anastasiou, Alexandros Μηχανική μάθηση Στατιστική ανάλυση Επεξεργασία φυσικής γλώσσας ARM επεξεργαστές Χρονομέτρηση Επιτάχυνση υλικού Word2Vec Machine learning Statistical analysis Natural language processing ARM Xilinx Timing Hardware acceleration Τα τελευταία χρόνια, έχει αυξηθεί δραματικά η ανάγκη για κατανόηση και εκμετάλλευση της διαθέσιμης πληροφορίας. Η Μηχανική Μάθηση (ML) κατέχει πρωταρχικό ρόλο στην προσπάθεια αυτή, ειδικότερα ο ολοένα και αναπτυσσόμενος κλάδος της Επεξεργασίας Φυσικής Γλώσσας (NLP). Μία από τις πιο καινοτόμες τεχνικές NLP αποτελεί το Word2Vec, μία τεχνική μάθησης χωρίς επίβλεψη, η οποία αναπτύχθηκε από τον Tomas Mikolov και άλλους ερευνητές της Google το 2013. Πρόκειται για μια τεχνική Word Embedding που είναι ικανή να βρίσκει ομοιότητες μεταξύ των λέξεων χρησιμοποιώντας τη μέτρηση ομοιότητας του συνημίτονου (cosine similarity), με ευρεία γκάμα εφαρμογών, από ταξινόμηση κειμένων μέχρι έξυπνες συστάσεις, εξαγωγή γνωστικών συμπερασμάτων και γενικότερα ό,τι έχει να κάνει με σημασιολογική συσχέτιση φυσικής γλώσσας. Τέλος, συχνή είναι πλέον και η ανάγκη να υλοποιούνται αυτές οι τεχνικές σε Ενσωματωμένα Συστήματα ειδικού σκοπού, καθώς τα προτερήματα χρήσης τους υπερτερούν κατά πολύ τις δυσκολίες υλοποίησής τους. Στην παρούσα διπλωματική εργασία, εξετάζεται η λύση σε ένα πρόβλημα NLP, που αφορά τη στατιστική ανάλυση κειμένων στην αγγλική γλώσσα, και ύστερα η υλοποίηση της σε ένα Ενσωματωμένο Σύστημα με ARM επεξεργαστή. Για το σκοπό αυτό, αρχικά υλοποιήθηκε μια αυτοματοποιημένη διαδικασία σε γλώσσα προγραμματισμού Python, για την εισαγωγή των δεδομένων, την επεξεργασία τους λέξη-προς-λέξη, την εξαγωγή και οπτικοποίηση των στατιστικών και την εφαρμογή του προ-εκπαιδευμένου Google Word2Vec λεξικού. Ακολουθεί η υλοποίηση της λύσης στη γλώσσα C, ύστερα σε SystemC και τέλος σε Scripting μορφή, ώστε η σχεδίαση να εφαρμοσθεί στο Ενσωματωμένο Σύστημα Zynq 7000 SoC και συγκεκριμένα στους ARM επεξεργαστές αυτού. Τέλος, κάθε στάδιο της υλοποίησης χρονομετρείται σε κάθε διαθέσιμο σύστημα και γίνεται σύγκριση και εξαγωγή συμπερασμάτων επί της εφαρμογής αυτής, παρατηρώντας πως με συγκεκριμένες βελτιώσεις η παραπάνω υλοποίηση μπορεί να επιταχυνθεί σημαντικά. Recently, the need for understanding and using freely available data has been dramatically increased. Machine Learning (ML) leads the way in this continuous effort, especially the ever-growing field of Natural Language Processing (NLP). One of the most innovative NLP techniques is Word2Vec, an Unsupervised Learning ML algorithm developed by Tomas Mikolov and other researchers of Google in 2013. The technique involves Word Embedding, making possible to find the similarities between words, by using the cosine similarity measurement, with a vast range of applications, from Classification to Smart Recommendations, Knowledgeable Conclusions and, generally speaking, everything related to semantic correlation of natural language. Lastly, it’s becoming more and more frequent to implement these techniques and methods in special-purpose Embedded Systems, since the benefits far-outweigh the difficulties of such designs and development. In this master’s thesis, an NLP problem is examined, which concerns the text statistical analysis, and then its implementation to an Embedded System using ARM Processors. For this purpose, an automated process in Python has been initially developed, to import data, to process them word-by-word, extract and visualize the statistics and apply the pre-trained Google’s Word2Vec Dictionary. Following that, the process has also been implemented in C, then in SystemC and finally in Scripts, so that the design can be applied to the Zynq 7000 System on Chip (SoC) and specifically to its ARM processors. Finally, each stage of the implementation is timed in each available system and a comparison is made and conclusions drawn, revealing that with certain improvements the above implementation can be significantly accelerated. 2022-07-11T09:46:10Z 2022-07-11T09:46:10Z 2022-07-06 http://hdl.handle.net/10889/16461 gr application/pdf