Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης

Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ρούστας, Κωνσταντίνος
Άλλοι συγγραφείς: Roustas, Konstantinos
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24920
id nemertes-10889-24920
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Εμπειρία χρήστη
Αυτοματοποίηση
Επεξεργασία φυσικής γλώσσας
Προεπεξεργασία κειμένου
Eξαγωγή χαρακτηριστικών
Επιλογή μοντέλου
Υπολογιστική πολυπλοκότητα
Βελτιστοποίηση CPU
Βελτιστοποίηση GPU
Διαδικτυακή εφαρμογή
Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας
Βαθιά μάθηση
Ταξινόμηση κειμένου
Machine learning
Machine Learning Operations (MLOps)
User experience
Automation
Natural Language Processing (NLP)
Text preprocessing
Feature extraction
Model selection
Computational complexity
CPU optimization
GPU optimization
Web application
State-of-the-art machine learning models
Deep learning
Text classification
CrossAI
spellingShingle Μηχανική μάθηση
Εμπειρία χρήστη
Αυτοματοποίηση
Επεξεργασία φυσικής γλώσσας
Προεπεξεργασία κειμένου
Eξαγωγή χαρακτηριστικών
Επιλογή μοντέλου
Υπολογιστική πολυπλοκότητα
Βελτιστοποίηση CPU
Βελτιστοποίηση GPU
Διαδικτυακή εφαρμογή
Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας
Βαθιά μάθηση
Ταξινόμηση κειμένου
Machine learning
Machine Learning Operations (MLOps)
User experience
Automation
Natural Language Processing (NLP)
Text preprocessing
Feature extraction
Model selection
Computational complexity
CPU optimization
GPU optimization
Web application
State-of-the-art machine learning models
Deep learning
Text classification
CrossAI
Ρούστας, Κωνσταντίνος
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
description Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης.
author2 Roustas, Konstantinos
author_facet Roustas, Konstantinos
Ρούστας, Κωνσταντίνος
author Ρούστας, Κωνσταντίνος
author_sort Ρούστας, Κωνσταντίνος
title Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
title_short Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
title_full Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
title_fullStr Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
title_full_unstemmed Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
title_sort αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
publishDate 2023
url https://hdl.handle.net/10889/24920
work_keys_str_mv AT roustaskōnstantinos anabathmisēbibliothēkēsepexergasiasanagnōrisēskaikatēgoriopoiēsēskeimenoumesōtechnētēsnoēmosynēs
AT roustaskōnstantinos upgradingalibraryfortextprocessingrecognitionandcategorisationviaai
_version_ 1799945007520546816
spelling nemertes-10889-249202023-04-26T03:39:22Z Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης Upgrading a library for text processing, recognition and categorisation via AI Ρούστας, Κωνσταντίνος Roustas, Konstantinos Μηχανική μάθηση Εμπειρία χρήστη Αυτοματοποίηση Επεξεργασία φυσικής γλώσσας Προεπεξεργασία κειμένου Eξαγωγή χαρακτηριστικών Επιλογή μοντέλου Υπολογιστική πολυπλοκότητα Βελτιστοποίηση CPU Βελτιστοποίηση GPU Διαδικτυακή εφαρμογή Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας Βαθιά μάθηση Ταξινόμηση κειμένου Machine learning Machine Learning Operations (MLOps) User experience Automation Natural Language Processing (NLP) Text preprocessing Feature extraction Model selection Computational complexity CPU optimization GPU optimization Web application State-of-the-art machine learning models Deep learning Text classification CrossAI Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης. Most of the research in Machine Learning has focused on how to build powerful models with accurate predictive capabilities and efficient generalization. Another important goal is to improve the quality of the delivery of these ML models, such that modeling, deployment and monitoring become even easier. This paper explores this problem by proposing a system for obtaining control of the Machine Learning cycle that improves the overall user experience. The results of recent research on ML cycle automation, also known as MLOps (Machine Learning Operations), show that ML systems, which are experimental in nature and have elements that are complex in their construction and operation, can be simplified and made more user-oriented to improve their governance and effectiveness. For this reason, the need arises to implement libraries related to data processing and AI modeling in order to ensure the proper and efficient operation of MLOps. Such an implementation is proposed in this thesis, through the upgrade of an existing open-source library (CrossAI) [46]. This upgrade involves parts of NLP, such as text preprocessing, feature extraction and model selection. In addition to a high degree of automation for the components added, the library will show a significant speedup in terms of computational complexity, as it optimizes both CPUs and GPUs for its computational needs. The successful evaluation of the library is done through the development of a web application, where the implemented library is integrated and used, classifying texts through state-of-the-art Machine Learning models. The user, through the web app, can select parameters specifically designed to optimize preprocessing, feature extraction and ML model generation for classification. At the same time, the web app in which the library has been served will provide useful charts and metrics about the classification and training process. 2023-04-25T07:14:21Z 2023-04-25T07:14:21Z 2023-03-12 https://hdl.handle.net/10889/24920 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf