Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης
Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίη...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2023
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/24920 |
id |
nemertes-10889-24920 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Εμπειρία χρήστη Αυτοματοποίηση Επεξεργασία φυσικής γλώσσας Προεπεξεργασία κειμένου Eξαγωγή χαρακτηριστικών Επιλογή μοντέλου Υπολογιστική πολυπλοκότητα Βελτιστοποίηση CPU Βελτιστοποίηση GPU Διαδικτυακή εφαρμογή Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας Βαθιά μάθηση Ταξινόμηση κειμένου Machine learning Machine Learning Operations (MLOps) User experience Automation Natural Language Processing (NLP) Text preprocessing Feature extraction Model selection Computational complexity CPU optimization GPU optimization Web application State-of-the-art machine learning models Deep learning Text classification CrossAI |
spellingShingle |
Μηχανική μάθηση Εμπειρία χρήστη Αυτοματοποίηση Επεξεργασία φυσικής γλώσσας Προεπεξεργασία κειμένου Eξαγωγή χαρακτηριστικών Επιλογή μοντέλου Υπολογιστική πολυπλοκότητα Βελτιστοποίηση CPU Βελτιστοποίηση GPU Διαδικτυακή εφαρμογή Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας Βαθιά μάθηση Ταξινόμηση κειμένου Machine learning Machine Learning Operations (MLOps) User experience Automation Natural Language Processing (NLP) Text preprocessing Feature extraction Model selection Computational complexity CPU optimization GPU optimization Web application State-of-the-art machine learning models Deep learning Text classification CrossAI Ρούστας, Κωνσταντίνος Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
description |
Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης. |
author2 |
Roustas, Konstantinos |
author_facet |
Roustas, Konstantinos Ρούστας, Κωνσταντίνος |
author |
Ρούστας, Κωνσταντίνος |
author_sort |
Ρούστας, Κωνσταντίνος |
title |
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
title_short |
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
title_full |
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
title_fullStr |
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
title_full_unstemmed |
Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
title_sort |
αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης |
publishDate |
2023 |
url |
https://hdl.handle.net/10889/24920 |
work_keys_str_mv |
AT roustaskōnstantinos anabathmisēbibliothēkēsepexergasiasanagnōrisēskaikatēgoriopoiēsēskeimenoumesōtechnētēsnoēmosynēs AT roustaskōnstantinos upgradingalibraryfortextprocessingrecognitionandcategorisationviaai |
_version_ |
1799945007520546816 |
spelling |
nemertes-10889-249202023-04-26T03:39:22Z Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης Upgrading a library for text processing, recognition and categorisation via AI Ρούστας, Κωνσταντίνος Roustas, Konstantinos Μηχανική μάθηση Εμπειρία χρήστη Αυτοματοποίηση Επεξεργασία φυσικής γλώσσας Προεπεξεργασία κειμένου Eξαγωγή χαρακτηριστικών Επιλογή μοντέλου Υπολογιστική πολυπλοκότητα Βελτιστοποίηση CPU Βελτιστοποίηση GPU Διαδικτυακή εφαρμογή Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας Βαθιά μάθηση Ταξινόμηση κειμένου Machine learning Machine Learning Operations (MLOps) User experience Automation Natural Language Processing (NLP) Text preprocessing Feature extraction Model selection Computational complexity CPU optimization GPU optimization Web application State-of-the-art machine learning models Deep learning Text classification CrossAI Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης. Most of the research in Machine Learning has focused on how to build powerful models with accurate predictive capabilities and efficient generalization. Another important goal is to improve the quality of the delivery of these ML models, such that modeling, deployment and monitoring become even easier. This paper explores this problem by proposing a system for obtaining control of the Machine Learning cycle that improves the overall user experience. The results of recent research on ML cycle automation, also known as MLOps (Machine Learning Operations), show that ML systems, which are experimental in nature and have elements that are complex in their construction and operation, can be simplified and made more user-oriented to improve their governance and effectiveness. For this reason, the need arises to implement libraries related to data processing and AI modeling in order to ensure the proper and efficient operation of MLOps. Such an implementation is proposed in this thesis, through the upgrade of an existing open-source library (CrossAI) [46]. This upgrade involves parts of NLP, such as text preprocessing, feature extraction and model selection. In addition to a high degree of automation for the components added, the library will show a significant speedup in terms of computational complexity, as it optimizes both CPUs and GPUs for its computational needs. The successful evaluation of the library is done through the development of a web application, where the implemented library is integrated and used, classifying texts through state-of-the-art Machine Learning models. The user, through the web app, can select parameters specifically designed to optimize preprocessing, feature extraction and ML model generation for classification. At the same time, the web app in which the library has been served will provide useful charts and metrics about the classification and training process. 2023-04-25T07:14:21Z 2023-04-25T07:14:21Z 2023-03-12 https://hdl.handle.net/10889/24920 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf |