Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης

Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ρούστας, Κωνσταντίνος
Άλλοι συγγραφείς: Roustas, Konstantinos
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24920
Περιγραφή
Περίληψη:Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης.