Πειραματική σύγκριση αλγορίθμων ενισχυτικής μάθησης σε προβλήματα ρομποτικής

Η παρούσα διπλωματική εργασία εντάσσεται στον χώρο της μηχανικής μάθησης και ιδιαίτερα στην περιοχή της ενισχυτικής μάθησης. Η ενισχυτική μάθηση αποτελεί μια βασική προσέγγιση εκπαίδευσης αυτόνομων πρακτόρων, οι οποίοι λαμβάνουν περιορισμένη πληροφορία για την εκπαίδευση τους από το περιβάλλον. Ο το...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Στεργιόπουλος, Δημοσθένης
Άλλοι συγγραφείς: Stergiopoulos, Dimosthenis
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/23629
Περιγραφή
Περίληψη:Η παρούσα διπλωματική εργασία εντάσσεται στον χώρο της μηχανικής μάθησης και ιδιαίτερα στην περιοχή της ενισχυτικής μάθησης. Η ενισχυτική μάθηση αποτελεί μια βασική προσέγγιση εκπαίδευσης αυτόνομων πρακτόρων, οι οποίοι λαμβάνουν περιορισμένη πληροφορία για την εκπαίδευση τους από το περιβάλλον. Ο τομέας της ρομποτικής κατέχει σημαντική θέση στις εφαρμογές της τεχνητής νοημοσύνης. Η δημιουργία και η σωστή μετακίνηση ενός ρομποτικού συστήματος αποτελεί ένα δύσκολο και ενδιαφέρον πρόβλημα. Ο συνδυασμός αυτών των δύο τεχνικών (Ενισχυτική Μάθηση, Ρομποτική) αποτελεί την υλοποίηση της παρούσας εργασίας. Πιο αναλυτικά η εργασία αφορά την σύγκριση τεσσάρων αλγορίθμων ενισχυτικής μάθησης σε τέσσερα διαφορετικά ρομποτικά συστήματα. Η αξιολόγηση των αλγορίθμων γίνεται με βάση την πολιτική. Πολιτική είναι η στρατηγική που ακολουθεί ο πράκτορας για την απόφαση της επόμενης δράσης που θα εκτελέσει. Στην παρούσα εργασία δοκιμάστηκαν δυο on-policy αλγόριθμοι και δυο off-policy αλγόριθμοι. Τα κύρια εργαλεία που χρησιμοποιούνται για την ανάπτυξη του λογισμικού είναι, η γλώσσα προγραμματισμού python, η βιβλιοθήκη RobotDart για την προσομοίωση, η βιβλιοθήκη StableBaseline3 για την εκπαίδευση του ρομποτικού συστήματος και η βιβλιοθήκη Matplotlib για τον σχεδιασμό των γραφικών παραστάσεων. Κύρια αφορμή για την δημιουργία αυτής της εργασίας είναι η εύρεση του αποδοτικότερου αλγορίθμου σε κάθε ένα ρομποτικό σύστημα καθώς και η συλλογική απόδοση του κάθε αλγόριθμου σε όλα τα περιβάλλοντα.