Πειραματική σύγκριση αλγορίθμων ενισχυτικής μάθησης σε προβλήματα ρομποτικής

Η παρούσα διπλωματική εργασία εντάσσεται στον χώρο της μηχανικής μάθησης και ιδιαίτερα στην περιοχή της ενισχυτικής μάθησης. Η ενισχυτική μάθηση αποτελεί μια βασική προσέγγιση εκπαίδευσης αυτόνομων πρακτόρων, οι οποίοι λαμβάνουν περιορισμένη πληροφορία για την εκπαίδευση τους από το περιβάλλον. Ο το...

Full description

Bibliographic Details
Main Author:	Στεργιόπουλος, Δημοσθένης
Other Authors:	Stergiopoulos, Dimosthenis
Language:	Greek
Published:	2022
Subjects:	Ενισχυτική μάθηση Ρομποτικά συστήματα Νευρωνικά δίκτυα Reinforcement learning Robotics Neural networks
Online Access:	https://hdl.handle.net/10889/23629

Description
Summary:	Η παρούσα διπλωματική εργασία εντάσσεται στον χώρο της μηχανικής μάθησης και ιδιαίτερα στην περιοχή της ενισχυτικής μάθησης. Η ενισχυτική μάθηση αποτελεί μια βασική προσέγγιση εκπαίδευσης αυτόνομων πρακτόρων, οι οποίοι λαμβάνουν περιορισμένη πληροφορία για την εκπαίδευση τους από το περιβάλλον. Ο τομέας της ρομποτικής κατέχει σημαντική θέση στις εφαρμογές της τεχνητής νοημοσύνης. Η δημιουργία και η σωστή μετακίνηση ενός ρομποτικού συστήματος αποτελεί ένα δύσκολο και ενδιαφέρον πρόβλημα. Ο συνδυασμός αυτών των δύο τεχνικών (Ενισχυτική Μάθηση, Ρομποτική) αποτελεί την υλοποίηση της παρούσας εργασίας. Πιο αναλυτικά η εργασία αφορά την σύγκριση τεσσάρων αλγορίθμων ενισχυτικής μάθησης σε τέσσερα διαφορετικά ρομποτικά συστήματα. Η αξιολόγηση των αλγορίθμων γίνεται με βάση την πολιτική. Πολιτική είναι η στρατηγική που ακολουθεί ο πράκτορας για την απόφαση της επόμενης δράσης που θα εκτελέσει. Στην παρούσα εργασία δοκιμάστηκαν δυο on-policy αλγόριθμοι και δυο off-policy αλγόριθμοι. Τα κύρια εργαλεία που χρησιμοποιούνται για την ανάπτυξη του λογισμικού είναι, η γλώσσα προγραμματισμού python, η βιβλιοθήκη RobotDart για την προσομοίωση, η βιβλιοθήκη StableBaseline3 για την εκπαίδευση του ρομποτικού συστήματος και η βιβλιοθήκη Matplotlib για τον σχεδιασμό των γραφικών παραστάσεων. Κύρια αφορμή για την δημιουργία αυτής της εργασίας είναι η εύρεση του αποδοτικότερου αλγορίθμου σε κάθε ένα ρομποτικό σύστημα καθώς και η συλλογική απόδοση του κάθε αλγόριθμου σε όλα τα περιβάλλοντα.

Πειραματική σύγκριση αλγορίθμων ενισχυτικής μάθησης σε προβλήματα ρομποτικής

Similar Items