Πειραματική σύγκριση αλγορίθμων ενισχυτικής μάθησης βασισμένης σε μοντέλα

Η παρούσα διπλωματική εργασία εντάσσεται στην ερευνητική περιοχή της ε- νισχυτικής μάθησης, ένα υποσύνολο του τομέα της μηχανικής μάθησης. Μέσω της ενισχυτικής μάθησης καθίσταται δυνατή η εκπαίδευση αυτόνομων πρα- κτόρων με ελάχιστη πληροφορία, καθώς το περιβάλλον στο οποίο δραστηριο- ποιείται ένας...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σιράγας, Μιχαήλ
Άλλοι συγγραφείς: Siragas, Michail
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25315
Περιγραφή
Περίληψη:Η παρούσα διπλωματική εργασία εντάσσεται στην ερευνητική περιοχή της ε- νισχυτικής μάθησης, ένα υποσύνολο του τομέα της μηχανικής μάθησης. Μέσω της ενισχυτικής μάθησης καθίσταται δυνατή η εκπαίδευση αυτόνομων πρα- κτόρων με ελάχιστη πληροφορία, καθώς το περιβάλλον στο οποίο δραστηριο- ποιείται ένας αυτόνομος πράκτορας, συχνά δεν είναι γνωστό εκ των προτέρων. Μέσω αυτής της αλληλεπίδρασης με το περιβάλλον, ο πράκτορας συλλέγει δε- δομένα. Η διαδικασία εκμάθησης δυναμικών μοντέλων δυσχεραίνει όταν αυτά τα δεδομένα είναι μη δομημένα, καθώς τα παραγόμενα μοντέλα δεν μπορούν να αναπαραστήσουν επαρκώς τον πραγματικό κόσμο και απαιτούν πολύ μεγάλη υπολογιστική ισχύ. Το παραπάνω πρόβλημα θεωρείται θεμελιώδες στην επι- στήμη της ρομποτικής. Η διπλωματική εργασία αποσκοπεί στην αξιολόγηση και σύγκριση της απόδοσης δύο διαφορετικών μεθόδων εκπαίδευσης μοντέλων, των νευρωνικών δικτύων και των γκαουσιανών διεργασιών, σε μία διαδικα- σία εκμάθησης πολιτικής βασισμένη σε δυναμικά μοντέλα (model-based policy search). Τα νευρωνικά δίκτυα αποτελούν μια δημοφιλή τεχνική εκπαίδευσης μοντέλων, ενώ οι γκαουσιανές διεργασίες προσφέρουν μια διαφορετική προ- σέγγιση που λαμβάνει υπόψη την αβεβαιότητα στις προβλέψεις. Τα κύρια εργαλεία που χρησιμοποιήθηκαν είναι η γλώσσα προγραμματισμο- ύ python , η βιβλιοθήκη RobotDart για την προσομοίωση των ρομπότ και του περιβάλλοντος, οι βιβλιοθήκες PyTorch και GPytorch για την δημιουρ- γία νευρωνικών δικτύων και γκαουσιανών διαδικασιών αντίστοιχα καθώς και η βιβλιοθήκη Matplotlib για την δημιουργία των γραφικών παραστάσεων.