Περίληψη: | Οι σύγχρονοι αλγόριθμοι αισθητικοκινητικής μάθησης προσφέρουν πολιτικές που συχνά μπορούν να παράγουν ασταθείς συμπεριφορές, προκαλώντας ζημιά στο ρομπότ ή/και στο περιβάλλον. Η παραδοσιακή εκμάθηση ρομπότ, αντίθετα, βασίζεται σε πολιτικές που βασίζονται σε δυναμικά συστήματα και μπορεί να αναλυθεί η ευστάθεια τους. Τέτοιες πολιτικές, ωστόσο, δεν είναι ούτε ευέλικτες ούτε γενικές και συνήθως λειτουργούν μόνο με καταστάσεις αισθητήρων ιδιοδεκτικότητας. Σε αυτή την εργασία, γεφυρώνεται το χάσμα μεταξύ των γενικών πολιτικών νευρωνικών δικτύων και των πολιτικών που βασίζονται σε δυναμικά συστήματα και παρουσιάζονται οι Αυτόνομες Νευρωνικές Δυναμικές Πολιτικές (Autonomous Neural Dynamic Policies ANDPs) οι οποίες: (α) βασίζονται σε αυτόνομα δυναμικά συστήματα, (β) παράγουν πάντα ασυμπτωτικά ευσταθείς συμπεριφορές και (γ) είναι πιο ευέλικτες από τις παραδοσιακές πολιτικές που βασίζονται σε δυναμικά συστήματα. Οι ANDPs είναι πλήρως διαφορίσιμες, ευέλικτες πολιτικές που μπορούν να χρησιμοποιηθούν τόσο για τη μάθηση μίμησης (Imitation Learning) όσο και για την ενισχυτική μάθηση (Reinforcement Learning), ενώ εξασφαλίζουν ασυμπτωτική ευστάθεια. Στην παρούσα διατριβή, διερευνούμε την ευελιξία και την ικανότητα των ANDPs μέσω μιας σειράς τριών πειραμάτων. Πρώτον, διεξάγουμε ένα πείραμα μίμησης τροχιών 2D για να συγκρίνουμε τις επιδόσεις των ANDPs με σύγχρονους αλγορίθμους της βιβλιογραφίας. Αυτό το πείραμα αποσκοπεί στην επίδειξη των δυνατοτήτων των ANDPs να αναπαράγουν με ακρίβεια πολύπλοκες τροχιές. Δεύτερον, διερευνούμε τις δυνατότητες των ANDPs σε σενάρια εκμάθησης πολλαπλών εργασιών χρησιμοποιώντας εικόνες ως εισόδους, αναδεικνύοντας έτσι την ικανότητά τους να μαθαίνουν πολλαπλές συμπεριφορές στο πλαίσιο μιας ενιαίας πολιτικής. Τονίζουμε την ευελιξία των ANDPs αποδεικνύοντας την ικανότητά τους να δέχονται αυθαίρετες εισόδους όπως εικόνες, ανοίγοντας δυνατότητες για εφαρμογές στον πραγματικό κόσμο. Τέλος, αξιολογούμε την ευρωστία και την αντιδραστικότητα των ANDPs μέσω αυστηρών δοκιμών, εξασφαλίζοντας την αξιοπιστία τους σε δυναμικά περιβάλλοντα. Επιπλέον, παρουσιάζουμε ένα πείραμα σε πραγματικό ρομπότ που επικεντρώνεται στην αξιολόγηση του κατά πόσον τα ANDPs μπορούν να μάθουν με επιτυχία εργασίες που απαιτούν έλεγχο προσανατολισμού καθώς και υψηλά επίπεδα ακρίβειας. Τα αποτελέσματα δείχνουν ότι τα ANDPs συνδυάζουν τα πλεονεκτήματα τόσο των μεθόδων που βασίζονται σε νευρωνικά δίκτυα όσο και των μεθόδων που βασίζονται σε δυναμικά συστήματα.
|