Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων

Οι σύγχρονοι αλγόριθμοι αισθητικοκινητικής μάθησης προσφέρουν πολιτικές που συχνά μπορούν να παράγουν ασταθείς συμπεριφορές, προκαλώντας ζημιά στο ρομπότ ή/και στο περιβάλλον. Η παραδοσιακή εκμάθηση ρομπότ, αντίθετα, βασίζεται σε πολιτικές που βασίζονται σε δυναμικά συστήματα και μπορεί να αναλυθεί...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τοτσίλα, Διόνις
Άλλοι συγγραφείς: Totsila, Dionis
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25274
id nemertes-10889-25274
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μάθηση σε ρομπότ
Lyapunov ευστάθεια
Ενισχυτική μάθηση
Imitation learning
Dynamical system-based policies
Autonomous Neural Dynamic Policies (ANDPs)
spellingShingle Μάθηση σε ρομπότ
Lyapunov ευστάθεια
Ενισχυτική μάθηση
Imitation learning
Dynamical system-based policies
Autonomous Neural Dynamic Policies (ANDPs)
Τοτσίλα, Διόνις
Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
description Οι σύγχρονοι αλγόριθμοι αισθητικοκινητικής μάθησης προσφέρουν πολιτικές που συχνά μπορούν να παράγουν ασταθείς συμπεριφορές, προκαλώντας ζημιά στο ρομπότ ή/και στο περιβάλλον. Η παραδοσιακή εκμάθηση ρομπότ, αντίθετα, βασίζεται σε πολιτικές που βασίζονται σε δυναμικά συστήματα και μπορεί να αναλυθεί η ευστάθεια τους. Τέτοιες πολιτικές, ωστόσο, δεν είναι ούτε ευέλικτες ούτε γενικές και συνήθως λειτουργούν μόνο με καταστάσεις αισθητήρων ιδιοδεκτικότητας. Σε αυτή την εργασία, γεφυρώνεται το χάσμα μεταξύ των γενικών πολιτικών νευρωνικών δικτύων και των πολιτικών που βασίζονται σε δυναμικά συστήματα και παρουσιάζονται οι Αυτόνομες Νευρωνικές Δυναμικές Πολιτικές (Autonomous Neural Dynamic Policies ANDPs) οι οποίες: (α) βασίζονται σε αυτόνομα δυναμικά συστήματα, (β) παράγουν πάντα ασυμπτωτικά ευσταθείς συμπεριφορές και (γ) είναι πιο ευέλικτες από τις παραδοσιακές πολιτικές που βασίζονται σε δυναμικά συστήματα. Οι ANDPs είναι πλήρως διαφορίσιμες, ευέλικτες πολιτικές που μπορούν να χρησιμοποιηθούν τόσο για τη μάθηση μίμησης (Imitation Learning) όσο και για την ενισχυτική μάθηση (Reinforcement Learning), ενώ εξασφαλίζουν ασυμπτωτική ευστάθεια. Στην παρούσα διατριβή, διερευνούμε την ευελιξία και την ικανότητα των ANDPs μέσω μιας σειράς τριών πειραμάτων. Πρώτον, διεξάγουμε ένα πείραμα μίμησης τροχιών 2D για να συγκρίνουμε τις επιδόσεις των ANDPs με σύγχρονους αλγορίθμους της βιβλιογραφίας. Αυτό το πείραμα αποσκοπεί στην επίδειξη των δυνατοτήτων των ANDPs να αναπαράγουν με ακρίβεια πολύπλοκες τροχιές. Δεύτερον, διερευνούμε τις δυνατότητες των ANDPs σε σενάρια εκμάθησης πολλαπλών εργασιών χρησιμοποιώντας εικόνες ως εισόδους, αναδεικνύοντας έτσι την ικανότητά τους να μαθαίνουν πολλαπλές συμπεριφορές στο πλαίσιο μιας ενιαίας πολιτικής. Τονίζουμε την ευελιξία των ANDPs αποδεικνύοντας την ικανότητά τους να δέχονται αυθαίρετες εισόδους όπως εικόνες, ανοίγοντας δυνατότητες για εφαρμογές στον πραγματικό κόσμο. Τέλος, αξιολογούμε την ευρωστία και την αντιδραστικότητα των ANDPs μέσω αυστηρών δοκιμών, εξασφαλίζοντας την αξιοπιστία τους σε δυναμικά περιβάλλοντα. Επιπλέον, παρουσιάζουμε ένα πείραμα σε πραγματικό ρομπότ που επικεντρώνεται στην αξιολόγηση του κατά πόσον τα ANDPs μπορούν να μάθουν με επιτυχία εργασίες που απαιτούν έλεγχο προσανατολισμού καθώς και υψηλά επίπεδα ακρίβειας. Τα αποτελέσματα δείχνουν ότι τα ANDPs συνδυάζουν τα πλεονεκτήματα τόσο των μεθόδων που βασίζονται σε νευρωνικά δίκτυα όσο και των μεθόδων που βασίζονται σε δυναμικά συστήματα.
author2 Totsila, Dionis
author_facet Totsila, Dionis
Τοτσίλα, Διόνις
author Τοτσίλα, Διόνις
author_sort Τοτσίλα, Διόνις
title Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
title_short Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
title_full Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
title_fullStr Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
title_full_unstemmed Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
title_sort εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων
publishDate 2023
url https://hdl.handle.net/10889/25274
work_keys_str_mv AT totsiladionis ekmathēsērompotikōnelenktōnmechrēsēautonomōnstatherōndynamikōnsystēmatōn
AT totsiladionis learningroboticcontrollersviaautonomousneuraldynamicpolicies
_version_ 1771297302371106816
spelling nemertes-10889-252742023-07-01T03:59:20Z Εκμάθηση ρομποτικών ελεγκτών με χρήση αυτόνομων σταθερών δυναμικών συστημάτων Learning robotic controllers via autonomous neural dynamic policies Τοτσίλα, Διόνις Totsila, Dionis Μάθηση σε ρομπότ Lyapunov ευστάθεια Ενισχυτική μάθηση Imitation learning Dynamical system-based policies Autonomous Neural Dynamic Policies (ANDPs) Οι σύγχρονοι αλγόριθμοι αισθητικοκινητικής μάθησης προσφέρουν πολιτικές που συχνά μπορούν να παράγουν ασταθείς συμπεριφορές, προκαλώντας ζημιά στο ρομπότ ή/και στο περιβάλλον. Η παραδοσιακή εκμάθηση ρομπότ, αντίθετα, βασίζεται σε πολιτικές που βασίζονται σε δυναμικά συστήματα και μπορεί να αναλυθεί η ευστάθεια τους. Τέτοιες πολιτικές, ωστόσο, δεν είναι ούτε ευέλικτες ούτε γενικές και συνήθως λειτουργούν μόνο με καταστάσεις αισθητήρων ιδιοδεκτικότητας. Σε αυτή την εργασία, γεφυρώνεται το χάσμα μεταξύ των γενικών πολιτικών νευρωνικών δικτύων και των πολιτικών που βασίζονται σε δυναμικά συστήματα και παρουσιάζονται οι Αυτόνομες Νευρωνικές Δυναμικές Πολιτικές (Autonomous Neural Dynamic Policies ANDPs) οι οποίες: (α) βασίζονται σε αυτόνομα δυναμικά συστήματα, (β) παράγουν πάντα ασυμπτωτικά ευσταθείς συμπεριφορές και (γ) είναι πιο ευέλικτες από τις παραδοσιακές πολιτικές που βασίζονται σε δυναμικά συστήματα. Οι ANDPs είναι πλήρως διαφορίσιμες, ευέλικτες πολιτικές που μπορούν να χρησιμοποιηθούν τόσο για τη μάθηση μίμησης (Imitation Learning) όσο και για την ενισχυτική μάθηση (Reinforcement Learning), ενώ εξασφαλίζουν ασυμπτωτική ευστάθεια. Στην παρούσα διατριβή, διερευνούμε την ευελιξία και την ικανότητα των ANDPs μέσω μιας σειράς τριών πειραμάτων. Πρώτον, διεξάγουμε ένα πείραμα μίμησης τροχιών 2D για να συγκρίνουμε τις επιδόσεις των ANDPs με σύγχρονους αλγορίθμους της βιβλιογραφίας. Αυτό το πείραμα αποσκοπεί στην επίδειξη των δυνατοτήτων των ANDPs να αναπαράγουν με ακρίβεια πολύπλοκες τροχιές. Δεύτερον, διερευνούμε τις δυνατότητες των ANDPs σε σενάρια εκμάθησης πολλαπλών εργασιών χρησιμοποιώντας εικόνες ως εισόδους, αναδεικνύοντας έτσι την ικανότητά τους να μαθαίνουν πολλαπλές συμπεριφορές στο πλαίσιο μιας ενιαίας πολιτικής. Τονίζουμε την ευελιξία των ANDPs αποδεικνύοντας την ικανότητά τους να δέχονται αυθαίρετες εισόδους όπως εικόνες, ανοίγοντας δυνατότητες για εφαρμογές στον πραγματικό κόσμο. Τέλος, αξιολογούμε την ευρωστία και την αντιδραστικότητα των ANDPs μέσω αυστηρών δοκιμών, εξασφαλίζοντας την αξιοπιστία τους σε δυναμικά περιβάλλοντα. Επιπλέον, παρουσιάζουμε ένα πείραμα σε πραγματικό ρομπότ που επικεντρώνεται στην αξιολόγηση του κατά πόσον τα ANDPs μπορούν να μάθουν με επιτυχία εργασίες που απαιτούν έλεγχο προσανατολισμού καθώς και υψηλά επίπεδα ακρίβειας. Τα αποτελέσματα δείχνουν ότι τα ANDPs συνδυάζουν τα πλεονεκτήματα τόσο των μεθόδων που βασίζονται σε νευρωνικά δίκτυα όσο και των μεθόδων που βασίζονται σε δυναμικά συστήματα. State-of-the-art sensorimotor learning algorithms offer policies that can often produce unstable behaviors, damaging the robot and/or the environment. On the contrary, traditional robot learning relies on dynamical system based policies that can be analyzed for stability/safety. Such policies, however, are neither flexible nor generic and usually work only with proprioceptive sensor states. In this work, we bridge the gap between generic neural network policies and dynamical system based policies, and we introduce Autonomous Neural Dynamic Policies (ANDPs) that: (a) are based on autonomous dynamical systems, (b) always produce asymptotically stable behaviors, and (c) are more flexible than traditional stable dynamical system based policies. ANDPs are fully differentiable, flexible generic-policies that can be used for both imitation learning and reinforcement learning setups while ensuring asymptotic stability. In this paper, we investigate the flexibility and capacity of Artificial Neural Dynamic Policies (ANDPs) through a series of three experiments. Firstly, we conduct a 2D trajectory imitation experiment to compare the performance of ANDPs with state-of-the-art algorithms. This experiment aims to demonstrate the superior capabilities of ANDPs in accurately reproducing complex trajectories. Secondly, we explore the potential of ANDPs in multi-task learning scenarios by employing images as inputs, thereby showcasing their ability to learn multiple behaviors within a single policy. We emphasize the versatility of ANDPs by demonstrating their capacity to accept arbitrary inputs like images, opening up possibilities for real-world applications. Finally, we evaluate the robustness and reactiveness of ANDPs through rigorous testing, ensuring their reliability in dynamic environments. Additionally, we present a physical robot experiment that focuses on assessing whether ANDPs can successfully learn tasks that demand precise orientation control and high levels of precision. The results show that ANDPs combine the benefits of both neural network-based and dynamical system based methods. 2023-06-30T09:09:47Z 2023-06-30T09:09:47Z 2023-06 https://hdl.handle.net/10889/25274 el application/pdf