Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης

Ο προσαρμοστικός και ο βέλτιστος έλεγχος συστημάτων αποτελούν δύο ώριμες μαθηματικές θεωρίες, οι οποίες -στον κλάδο των συστημάτων αυτόματου ελέγχου- έχουν συνεργαστεί για τον έλεγχο ποικίλων κλάσεων μη-γραμμικών συστημάτων, στοχεύοντας στην βελτιστοποίηση των επιδόσεων τους. Οι μέθοδοι που συνδέουν...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοτσίνης, Δημήτριος
Άλλοι συγγραφείς: Kotsinis, Dimitrios
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25180
id nemertes-10889-25180
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Αποδεκτός ελεγκτής
Ελεγκτής προδιαγεγραμμένης επίδοσης
Βέλτιστη πολιτική ελέγχου
Προσαρμοστικός δυναμικός προγραμματισμός
Συστήματα Euler-Lagrange
Admissible control
Prescribed perfomance control
Optimal control policy
Adaptive dynamic programming
Euler-Lagrange systems
spellingShingle Αποδεκτός ελεγκτής
Ελεγκτής προδιαγεγραμμένης επίδοσης
Βέλτιστη πολιτική ελέγχου
Προσαρμοστικός δυναμικός προγραμματισμός
Συστήματα Euler-Lagrange
Admissible control
Prescribed perfomance control
Optimal control policy
Adaptive dynamic programming
Euler-Lagrange systems
Κοτσίνης, Δημήτριος
Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
description Ο προσαρμοστικός και ο βέλτιστος έλεγχος συστημάτων αποτελούν δύο ώριμες μαθηματικές θεωρίες, οι οποίες -στον κλάδο των συστημάτων αυτόματου ελέγχου- έχουν συνεργαστεί για τον έλεγχο ποικίλων κλάσεων μη-γραμμικών συστημάτων, στοχεύοντας στην βελτιστοποίηση των επιδόσεων τους. Οι μέθοδοι που συνδέουν τις δύο αυτές θεωρίες στηρίζονται στον προσαρμοστικό δυναμικό προγραμματισμό, που προσφέρει αλγορίθμους ενισχυτικής μάθησης για την εύρεση της βέλτιστης πολιτικής ελέγχου. Στην παρούσα διπλωματική εργασία, στόχος είναι η εύρεση μιας βέλτιστης πολιτικής ελέγχου για έναν ελεγκτή προδιαγεγραμμένης επίδοσης, σε ένα σύστημα Euler-Lagrange ενός βαθμού ελευθερίας. Ο σκοπός της προδιαγεγραμμένης επίδοσης είναι η σύγκλιση του σφάλματος παρακολούθησης της εξόδου σε ένα αποφασισμένο φραγμένο σύνολο τιμών, με ταχύτητα σύγκλισης μεγαλύτερη από την προκαθορισμένη τιμή. Επιπλέον, η κύρια ιδέα του σχεδιασμού του ελεγκτή, είναι ο μετασχηματισμός του φραγμένου συστήματος σε μη φραγμένο, μετασκευάζοντας κατάλληλα το σφάλμα παρακολούθησης. Στο συγκεκριμένο φυσικό σύστημα Euler-Lagrange, στόχος είναι ο εντοπισμός ενός ελεγκτή ώστε να βελτιώσουμε την απόκριση μίας παραμέτρου και της εισόδου του, ορίζοντας μία κατάλληλη συνάρτηση κόστους. Για να βρούμε την βέλτιστη πολιτική ελέγχου, χρησιμοποιούμε έναν επαναληπτικό αλγόριθμο ενισχυτικής μάθησης με την μέθοδο των ελαχίστων τετραγώνων, ο οποίος προσεγγίζει την λύση της HJB εξίσωσης. Ένα μοντέλο νευρωνικού δικτύου χρησιμοποιείται για να προσεγγίσει την λύση αυτή, όπου τα βάρη του ρυθμίζονται του σε κάθε επανάληψη της μεθόδου. Ακόμα να επισημάνουμε ότι, ο αλγόριθμος διασφαλίζει ότι τα σήματα του κλειστού βρόγχου του συστήματος παραμένουν φραγμένα στο κλειστό σύνολο που έχουμε ορίσει εκ των προτέρων. Τέλος, μετά την σύγκλιση των βαρών του νευρωνικού δικτύου, συγκρίνουμε αν με την βέλτιστη πολιτική έχουμε πετύχει μικρότερη τιμή στην συνάρτησης κόστους απ’ ότι με τον αρχικό αποδεκτό ελεγκτή.
author2 Kotsinis, Dimitrios
author_facet Kotsinis, Dimitrios
Κοτσίνης, Δημήτριος
author Κοτσίνης, Δημήτριος
author_sort Κοτσίνης, Δημήτριος
title Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
title_short Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
title_full Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
title_fullStr Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
title_full_unstemmed Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
title_sort βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης
publishDate 2023
url https://hdl.handle.net/10889/25180
work_keys_str_mv AT kotsinēsdēmētrios beltistoselenchosprodiagegrammenēsepidosēsmetechnikesenischytikēsmathēsēs
AT kotsinēsdēmētrios optimalprescribedperfomancecontrolwithreinforcmentlearningmethods
_version_ 1771297351919468544
spelling nemertes-10889-251802023-06-27T04:00:44Z Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης Optimal prescribed perfomance control with reinforcment learning methods Κοτσίνης, Δημήτριος Kotsinis, Dimitrios Αποδεκτός ελεγκτής Ελεγκτής προδιαγεγραμμένης επίδοσης Βέλτιστη πολιτική ελέγχου Προσαρμοστικός δυναμικός προγραμματισμός Συστήματα Euler-Lagrange Admissible control Prescribed perfomance control Optimal control policy Adaptive dynamic programming Euler-Lagrange systems Ο προσαρμοστικός και ο βέλτιστος έλεγχος συστημάτων αποτελούν δύο ώριμες μαθηματικές θεωρίες, οι οποίες -στον κλάδο των συστημάτων αυτόματου ελέγχου- έχουν συνεργαστεί για τον έλεγχο ποικίλων κλάσεων μη-γραμμικών συστημάτων, στοχεύοντας στην βελτιστοποίηση των επιδόσεων τους. Οι μέθοδοι που συνδέουν τις δύο αυτές θεωρίες στηρίζονται στον προσαρμοστικό δυναμικό προγραμματισμό, που προσφέρει αλγορίθμους ενισχυτικής μάθησης για την εύρεση της βέλτιστης πολιτικής ελέγχου. Στην παρούσα διπλωματική εργασία, στόχος είναι η εύρεση μιας βέλτιστης πολιτικής ελέγχου για έναν ελεγκτή προδιαγεγραμμένης επίδοσης, σε ένα σύστημα Euler-Lagrange ενός βαθμού ελευθερίας. Ο σκοπός της προδιαγεγραμμένης επίδοσης είναι η σύγκλιση του σφάλματος παρακολούθησης της εξόδου σε ένα αποφασισμένο φραγμένο σύνολο τιμών, με ταχύτητα σύγκλισης μεγαλύτερη από την προκαθορισμένη τιμή. Επιπλέον, η κύρια ιδέα του σχεδιασμού του ελεγκτή, είναι ο μετασχηματισμός του φραγμένου συστήματος σε μη φραγμένο, μετασκευάζοντας κατάλληλα το σφάλμα παρακολούθησης. Στο συγκεκριμένο φυσικό σύστημα Euler-Lagrange, στόχος είναι ο εντοπισμός ενός ελεγκτή ώστε να βελτιώσουμε την απόκριση μίας παραμέτρου και της εισόδου του, ορίζοντας μία κατάλληλη συνάρτηση κόστους. Για να βρούμε την βέλτιστη πολιτική ελέγχου, χρησιμοποιούμε έναν επαναληπτικό αλγόριθμο ενισχυτικής μάθησης με την μέθοδο των ελαχίστων τετραγώνων, ο οποίος προσεγγίζει την λύση της HJB εξίσωσης. Ένα μοντέλο νευρωνικού δικτύου χρησιμοποιείται για να προσεγγίσει την λύση αυτή, όπου τα βάρη του ρυθμίζονται του σε κάθε επανάληψη της μεθόδου. Ακόμα να επισημάνουμε ότι, ο αλγόριθμος διασφαλίζει ότι τα σήματα του κλειστού βρόγχου του συστήματος παραμένουν φραγμένα στο κλειστό σύνολο που έχουμε ορίσει εκ των προτέρων. Τέλος, μετά την σύγκλιση των βαρών του νευρωνικού δικτύου, συγκρίνουμε αν με την βέλτιστη πολιτική έχουμε πετύχει μικρότερη τιμή στην συνάρτησης κόστους απ’ ότι με τον αρχικό αποδεκτό ελεγκτή. Adaptive and optimal control are two mature mathematical theories, which -in the field of automatic control systems- have collaborated in order to control various classes of non-linear systems and to optimize their performance. The methods that connect these theories are based on adaptive dynamic programming that offers reinforcement learning algorithms for the discovery of the optimal control policy. In this master’s thesis the goal is to find an optimal control policy for a prescribed performance controller in a Euler-Lagrange system with one degree of freedom. The purpose of the prescribed controller is the convergence of the output tracking error in a predetermined bounded set with speed greater than the prescribed value. Moreover, the main idea behind the controller’s design is the transformation of the constraint system into an unconstrained one. This goal can be achieved by modifying the output tracking error. In order to control the physical system, we search a controller that enhances the transient and steady state of one of its parameters -specifically the transformed error signal- and its inputs, which is defined by a cost function. To the end of finding an optimal control policy, we choose an iterative reinforcement learning algorithm -based on the least squares method- that approximates the solution to the HJB equation. In pursuance of the solution, we use a neural network model, with one hidden layer and polynomial activation functions, in which the weights are adjusted in each iteration of the algorithm. However, it is important to point out that the estimated method ensures the physical system’s closed loop signals that remain bounded to a closed predefined set. To conclude, after the weights are converged, we compare the results in order to ascertain whether the value of the cost function -with the optimal policy- is lower the one with the initial admissible controller. 2023-06-26T07:29:01Z 2023-06-26T07:29:01Z 2023-06-21 https://hdl.handle.net/10889/25180 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf