Βέλτιστος έλεγχος προδιαγεγραμμένης επίδοσης με τεχνικές ενισχυτικής μάθησης

Ο προσαρμοστικός και ο βέλτιστος έλεγχος συστημάτων αποτελούν δύο ώριμες μαθηματικές θεωρίες, οι οποίες -στον κλάδο των συστημάτων αυτόματου ελέγχου- έχουν συνεργαστεί για τον έλεγχο ποικίλων κλάσεων μη-γραμμικών συστημάτων, στοχεύοντας στην βελτιστοποίηση των επιδόσεων τους. Οι μέθοδοι που συνδέουν...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοτσίνης, Δημήτριος
Άλλοι συγγραφείς: Kotsinis, Dimitrios
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25180
Περιγραφή
Περίληψη:Ο προσαρμοστικός και ο βέλτιστος έλεγχος συστημάτων αποτελούν δύο ώριμες μαθηματικές θεωρίες, οι οποίες -στον κλάδο των συστημάτων αυτόματου ελέγχου- έχουν συνεργαστεί για τον έλεγχο ποικίλων κλάσεων μη-γραμμικών συστημάτων, στοχεύοντας στην βελτιστοποίηση των επιδόσεων τους. Οι μέθοδοι που συνδέουν τις δύο αυτές θεωρίες στηρίζονται στον προσαρμοστικό δυναμικό προγραμματισμό, που προσφέρει αλγορίθμους ενισχυτικής μάθησης για την εύρεση της βέλτιστης πολιτικής ελέγχου. Στην παρούσα διπλωματική εργασία, στόχος είναι η εύρεση μιας βέλτιστης πολιτικής ελέγχου για έναν ελεγκτή προδιαγεγραμμένης επίδοσης, σε ένα σύστημα Euler-Lagrange ενός βαθμού ελευθερίας. Ο σκοπός της προδιαγεγραμμένης επίδοσης είναι η σύγκλιση του σφάλματος παρακολούθησης της εξόδου σε ένα αποφασισμένο φραγμένο σύνολο τιμών, με ταχύτητα σύγκλισης μεγαλύτερη από την προκαθορισμένη τιμή. Επιπλέον, η κύρια ιδέα του σχεδιασμού του ελεγκτή, είναι ο μετασχηματισμός του φραγμένου συστήματος σε μη φραγμένο, μετασκευάζοντας κατάλληλα το σφάλμα παρακολούθησης. Στο συγκεκριμένο φυσικό σύστημα Euler-Lagrange, στόχος είναι ο εντοπισμός ενός ελεγκτή ώστε να βελτιώσουμε την απόκριση μίας παραμέτρου και της εισόδου του, ορίζοντας μία κατάλληλη συνάρτηση κόστους. Για να βρούμε την βέλτιστη πολιτική ελέγχου, χρησιμοποιούμε έναν επαναληπτικό αλγόριθμο ενισχυτικής μάθησης με την μέθοδο των ελαχίστων τετραγώνων, ο οποίος προσεγγίζει την λύση της HJB εξίσωσης. Ένα μοντέλο νευρωνικού δικτύου χρησιμοποιείται για να προσεγγίσει την λύση αυτή, όπου τα βάρη του ρυθμίζονται του σε κάθε επανάληψη της μεθόδου. Ακόμα να επισημάνουμε ότι, ο αλγόριθμος διασφαλίζει ότι τα σήματα του κλειστού βρόγχου του συστήματος παραμένουν φραγμένα στο κλειστό σύνολο που έχουμε ορίσει εκ των προτέρων. Τέλος, μετά την σύγκλιση των βαρών του νευρωνικού δικτύου, συγκρίνουμε αν με την βέλτιστη πολιτική έχουμε πετύχει μικρότερη τιμή στην συνάρτησης κόστους απ’ ότι με τον αρχικό αποδεκτό ελεγκτή.