Ανάπτυξη αλγορίθμου βαθιάς ενισχυτικής μάθησης στο παιχνίδι MsPacman της πλατφόρμας Atari

Η παρούσα διπλωματική εργασία πραγματεύεται την ανάπτυξη αλγορίθμου βαθιάς ενισχυτικής μάθησης σε περιβάλλον παιχνιδιού. Στο πέρασμα των χρόνων, η τεχνολογική κοινότητα επιδιώκει να εντάξει τη συμπεριφορά των ζωντανών οργανισμών, η οποία μεταβάλλεται κατά τη διάρκεια της ζωής τους μέσω της εκπαίδευσ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καραμπίνης, Ιωάννης
Άλλοι συγγραφείς: Karampinis, Ioannis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14032
Περιγραφή
Περίληψη:Η παρούσα διπλωματική εργασία πραγματεύεται την ανάπτυξη αλγορίθμου βαθιάς ενισχυτικής μάθησης σε περιβάλλον παιχνιδιού. Στο πέρασμα των χρόνων, η τεχνολογική κοινότητα επιδιώκει να εντάξει τη συμπεριφορά των ζωντανών οργανισμών, η οποία μεταβάλλεται κατά τη διάρκεια της ζωής τους μέσω της εκπαίδευσης, στα διάφορα τεχνολογικά επιτεύγματα. Ο χώρος της μηχανικής μάθησης και ειδικότερα της ενισχυτικής μάθησης, βασιζόμενος στο παραπάνω δόγμα, δημιουργεί πράκτορες οι οποίοι δύναται να μαθαίνουν διαμέσου της συνεχούς αλληλεπίδρασης με το περιβάλλον. Ωστόσο, τα σύγχρονα προβλήματα εξαιτίας της μεγάλης πολυπλοκότητάς τους, έχουν θεσπίσει ορισμένους περιορισμούς ως προς την εφαρμογή των αλγορίθμων της ενισχυτικής μάθησης. Η λύση δίδεται μέσω της μίμησης ενός βιολογικού μηχανισμού, των νευρωνικών δικτύων. Η αποτελεσματική εφαρμογή τους σε προβλήματα μεγάλης διαστασιμότητας του ευρύτερου χώρου της τεχνητής νοημοσύνης οδήγησε στην ενσωμάτωσή τους στους αλγορίθμους ενισχυτικής μάθησης. Δημιουργήθηκε με αυτόν τον τρόπο ένα νέο επιστημονικό πεδίο, αυτό της βαθιάς ενισχυτικής μάθησης. Στα πλαίσια της εργασίας υλοποιήθηκαν παραλλαγές των αλγορίθμων βαθιάς ενισχυτικής μάθησης DQN, double DQN, duel DQN και noisy DQN, αναπτύσσοντας τους αντίστοιχους πράκτορες. Το περιβάλλον αλληλεπίδρασης που επιλέχθηκε ήταν κλασσικό παιχνίδι MsPacman της πλατφόρμας Atari 2600. Ο εκάστοτε πράκτορας σε μία ανθρωποκεντρική προσέγγιση, εκπαιδεύεται με τη βοήθεια οπτικών παρατηρήσεων και της ανταμοιβής που δέχεται από το περιβάλλον. Βασικός σκοπός είναι η εκμάθηση του μοντέλου του περιβάλλοντος, που συνοδεύεται με υψηλή συνολική ανταμοιβή στην ολοκλήρωση κάθε παιχνιδιού. Οι πράκτορες αφού εκπαιδεύτηκαν για ορισμένο χρονικό διάστημα, αξιολογήθηκαν ως προς την απόδοσή τους. Στο τέλος της εργασίας παρουσιάζονται τα πειραματικά αποτελέσματα της μελέτης, ενώ παρατίθενται προτάσεις για μελλοντικές βελτιώσεις.