Summary: | Η συγκεκριμένη διπλωματική εργασία εξετάζει την χρήση μεθόδων μηχανικής μάθησης στο επιτραπέζιο στρατέγκο. Η μηχανική μάθηση κυριαρχεί στον τομέα της τεχνητής νοημοσύνης τα τελευταία χρονιά. Μέθοδοι ενισχυτικής αλλά και επιβλεπόμενης μάθησης έχουν πέτυχει υπεράνθρωπη απόδοση σε πολλά διαφορετικά παιχνίδια αλλά και άλλες εφαρμογές. Σε περιβάλλοντα περιορισμένης πληροφορίας όπως το στρατέγκο η χρήση μεθόδων μηχανικής μάθησης είναι σημαντικά πιο περιορισμένη καθώς παρουσιάζουν ιδιαίτερους περιορισμούς που δεν είναι παρόντες στις περισσότερες εφαρμογές.
Αρχικά γίνεται μια περιγραφή της συμβατικής στρατηγικής στο στρατέγκο και των ιδιαιτεροτήτων που παρουσιάζει σε σχέση με αλλά παιχνίδια στρατηγικής. Παρουσιάζεται επίσης μια ανάλυση της πολυπλοκότητας του δέντρου παιχνιδιού και της αρχικής κατάστασης και μια σύγκριση με αλλά δημοφιλή παιχνίδια στρατηγικής.
Στη συνέχεια πραγματοποιείται μια σύντομη ανάλυση της πιο πρόσφατης σχετικής ερευνάς σχετικά με την ανάπτυξη προγραμμάτων στρατηγικής στο στρατέγκο. Ιδιαίτερη αναφορά γίνεται σε μεθόδους αναζήτησης που μπορούν να χρησιμοποιηθούν σε παιχνίδια περιορισμένης πληροφορίας οι οποίες έχουν εφαρμοστεί και στο στρατέγκο με σχετική επιτυχία.
Έπειτα παρουσιάζεται η θεωρητική ανάλυση σχετικά με τη βέλτιστη πολιτική σε περιβάλλοντα περιορισμένης πληροφορίας, δηλαδή την εύρεση μιας πολιτικής η οποία ανήκει σε ένα σημείο ισορροπίας Nash, οπού κανένας παίκτης δεν θα επέλεγε να αποκλίνει από την επιλεγμένη στρατηγική.
Για την εφαρμογή επιβλεπόμενης μάθησης στο στρατέγκο, η είσοδος του δικτύου πρέπει να κατασκευαστεί με τέτοιο τρόπο ώστε να διατηρηθούν όλες οι σημαντικές πληροφορίες για την οπτική του παίκτη για το παιχνίδι. Αρχικά περιγράφεται η ιδιαίτερη πολυπλοκότητα της κατάστασης του ταμπλό στο στρατέγκο και στην συνέχεια προτείνεται μια μέθοδος αναπαράστασης της κατάστασης κατάλληλη για μηχανική μάθηση. Η έξοδος του δικτύου διαμορφώνεται ώστε να αντιπροσωπεύει όλες τις πιθανές κινήσεις του παίκτη σε μια κατάσταση του παιχνιδιού.
Ένα συνελικτικό νευρωνικό δίκτυο και ένα δίκτυο Residual αρχιτεκτονικής εκπαιδευτήκαν σε καταστάσεις παιχνιδιών προερχόμενες από παιχνίδια μεταξύ ανθρώπων. Οι αρχιτεκτονικές που επιλέχτηκαν περιγράφονται αναλυτικά όπως και η διαδικασία της εκπαίδευσης. Η απόδοση της πολιτικής καθοδηγουμένης από τα νευρωνικά δίκτυα εξετάστηκε σε παιχνίδια εναντίον βασικών μεθόδων βασισμένων σε αναζήτηση και νευρωνικά δίκτυα εκπαιδευμένα σε διαφορετικά δεδομένα.
Η εφαρμογή μεθόδων ενισχυτικής μάθησης σε παιχνίδια περιορισμένης πληροφορίας δεν είναι διαδεδομένη και περιορίζεται συνήθως σε εφαρμογές με μικρή πολυπλοκότητα. Αρχικά γίνεται μια σύντομη ανάλυση των μαρκοβιανών διαδικασιών αποφάσεων που χρησιμοποιούνται για την μοντελοποίηση του περιβάλλοντος και της βασικής θεωρίας της ενισχυτικής μάθησης. Στην συνέχεια παρουσιάζεται η μέθοδος Neural Fictitious Self-Play η οποία συγκλίνει σε ισορροπία Nash σε παιχνίδια περιορισμένης πληροφορίας μηδενικού αθροίσματος δυο παικτών και η χρήση της εξετάζεται για την περίπτωση του στρατέγκο. Τα αποτελέσματα της μεθόδου αξιολογούνται σε σχέση με την πολιτική που προέκυψε μέσω επιβλεπομένης μάθησης και τις μεθόδους βασισμένες σε αναζήτηση που χρησιμοποιήθηκαν και προηγουμένως.
|