Μελέτη αλγορίθμων άμεσης απόκρισης σε στρατηγικά περιβάλλοντα

Στην συγκεκριμένη διπλωματική εργασία ασχοληθήκαμε με την περίπτωση των Multi – Armed Bandit Προβλημάτων, παρουσιάσαμε τις βασικές τους έννοιες, το μοντέλο τους και έναν βασικό αλγόριθμο που προσπαθεί να δώσει λύσεις προς αυτή την κατεύθυνση, τον Exp3. Ειδικεύσαμε στην περίπτωση του αγοραστή – πωλη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κοτρώτσου, Παναγιώτα
Άλλοι συγγραφείς: Kotrotsou, Panagiota
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14112
Περιγραφή
Περίληψη:Στην συγκεκριμένη διπλωματική εργασία ασχοληθήκαμε με την περίπτωση των Multi – Armed Bandit Προβλημάτων, παρουσιάσαμε τις βασικές τους έννοιες, το μοντέλο τους και έναν βασικό αλγόριθμο που προσπαθεί να δώσει λύσεις προς αυτή την κατεύθυνση, τον Exp3. Ειδικεύσαμε στην περίπτωση του αγοραστή – πωλητών και πέρα από την κλασική περίπτωση, μελετήσαμε την περίπτωση των υπομονετικών αγοραστών. Εστιάσαμε σε έναν Online Αλγόριθμο δημοσίευσης τιμών και σε έναν δεύτερο Αλγόριθμο που τον εκτελεί και δημιουργεί τις εισόδους, παρουσιάζοντας το θεωρητικό τους υπόβαθρο και την μετρική αξιολόγησής τους (Regret). Οι αλγόριθμοι αυτοί υλοποιήθηκαν σε περιβάλλον Matlab και αξιολογήθηκε η συμπεριφορά τους, όσον αφορά το Regret και λαμβάνοντας υπόψη παραμέτρους, όπως ο χρονικός ορίζοντας, η χρησιμοποιούμενη κατανομή και η τιμή της μέγιστης υπομονής.