Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | English |
Έκδοση: |
2021
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/14963 |
id |
nemertes-10889-14963 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
Accelerators Bandit learning Beyond 5G Computation offloading Deep reinforcement learning FPGA High level synthesis Mixed integer programming Mobile edge computing Multi-armed bandits Real-time computing Reinforcement learning Task offloading 6G Επιταχυντές Υπολογιστική παρυφής |
spellingShingle |
Accelerators Bandit learning Beyond 5G Computation offloading Deep reinforcement learning FPGA High level synthesis Mixed integer programming Mobile edge computing Multi-armed bandits Real-time computing Reinforcement learning Task offloading 6G Επιταχυντές Υπολογιστική παρυφής Γερογιάννης, Γεράσιμος Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
description |
Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become even more sophisticated and operate with even smaller latencies, consistent with the data rates of the future generations of wireless communications. In this thesis, Reinforcement Learning is adopted as a solution mechanism for Task/Computation Offloading orchestration problems in next generation
networks and is investigated in two different perspectives. In the perspective of the employed algorithms, original work is presented regarding the extension and application of the Bandit Learning Discounted Upper Confidence Bound (D-UCB) algorithm for a swarm of Users offloading their computations to a set of Edge Servers. The resulting algorithm, Certainty Aggregation Reward Decomposition Upper Confidence Bound (CARD-D-UCB), efficiently tackles the Information Asymmetry and Uncertainty introduced when transitioning from the single user scenario to the swarm of users scenario and achieves performance comparable to the single user case. In the perspective of hardware acceleration of Deep Reinforcement Learning based orchestration algorithms, the design and implementation of an FPGA-based Accelerator for the real-time ultra-low latency solution of Mixed Integer Programming problems is presented. The design is implemented using High Level Synthesis. The Accelerator’s performance
is evaluated in a Task Offloading and Resource Allocation scenario, supported by 5G and beyond technologies. The implemented Accelerator achieves near optimal
performance in the selected use case while decreasing the training-inference execution latency to 4.3 μs per timestep which is decreased by an order of magnitude in comparison with a high-end CPU based implementation. |
author2 |
Gerogiannis, Gerasimos |
author_facet |
Gerogiannis, Gerasimos Γερογιάννης, Γεράσιμος |
author |
Γερογιάννης, Γεράσιμος |
author_sort |
Γερογιάννης, Γεράσιμος |
title |
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
title_short |
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
title_full |
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
title_fullStr |
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
title_full_unstemmed |
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
title_sort |
reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/14963 |
work_keys_str_mv |
AT gerogiannēsgerasimos reinforcementlearningfortaskoffloadinginnextgenerationnetworksalgorithmsandhardwareacceleration AT gerogiannēsgerasimos enischytikēmathēsēgiaekphortōsēypologismousediktyaepomenēsgeniasalgorithmoikaiepitachynsēylikou |
_version_ |
1799945001215459328 |
spelling |
nemertes-10889-149632022-09-06T05:12:51Z Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration Ενισχυτική μάθηση για εκφόρτωση υπολογισμού σε δίκτυα επόμενης γενιάς : αλγόριθμοι και επιτάχυνση υλικού Γερογιάννης, Γεράσιμος Gerogiannis, Gerasimos Accelerators Bandit learning Beyond 5G Computation offloading Deep reinforcement learning FPGA High level synthesis Mixed integer programming Mobile edge computing Multi-armed bandits Real-time computing Reinforcement learning Task offloading 6G Επιταχυντές Υπολογιστική παρυφής Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become even more sophisticated and operate with even smaller latencies, consistent with the data rates of the future generations of wireless communications. In this thesis, Reinforcement Learning is adopted as a solution mechanism for Task/Computation Offloading orchestration problems in next generation networks and is investigated in two different perspectives. In the perspective of the employed algorithms, original work is presented regarding the extension and application of the Bandit Learning Discounted Upper Confidence Bound (D-UCB) algorithm for a swarm of Users offloading their computations to a set of Edge Servers. The resulting algorithm, Certainty Aggregation Reward Decomposition Upper Confidence Bound (CARD-D-UCB), efficiently tackles the Information Asymmetry and Uncertainty introduced when transitioning from the single user scenario to the swarm of users scenario and achieves performance comparable to the single user case. In the perspective of hardware acceleration of Deep Reinforcement Learning based orchestration algorithms, the design and implementation of an FPGA-based Accelerator for the real-time ultra-low latency solution of Mixed Integer Programming problems is presented. The design is implemented using High Level Synthesis. The Accelerator’s performance is evaluated in a Task Offloading and Resource Allocation scenario, supported by 5G and beyond technologies. The implemented Accelerator achieves near optimal performance in the selected use case while decreasing the training-inference execution latency to 4.3 μs per timestep which is decreased by an order of magnitude in comparison with a high-end CPU based implementation. Η Υπολογιστική Παρυφής (Edge Computing) θα εξελιχθεί σε μια πλατφόρμα ή οποία αφενός θα επιτρέπει την εκτέλεση αλγορίθμων Τεχνητής Νοημοσύνης (Artificial Intelligence) και αφεταίρου θα ενορχηστρώνεται από αλγορίθμους Τεχνητής Νοημοσύνης στην εποχή που θα διαδεχθεί την 5η γενιά τηλεπικοινωνιακών δικτύων (beyond 5G/6G). Επομένως, η αναγκαιότητα για Εκφόρτωση Υπολογισμού (Task Offloading) σε κατανεμημένο εξειδικευμένο Υλικό Παρυφής (Edge Hardware) θα ενισχυθεί και οι αλγόριθμοι που ενορχηστρώνουν τις διαδικασίες εκφόρτωσης θα πρέπει αφενός να γίνουν πιο φιλοσοφημένοι και αφεταίρου θα πρέπει να εκτελούνται με ακόμα μικρότερη καθυστέρηση, ώστε να είναι συνεπείς με τους ρυθμούς μετάδοσης δεδομένων της μελλοντικής γενιάς ασύρματων τηλεπικοινωνιών. Σε αυτήν την διπλωματική εργασία, η Ενισχυτική Μάθηση (Reinforcement Learning) υιοθετείται ως μηχανισμός επίλυσης για προβλήματα ενορχήστρωσης της Εκφόρτωσης Υπολογισμού σε δίκτυα επόμενης γενιάς και μελετάται από δύο διαφορετικές οπτικές γωνίες. Από την σκοπιά των αλγορίθμων, παρουσιάζεται πρωτότυπη δουλειά σχετικά με την επέκταση και εφαρμογή του αλγορίθμου Μάθησης Κουλοχέρηδων (Bandit Learning) D-UCB σε ένα σμήνος από Χρήστες που εκφορτώνουν τους υπολογισμούς τους σε ένα σύνολο από Εξυπηρετητές Παρυφής (Edge Servers). Ο προκύπτων αλγόριθμος CARD-D-UCB αντιμετωπίζει αποτελεσματικά την Ασυμμετρία και Αβεβαιότητα Πληροφορίας (Information Asymmetry/Uncertainty) που εισάγεται κατά την μετάβαση από το σενάριο του ενός Χρήστη στο σμήνος Χρηστών και επιτυγχάνει απόδοση συγκρίσιμη με την περίπτωση του ενός Χρήστη. Από την σκοπιά της επιτάχυνσης υλικού των βασισμένων σε Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning) αλγορίθμων ενορχήστρωσης, παρουσιάζεται η σχεδίαση και υλοποίηση ενός Επιταχυντή (Accelerator) βασισμένο σε Προγραμματιζόμενη από Πεδίο Συστοιχία Πυλών (FPGA) για την υπερταχεία επίλυση προβλημάτων Μεικτού Ακέραιου Προγραμματισμού (Mixed Integer Programming). Η σχεδίαση επιτελείται με την χρήση Σύνθεσης Υψηλού Επιπέδου (High Level Synthesis). Η επίδοση του Επιταχυντή αξιολογείται σε ένα σενάριο Εκφόρτωσης Υπολογισμού και Κατανομής Πόρων (Task Offloading and Resource Allocation), το οποίο υποστηρίζεται από τεχνολογίες 5ης γενιάς και πέρα (5G and beyond). Ο υλοποιηθέντας Επιταχυντής επιτυγχάνει απόδοση πολύ κοντά στην βέλτιστη δυνατή ενώ ταυτόχρονα μειώνει την καθυστέρηση εκτέλεσης των διαδικασιών Εκπαίδευσης-Συμπεράσματος (Training-Inference) σε 4.3 μs, μια καθυστέρηση που είναι μικρότερη κατά μια τάξη μεγέθους σε σχέση με μια υλοποίηση βασισμένη σε σύγχρονη CPU υψηλών επιδόσεων. 2021-07-09T15:13:04Z 2021-07-09T15:13:04Z 2021-07-09 http://hdl.handle.net/10889/14963 en application/pdf |