Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration

Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Γερογιάννης, Γεράσιμος
Άλλοι συγγραφείς: Gerogiannis, Gerasimos
Γλώσσα:English
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14963
id nemertes-10889-14963
record_format dspace
institution UPatras
collection Nemertes
language English
topic Accelerators
Bandit learning
Beyond 5G
Computation offloading
Deep reinforcement learning
FPGA
High level synthesis
Mixed integer programming
Mobile edge computing
Multi-armed bandits
Real-time computing
Reinforcement learning
Task offloading
6G
Επιταχυντές
Υπολογιστική παρυφής
spellingShingle Accelerators
Bandit learning
Beyond 5G
Computation offloading
Deep reinforcement learning
FPGA
High level synthesis
Mixed integer programming
Mobile edge computing
Multi-armed bandits
Real-time computing
Reinforcement learning
Task offloading
6G
Επιταχυντές
Υπολογιστική παρυφής
Γερογιάννης, Γεράσιμος
Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
description Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become even more sophisticated and operate with even smaller latencies, consistent with the data rates of the future generations of wireless communications. In this thesis, Reinforcement Learning is adopted as a solution mechanism for Task/Computation Offloading orchestration problems in next generation networks and is investigated in two different perspectives. In the perspective of the employed algorithms, original work is presented regarding the extension and application of the Bandit Learning Discounted Upper Confidence Bound (D-UCB) algorithm for a swarm of Users offloading their computations to a set of Edge Servers. The resulting algorithm, Certainty Aggregation Reward Decomposition Upper Confidence Bound (CARD-D-UCB), efficiently tackles the Information Asymmetry and Uncertainty introduced when transitioning from the single user scenario to the swarm of users scenario and achieves performance comparable to the single user case. In the perspective of hardware acceleration of Deep Reinforcement Learning based orchestration algorithms, the design and implementation of an FPGA-based Accelerator for the real-time ultra-low latency solution of Mixed Integer Programming problems is presented. The design is implemented using High Level Synthesis. The Accelerator’s performance is evaluated in a Task Offloading and Resource Allocation scenario, supported by 5G and beyond technologies. The implemented Accelerator achieves near optimal performance in the selected use case while decreasing the training-inference execution latency to 4.3 μs per timestep which is decreased by an order of magnitude in comparison with a high-end CPU based implementation.
author2 Gerogiannis, Gerasimos
author_facet Gerogiannis, Gerasimos
Γερογιάννης, Γεράσιμος
author Γερογιάννης, Γεράσιμος
author_sort Γερογιάννης, Γεράσιμος
title Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
title_short Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
title_full Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
title_fullStr Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
title_full_unstemmed Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
title_sort reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration
publishDate 2021
url http://hdl.handle.net/10889/14963
work_keys_str_mv AT gerogiannēsgerasimos reinforcementlearningfortaskoffloadinginnextgenerationnetworksalgorithmsandhardwareacceleration
AT gerogiannēsgerasimos enischytikēmathēsēgiaekphortōsēypologismousediktyaepomenēsgeniasalgorithmoikaiepitachynsēylikou
_version_ 1799945001215459328
spelling nemertes-10889-149632022-09-06T05:12:51Z Reinforcement learning for task offloading in next generation networks : algorithms and hardware acceleration Ενισχυτική μάθηση για εκφόρτωση υπολογισμού σε δίκτυα επόμενης γενιάς : αλγόριθμοι και επιτάχυνση υλικού Γερογιάννης, Γεράσιμος Gerogiannis, Gerasimos Accelerators Bandit learning Beyond 5G Computation offloading Deep reinforcement learning FPGA High level synthesis Mixed integer programming Mobile edge computing Multi-armed bandits Real-time computing Reinforcement learning Task offloading 6G Επιταχυντές Υπολογιστική παρυφής Mobile Edge Computing is going to evolve in a platform both AI-enabled and AI-enabling in the beyond 5G network era. Thus, the need for offloading tasks to distributed dedicated edge hardware is only going to increase and the orchestration algorithms governing the offloading operations shall become even more sophisticated and operate with even smaller latencies, consistent with the data rates of the future generations of wireless communications. In this thesis, Reinforcement Learning is adopted as a solution mechanism for Task/Computation Offloading orchestration problems in next generation networks and is investigated in two different perspectives. In the perspective of the employed algorithms, original work is presented regarding the extension and application of the Bandit Learning Discounted Upper Confidence Bound (D-UCB) algorithm for a swarm of Users offloading their computations to a set of Edge Servers. The resulting algorithm, Certainty Aggregation Reward Decomposition Upper Confidence Bound (CARD-D-UCB), efficiently tackles the Information Asymmetry and Uncertainty introduced when transitioning from the single user scenario to the swarm of users scenario and achieves performance comparable to the single user case. In the perspective of hardware acceleration of Deep Reinforcement Learning based orchestration algorithms, the design and implementation of an FPGA-based Accelerator for the real-time ultra-low latency solution of Mixed Integer Programming problems is presented. The design is implemented using High Level Synthesis. The Accelerator’s performance is evaluated in a Task Offloading and Resource Allocation scenario, supported by 5G and beyond technologies. The implemented Accelerator achieves near optimal performance in the selected use case while decreasing the training-inference execution latency to 4.3 μs per timestep which is decreased by an order of magnitude in comparison with a high-end CPU based implementation. Η Υπολογιστική Παρυφής (Edge Computing) θα εξελιχθεί σε μια πλατφόρμα ή οποία αφενός θα επιτρέπει την εκτέλεση αλγορίθμων Τεχνητής Νοημοσύνης (Artificial Intelligence) και αφεταίρου θα ενορχηστρώνεται από αλγορίθμους Τεχνητής Νοημοσύνης στην εποχή που θα διαδεχθεί την 5η γενιά τηλεπικοινωνιακών δικτύων (beyond 5G/6G). Επομένως, η αναγκαιότητα για Εκφόρτωση Υπολογισμού (Task Offloading) σε κατανεμημένο εξειδικευμένο Υλικό Παρυφής (Edge Hardware) θα ενισχυθεί και οι αλγόριθμοι που ενορχηστρώνουν τις διαδικασίες εκφόρτωσης θα πρέπει αφενός να γίνουν πιο φιλοσοφημένοι και αφεταίρου θα πρέπει να εκτελούνται με ακόμα μικρότερη καθυστέρηση, ώστε να είναι συνεπείς με τους ρυθμούς μετάδοσης δεδομένων της μελλοντικής γενιάς ασύρματων τηλεπικοινωνιών. Σε αυτήν την διπλωματική εργασία, η Ενισχυτική Μάθηση (Reinforcement Learning) υιοθετείται ως μηχανισμός επίλυσης για προβλήματα ενορχήστρωσης της Εκφόρτωσης Υπολογισμού σε δίκτυα επόμενης γενιάς και μελετάται από δύο διαφορετικές οπτικές γωνίες. Από την σκοπιά των αλγορίθμων, παρουσιάζεται πρωτότυπη δουλειά σχετικά με την επέκταση και εφαρμογή του αλγορίθμου Μάθησης Κουλοχέρηδων (Bandit Learning) D-UCB σε ένα σμήνος από Χρήστες που εκφορτώνουν τους υπολογισμούς τους σε ένα σύνολο από Εξυπηρετητές Παρυφής (Edge Servers). Ο προκύπτων αλγόριθμος CARD-D-UCB αντιμετωπίζει αποτελεσματικά την Ασυμμετρία και Αβεβαιότητα Πληροφορίας (Information Asymmetry/Uncertainty) που εισάγεται κατά την μετάβαση από το σενάριο του ενός Χρήστη στο σμήνος Χρηστών και επιτυγχάνει απόδοση συγκρίσιμη με την περίπτωση του ενός Χρήστη. Από την σκοπιά της επιτάχυνσης υλικού των βασισμένων σε Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning) αλγορίθμων ενορχήστρωσης, παρουσιάζεται η σχεδίαση και υλοποίηση ενός Επιταχυντή (Accelerator) βασισμένο σε Προγραμματιζόμενη από Πεδίο Συστοιχία Πυλών (FPGA) για την υπερταχεία επίλυση προβλημάτων Μεικτού Ακέραιου Προγραμματισμού (Mixed Integer Programming). Η σχεδίαση επιτελείται με την χρήση Σύνθεσης Υψηλού Επιπέδου (High Level Synthesis). Η επίδοση του Επιταχυντή αξιολογείται σε ένα σενάριο Εκφόρτωσης Υπολογισμού και Κατανομής Πόρων (Task Offloading and Resource Allocation), το οποίο υποστηρίζεται από τεχνολογίες 5ης γενιάς και πέρα (5G and beyond). Ο υλοποιηθέντας Επιταχυντής επιτυγχάνει απόδοση πολύ κοντά στην βέλτιστη δυνατή ενώ ταυτόχρονα μειώνει την καθυστέρηση εκτέλεσης των διαδικασιών Εκπαίδευσης-Συμπεράσματος (Training-Inference) σε 4.3 μs, μια καθυστέρηση που είναι μικρότερη κατά μια τάξη μεγέθους σε σχέση με μια υλοποίηση βασισμένη σε σύγχρονη CPU υψηλών επιδόσεων. 2021-07-09T15:13:04Z 2021-07-09T15:13:04Z 2021-07-09 http://hdl.handle.net/10889/14963 en application/pdf