Hardware acceleration of stencil computations
Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computation...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | English |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15806 |
id |
nemertes-10889-15806 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-158062022-09-05T20:41:32Z Hardware acceleration of stencil computations Επιτάχυνση υπολογισμών στένσιλ σε υλικό Λευθεριώτης, Αιμίλιος Leftheriotis, Aimilios FPGA Reconfigurable computing Stencil High level synthesis Polyhedral model Αναδιατασσόμενη λογική Στένσιλ Υψηλού επιπέδου σύνθεση Πολυεδρικό μοντέλο Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computations and iterative stencil loops. One option is using hardware acceleration by creating a Field Programmable Gate Array (FPGA) design with High Level Synthesis (HLS). This thesis will focus on the 5-point Jacobi kernel. There are 9 different architectures proposed, with the most potent being the STSM Cascade architectures, which exploit both temporal and spatial parallelism. In the implementation section of the thesis, 4 of the 9 architectures are implemented on a Zynq7000 board, with both AXI4-Lite and AXI4-Stream protocol versions being created. The designs are clocked at 200MHz and use 32-bit fixed-point arithmetic with 16 decimal bits. In particular, the AXI4-Stream designs are using two clock domains, to overcome the fact that the Zynq7000 board cannot implement the AXI4-Stream elements in frequencies greater than 50MHz. On top of that, a plethora of experiments (over 150) were conducted on a Virtex-7 series FPGA. This design space exploration contained tuning of all the hyperparameters in each architecture. Additionally, parallel software implementations were explored, using polyhedral model transformations. Finally, both theoretical and experimental error analyses of the fixed-point configuration used in the experiments were carried out. Πυρήνες στένσιλ εμφανίζονται σε πολλά μαθηματικά προβλήματα όπως γραμμικές και μερικές διαφορικές εξισώσεις. Επιπρόσθετα, χρησιμοποιούνται ευρέως σε πολλούς τομείς, συμπεριλαμβανομένων την επεξεργασία εικόνας, υπολογιστική όραση και υπολογιστικές προσομοιώσεις. Για αυτό το λόγο, υπάρχει ανάγκη να επιταχυνθούν εφαρμογές στένσιλ υπολογισμών και οι επαναληπτικών στένσιλ βρόγχων. Μία δυνατότητα είναι η χρήση επιτάχυνσης με υλικό, δημιουργώντας ένα μοντέλο σε τεχνολογία FPGA μέσω Σύνθεσης σε Υψηλό Επίπεδο της ιεραρχίας σχεδιασμού. Η διπλωματική εργασία θα επικεντρωθεί στον πυρήνα Jacobi 5 σημείων. Προτείνονται 9 διαφορετικές αρχιτεκτονικές, από τις οποίες οι ισχυρότερες είναι οι STSM Cascade αρχιτεκτονικές, οι οποίες εκμαιεύουν τόσο την χρονική όσο και την χρονική παραλληλία. Στο κομμάτι των υλοποιήσεων της διπλωματικής, 4 από τις 9 αρχιτεκτονικές υλοποιούνται σε ένα Zynq7000 FPGA, ενώ δημιουργούνται εκδόσεις που χρησιμοποιούν τα πρωτόκολλα επικοινωνίας AXI4-Lite και AXI4-Stream. Οι αρχιτεκτονικές χρονίζονται στα 200MΗz και υλοποιούνται με 32-ψηφίων αριθμητική σταθερής υποδιαστολής με 16 δεκαδικά ψηφία. Επιπρόσθετα, μια πληθώρα πειραμάτων (πάνω από 150) εκτελέστηκαν σε ένα FPGA οικογένειας Virtex-7. Η εξερεύνηση αυτή περιλάμβανε την ρύθμιση όλων των παραμέτρων κάθε αρχιτεκτονικής. Επιπλέον, υλοποιήθηκαν επιταχύνσεις σε λογισμικό που αξιοποιεί την παραλληλία, χρησιμοποιώντας μετασχηματισμούς του πολυεδρικού μοντέλου. Τέλος έγινε θεωρητική και πειραματική ανάλυση σφάλματος που προέρχεται από την χρήση αριθμητικής σταθερής υποδιαστολής. 2022-02-21T07:13:57Z 2022-02-21T07:13:57Z 2022-02-17 http://hdl.handle.net/10889/15806 en application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
FPGA Reconfigurable computing Stencil High level synthesis Polyhedral model Αναδιατασσόμενη λογική Στένσιλ Υψηλού επιπέδου σύνθεση Πολυεδρικό μοντέλο |
spellingShingle |
FPGA Reconfigurable computing Stencil High level synthesis Polyhedral model Αναδιατασσόμενη λογική Στένσιλ Υψηλού επιπέδου σύνθεση Πολυεδρικό μοντέλο Λευθεριώτης, Αιμίλιος Hardware acceleration of stencil computations |
description |
Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computations and iterative stencil loops. One option is using hardware acceleration by creating a Field Programmable Gate Array (FPGA) design with High Level Synthesis (HLS). This thesis will focus on the 5-point Jacobi kernel. There are 9 different architectures proposed, with the most potent being the STSM Cascade architectures, which exploit both temporal and spatial parallelism. In the implementation section of the thesis, 4 of the 9 architectures are implemented on a Zynq7000 board, with both AXI4-Lite and AXI4-Stream protocol versions being created. The designs are clocked at 200MHz and use 32-bit fixed-point arithmetic with 16 decimal bits. In particular, the AXI4-Stream designs are using two clock domains, to overcome the fact that the Zynq7000 board cannot implement the AXI4-Stream elements in frequencies greater than 50MHz. On top of that, a plethora of experiments (over 150) were conducted on a Virtex-7 series FPGA. This design space exploration contained tuning of all the hyperparameters in each architecture. Additionally, parallel software implementations were explored, using polyhedral model transformations. Finally, both theoretical and experimental error analyses of the fixed-point configuration used in the experiments were carried out. |
author2 |
Leftheriotis, Aimilios |
author_facet |
Leftheriotis, Aimilios Λευθεριώτης, Αιμίλιος |
author |
Λευθεριώτης, Αιμίλιος |
author_sort |
Λευθεριώτης, Αιμίλιος |
title |
Hardware acceleration of stencil computations |
title_short |
Hardware acceleration of stencil computations |
title_full |
Hardware acceleration of stencil computations |
title_fullStr |
Hardware acceleration of stencil computations |
title_full_unstemmed |
Hardware acceleration of stencil computations |
title_sort |
hardware acceleration of stencil computations |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/15806 |
work_keys_str_mv |
AT leutheriōtēsaimilios hardwareaccelerationofstencilcomputations AT leutheriōtēsaimilios epitachynsēypologismōnstensilseyliko |
_version_ |
1771297333145763840 |