Hardware acceleration of stencil computations

Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computation...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λευθεριώτης, Αιμίλιος
Άλλοι συγγραφείς: Leftheriotis, Aimilios
Γλώσσα:English
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15806
id nemertes-10889-15806
record_format dspace
spelling nemertes-10889-158062022-09-05T20:41:32Z Hardware acceleration of stencil computations Επιτάχυνση υπολογισμών στένσιλ σε υλικό Λευθεριώτης, Αιμίλιος Leftheriotis, Aimilios FPGA Reconfigurable computing Stencil High level synthesis Polyhedral model Αναδιατασσόμενη λογική Στένσιλ Υψηλού επιπέδου σύνθεση Πολυεδρικό μοντέλο Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computations and iterative stencil loops. One option is using hardware acceleration by creating a Field Programmable Gate Array (FPGA) design with High Level Synthesis (HLS). This thesis will focus on the 5-point Jacobi kernel. There are 9 different architectures proposed, with the most potent being the STSM Cascade architectures, which exploit both temporal and spatial parallelism. In the implementation section of the thesis, 4 of the 9 architectures are implemented on a Zynq7000 board, with both AXI4-Lite and AXI4-Stream protocol versions being created. The designs are clocked at 200MHz and use 32-bit fixed-point arithmetic with 16 decimal bits. In particular, the AXI4-Stream designs are using two clock domains, to overcome the fact that the Zynq7000 board cannot implement the AXI4-Stream elements in frequencies greater than 50MHz. On top of that, a plethora of experiments (over 150) were conducted on a Virtex-7 series FPGA. This design space exploration contained tuning of all the hyperparameters in each architecture. Additionally, parallel software implementations were explored, using polyhedral model transformations. Finally, both theoretical and experimental error analyses of the fixed-point configuration used in the experiments were carried out. Πυρήνες στένσιλ εμφανίζονται σε πολλά μαθηματικά προβλήματα όπως γραμμικές και μερικές διαφορικές εξισώσεις. Επιπρόσθετα, χρησιμοποιούνται ευρέως σε πολλούς τομείς, συμπεριλαμβανομένων την επεξεργασία εικόνας, υπολογιστική όραση και υπολογιστικές προσομοιώσεις. Για αυτό το λόγο, υπάρχει ανάγκη να επιταχυνθούν εφαρμογές στένσιλ υπολογισμών και οι επαναληπτικών στένσιλ βρόγχων. Μία δυνατότητα είναι η χρήση επιτάχυνσης με υλικό, δημιουργώντας ένα μοντέλο σε τεχνολογία FPGA μέσω Σύνθεσης σε Υψηλό Επίπεδο της ιεραρχίας σχεδιασμού. Η διπλωματική εργασία θα επικεντρωθεί στον πυρήνα Jacobi 5 σημείων. Προτείνονται 9 διαφορετικές αρχιτεκτονικές, από τις οποίες οι ισχυρότερες είναι οι STSM Cascade αρχιτεκτονικές, οι οποίες εκμαιεύουν τόσο την χρονική όσο και την χρονική παραλληλία. Στο κομμάτι των υλοποιήσεων της διπλωματικής, 4 από τις 9 αρχιτεκτονικές υλοποιούνται σε ένα Zynq7000 FPGA, ενώ δημιουργούνται εκδόσεις που χρησιμοποιούν τα πρωτόκολλα επικοινωνίας AXI4-Lite και AXI4-Stream. Οι αρχιτεκτονικές χρονίζονται στα 200MΗz και υλοποιούνται με 32-ψηφίων αριθμητική σταθερής υποδιαστολής με 16 δεκαδικά ψηφία. Επιπρόσθετα, μια πληθώρα πειραμάτων (πάνω από 150) εκτελέστηκαν σε ένα FPGA οικογένειας Virtex-7. Η εξερεύνηση αυτή περιλάμβανε την ρύθμιση όλων των παραμέτρων κάθε αρχιτεκτονικής. Επιπλέον, υλοποιήθηκαν επιταχύνσεις σε λογισμικό που αξιοποιεί την παραλληλία, χρησιμοποιώντας μετασχηματισμούς του πολυεδρικού μοντέλου. Τέλος έγινε θεωρητική και πειραματική ανάλυση σφάλματος που προέρχεται από την χρήση αριθμητικής σταθερής υποδιαστολής. 2022-02-21T07:13:57Z 2022-02-21T07:13:57Z 2022-02-17 http://hdl.handle.net/10889/15806 en application/pdf
institution UPatras
collection Nemertes
language English
topic FPGA
Reconfigurable computing
Stencil
High level synthesis
Polyhedral model
Αναδιατασσόμενη λογική
Στένσιλ
Υψηλού επιπέδου σύνθεση
Πολυεδρικό μοντέλο
spellingShingle FPGA
Reconfigurable computing
Stencil
High level synthesis
Polyhedral model
Αναδιατασσόμενη λογική
Στένσιλ
Υψηλού επιπέδου σύνθεση
Πολυεδρικό μοντέλο
Λευθεριώτης, Αιμίλιος
Hardware acceleration of stencil computations
description Stencil kernels appear on many mathematical problems such as linear and partial differential equations. On top of that, they are widely used in many application fields including image processing, computer vision and computer simulations. Therefore, there is the need to accelerate stencil computations and iterative stencil loops. One option is using hardware acceleration by creating a Field Programmable Gate Array (FPGA) design with High Level Synthesis (HLS). This thesis will focus on the 5-point Jacobi kernel. There are 9 different architectures proposed, with the most potent being the STSM Cascade architectures, which exploit both temporal and spatial parallelism. In the implementation section of the thesis, 4 of the 9 architectures are implemented on a Zynq7000 board, with both AXI4-Lite and AXI4-Stream protocol versions being created. The designs are clocked at 200MHz and use 32-bit fixed-point arithmetic with 16 decimal bits. In particular, the AXI4-Stream designs are using two clock domains, to overcome the fact that the Zynq7000 board cannot implement the AXI4-Stream elements in frequencies greater than 50MHz. On top of that, a plethora of experiments (over 150) were conducted on a Virtex-7 series FPGA. This design space exploration contained tuning of all the hyperparameters in each architecture. Additionally, parallel software implementations were explored, using polyhedral model transformations. Finally, both theoretical and experimental error analyses of the fixed-point configuration used in the experiments were carried out.
author2 Leftheriotis, Aimilios
author_facet Leftheriotis, Aimilios
Λευθεριώτης, Αιμίλιος
author Λευθεριώτης, Αιμίλιος
author_sort Λευθεριώτης, Αιμίλιος
title Hardware acceleration of stencil computations
title_short Hardware acceleration of stencil computations
title_full Hardware acceleration of stencil computations
title_fullStr Hardware acceleration of stencil computations
title_full_unstemmed Hardware acceleration of stencil computations
title_sort hardware acceleration of stencil computations
publishDate 2022
url http://hdl.handle.net/10889/15806
work_keys_str_mv AT leutheriōtēsaimilios hardwareaccelerationofstencilcomputations
AT leutheriōtēsaimilios epitachynsēypologismōnstensilseyliko
_version_ 1771297333145763840