Implementation and optimization of the OpenCL driver for the NEMA GPUs

The purpose of this diploma thesis is the software implementation of the OpenCL driver for the NEMA GPUs. For the development of this software POCL version 1.0 was used. POCL is an open source implementation of OpenCL that is platform indepedent enabling OpenCL on a wide range of architectures. T...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Αστερίου, Κωνσταντίνος
Άλλοι συγγραφείς:	Μπίρμπας, Μιχαήλ
Μορφή:	Thesis
Γλώσσα:	English
Έκδοση:	2020
Θέματα:	OpenCL GPU POCL Προγράμματα λογισμικού Σειριακή επεξεργασία
Διαθέσιμο Online:	http://hdl.handle.net/10889/13126

id	nemertes-10889-13126
record_format	dspace
institution	UPatras
collection	Nemertes
language	English
topic	OpenCL GPU POCL Προγράμματα λογισμικού Σειριακή επεξεργασία
spellingShingle	OpenCL GPU POCL Προγράμματα λογισμικού Σειριακή επεξεργασία Αστερίου, Κωνσταντίνος Implementation and optimization of the OpenCL driver for the NEMA GPUs
description	The purpose of this diploma thesis is the software implementation of the OpenCL driver for the NEMA GPUs. For the development of this software POCL version 1.0 was used. POCL is an open source implementation of OpenCL that is platform indepedent enabling OpenCL on a wide range of architectures. This implementation is divided to parts that are executed on the host (front-end) and to those that implement device-specific behaviour (back-end). All of the OpenCL code that had NEMA\|S GPU as the target device run on the Vertex Processor of NEMA\|S. Both hardware (Xilinx Zynq-7000 SoC ZC706) and software (libraries) tools were used from the company Think-Silicon throughout this work. The generated software was developed under the Linux enviroment, and the programming languages C and C++ were used. A number of tests called conformance tests provided by Khronos, the company that created the OpenCL framework, were run in order to test the accuracy of our work and make optimizations when possible. The final software is the POCL back-end implementation for the NEMA\|S GPU.
author2	Μπίρμπας, Μιχαήλ
author_facet	Μπίρμπας, Μιχαήλ Αστερίου, Κωνσταντίνος
format	Thesis
author	Αστερίου, Κωνσταντίνος
author_sort	Αστερίου, Κωνσταντίνος
title	Implementation and optimization of the OpenCL driver for the NEMA GPUs
title_short	Implementation and optimization of the OpenCL driver for the NEMA GPUs
title_full	Implementation and optimization of the OpenCL driver for the NEMA GPUs
title_fullStr	Implementation and optimization of the OpenCL driver for the NEMA GPUs
title_full_unstemmed	Implementation and optimization of the OpenCL driver for the NEMA GPUs
title_sort	implementation and optimization of the opencl driver for the nema gpus
publishDate	2020
url	http://hdl.handle.net/10889/13126
work_keys_str_mv	AT asterioukōnstantinos implementationandoptimizationoftheopencldriverforthenemagpus AT asterioukōnstantinos anaptyxēkaibeltistopoiēsētouopencldrivergiatisnemagpus
_version_	1771297130994991104
spelling	nemertes-10889-131262022-09-05T04:59:37Z Implementation and optimization of the OpenCL driver for the NEMA GPUs Ανάπτυξη και βελτιστοποίηση του OpenCL driver για τις NEMA GPUs Αστερίου, Κωνσταντίνος Μπίρμπας, Μιχαήλ Δερματάς, Ευάγγελος Asteriou, Konstantinos OpenCL GPU POCL Προγράμματα λογισμικού Σειριακή επεξεργασία The purpose of this diploma thesis is the software implementation of the OpenCL driver for the NEMA GPUs. For the development of this software POCL version 1.0 was used. POCL is an open source implementation of OpenCL that is platform indepedent enabling OpenCL on a wide range of architectures. This implementation is divided to parts that are executed on the host (front-end) and to those that implement device-specific behaviour (back-end). All of the OpenCL code that had NEMA\|S GPU as the target device run on the Vertex Processor of NEMA\|S. Both hardware (Xilinx Zynq-7000 SoC ZC706) and software (libraries) tools were used from the company Think-Silicon throughout this work. The generated software was developed under the Linux enviroment, and the programming languages C and C++ were used. A number of tests called conformance tests provided by Khronos, the company that created the OpenCL framework, were run in order to test the accuracy of our work and make optimizations when possible. The final software is the POCL back-end implementation for the NEMA\|S GPU. Στο παρελθόν όλα τα προγράμματα λογισμικού ήταν γραμμένα για σειριακή επεξεργασία. Για να λυθεί ένα πρόβλημα, κατασκευάζονταν ένας αλγόριθμος ο οποίος υλοποιούνταν ως μια σειριακή ακολουθία εντολών. Η εκτέλεση αυτών των εντολών συνέβαινε σε έναν υπολογιστή με έναν μόνο επεξεργαστή. Μόνο μια εντολή εκτελούνταν τη φορά και αφού τελείωνε η εκτέλεση της μιας εντολής, η επόμενη εκτελούνταν εν συνεχεία. Ο χρόνος εκτέλεσης οποιουδήποτε προγράμματος ήταν ανάλογος του αριθμού των εντολών, της περιόδου του ρολογιού του υπολογιστή και των κυκλών που απαιτούνταν για την κάθε εντολή. Οι υπολογιστές με το πέρασμα των ετών γινόντουσαν πιο αποδοτικοί όσον αφορά το χρόνο εκτέλεσης προγραμμάτων καθώς οι μηχανικοί κατάφερναν να βελτιώσουν δύο παράγοντες. Κατά πρώτον η συχνότητα του ρολογιού των υπολογιστών αυξήθηκε σημαντικά και κατά δεύτερον με βάση το νόμο του Moore ο αριθμός των τρανζίστορ σε μια επιφάνεια πυριτίου θα διπλασιάζονταν κάθε 1.5 χρόνο περίπου. Χαρακτηριστικά αναφέρουμε πως ο περίφημος επεξεργαστής 8086 είχε 29.000 τρανζίστορ και συχνότητα ρολογιού 5MHz ενώ ο σύγχρονος Intel Core i7 διαθέτει πάνω από 1 δισεκατομμύριο τρανζίστορ και συχνότητα ρολογιού 4GHz. Αυτές οι βελτιστοποιήσεις όμως είχαν ως συνέπεια να αυξηθεί δραματικά η ενεργειακή κατανάλωση των επεξεργαστών, η οποία δίνεται από τον τύπο P=CxV 2xF, όπου C είναι το σύνολο των χωρητικοτήτων των οποίων η είσοδος αλλάζει ανά κύκλο ρολογιού, V είναι η τάση και F η συχνότητα ρολογιού. Η απάντηση των μηχανικών στην συνεχώς αυξανόμενη ενεργειακή κατανάλωση ήταν να δημιουργούν πολυπύρηνους επεξεργαστές με ενεργειακά αποδοτικούς πυρήνες. Ο πυρήνας είναι η μονάδα επεξεργασίας του επεξεργαστή και όλοι οι πυρήνες μπορούν να έχουν πρόσβαση στην ίδια θέση μνήμης ταυτόχρονα. Για να εκμεταλλευτούμε τους πολλαπλούς πυρήνες του επεξεργαστή δημιουργήσαμε και προγράμματα που εκτελούνται παράλληλα. Στα παράλληλα προγράμματα χρησιμοποιούνται πολλαπλές μονάδες επεξεργασίας ταυτόχρονα για να λύσουν το πρόβλημα. Αυτό επιτυγχάνεται ¨σπάζοντας’ το πρόβλημα σε μικρότερα κομμάτια, όπου η εκτέλεση κάθε ενός μπορεί να πραγματοποιηθεί ανεξάρτητα. Οι μονάδες επεξεργασίας που μπορούν να χρησιμοποιηθούν ποικίλουν, και μπορεί να είναι από έναν υπολογιστή με πολλαπλούς πυρήνες, πολλούς διασυνδεδεμένους υπολογιστές μέχρι και εξιδεικευμένο υλικό (’hardware¨). Για να αξιοποιηθεί στο μέγιστο την υπάρχουσα παραλληλία του υλικού και να ελαχιστοποιήσουμε όσο αυτό είναι δυνατό τον χρόνο εκτέλεσης των προγραμμάτων, ο προγραμματιστής πρέπει να αναδομήσει και να παραλληλίσει κατάλληλα τον κώδικα του. ΙΙ) OpenCL - POCL Η OpenCL είναι ένα ανοιχτό στάνταρ για τον ηλων προγραμμάτων που περιλαμβάνει ¨γλώσσα¨, ΑΡΙ, βιβλιοθήκες και runtime και δίνει έτσι τη δυνατότητα συγγραφής φορητών αλλά αποδοτικών προγραμμάτων. Χρησιμοποιώντας την OpenCL ο προγραμματιστής μπορεί να γράψει προγράμματα γενικής χρήσης τα οποία εκτελούνται σε όλες τις συμβατές με αυτήν συσκευές χωρίς να χρειάζεται να αλλάξει οτιδήποτε στον κώδικα του όταν αλλάζει συσκευή. Η φορητότητα των προγραμμάτων της OpenCL ανάμεσα σε ένα μεγάλο εύρος διαφορετικών ετερόγενων πλατφόρμων επιτυγχάνεται περιγράφοντας των κώδικα της (kernel) ως strings που χτίζονται εν συνεχεία από το runtime API για την επιλεγμένη συσκευή πάνω στην οποία θέλουμε να τρέξει. Ενώ το πλαίσιο CUDA υποστηρίζεται μόνο από τις κάρτες γραφικών της NVIDIA, εφαρμογές της OpenCL μπορούν να τρέξουν σε μια σειρά διαφορετικών συσκευών από διαφορετικούς παρόχους. Συμβατές υλοποιήσεις με την OpenCL είναι διαθέσιμες από εταιρίες όπως η Altera, AMD, Xilinx, ARM, Intel και άλλες. Για να περιγράψουμε τις βασικές ιδέες πίσω από την OpenCL θα χρησιμοποιήσουμε την ακόλουθη ιεραρχία μοντέλων : • Μοντέλο Πλατφόρμας : Το μοντέλο πλατφόρμας της OpenCL αποτελείται από μια συσκευή ¨οικοδεσπότη’ (host) πάνω στην οποία είναι συνδεδεμένες μία ή περισσότερες OpenCL συσκευές. Οι OpenCL συσκευές διαιρούνται σε μία ή περισσότερες υπολογιστικές μονάδες (Compute Units) οι οποίες διαιρούνται περαιτέρω σε ένα ή περισσότερα στοιχεία επεξεργασίας (Processing Elements). ΄Ολα τα στοιχεία επεξεργασίας εκτελούν κώδικα OpenCL δηλαδή όλοι οι υπολογισμοί που περιγράφονται στον κώδικα της OpenCL συμβαίνουν εκεί. Κατά την εκτέλεση ενός OpenCL προγράμματος η συσκευή ¨οικοδεσπότης’ υποβάλλει εντολές για να ενορχηστρώσει την εκτέλεση του κώδικα της OpenCL στα στοιχεία επεξεργασίας της επιλεγμένης συσκευής. Τα στοιχεία επεξεργασίας μπορούν να εκτελέσουν μία ροή εντολών ως SIMD ή ως SPMD μονάδες. Η SIMD μονάδα ορίζεται ως μια κλάση παράλληλων υπολογιστών όπου τα στοιχεία επεξεργασίας του εκτελούν όλα τον ίδιο κώδικα, στην περίπτωση μας OpenCL κώδικα, το καθένα με τα δικά του δεδομένα και κοινό program counter. Από την άλλη ορίζουμε ως SPMD μονάδα το προγραμματιστικό μοντέλο όπου πολλαπλά στοιχεία επεξεργασίας εκτελούν τον ίδιο κώδικα το καθένα με δικά του δεδομένα και δικό του program counterΜοντέλο Εκτέλεσης : Η εκτέλεση ενός OpenCL προγράμματος χωρίζεται σε δύο μέρη : το ένα μέρος εκτελείται στον όικοδεσπότη΄ (host) και το άλλο, ο κώδικας OpenCL δηλαδή, εκτελείται σε μία ή περισσότερες επιλεγμένες συσκευές που είναι συνδεδεμένες με τον ¨οικοδεσπότη¨. Ο ¨οικοδεσπότης’ ορίζει ένα πλαίσιο (context) για την εκτέλεση του OpenCL κώδικα. Το πλαίσιο αυτό περιέχει τους ακόλουθος πόρους : τις συσκευές που μπορούν να χρησιμοποιηθούν από τον όικοδεσπότη΄, τον kernel δηλαδή τον OpenCL κώδικας που θα τρέξει σε μία από τις προαναφερθείσες συσκευές, το Program Object δηλαδή το εκτελέσιμο που κρατάει την αναπαράσταση του OpenCL κώδικα και τέλος τα αντικείμενα μνήμης "Memory Objects" δηλαδή μια συλλογή από αντικείμενα τα οποία είναι ορατά από τον όικοδεσπότη΄ και κρατούν τιμές που θα χρησιμοποιηθούν από τον OpenCL κώδικα. Το πλάισιο (context) ορίζεται από τον όικοδεσπότη΄ και χειραγωγείται από αυτόν χρησιμοποιώντας συναρτήσεις του OpenCL API. Ο όικοδεσπότης΄ ορίζει μια δομή δεδομένων που ονομάζεται (command queue) για να συντονίσει την εκτέλεση του OpenCL κώδικα, δημιουργώντας και τοποθετώντας εντολές πάνω σε αυτή την δομή οι οποίες θα εκτελεστούν στην συσκευή στην οποία δημιουργήθηκε προηγουμένως το πλαίσιο (context). Αυτές οι εντολές μπορεί να είναι εντολές εκτέλεσης OpenCL κώδικα, εντολές αναφορικά με τα αντικείμενα μνήμης ή εντολές συγχρονισμού. ΄Οταν ένας kernel κατατίθεται για εκτέλεση από τον ¨οικοδεσπότη¨, ένας ¨χώρος περιεχομένων’ (index space) ορίζεται. Ο ¨χώρος περιεχομένων’ που ορίζεται στην OpenCL είναι ένας Ν-διαστάσεων όπου το Ν μπορεί να είναι 1,2 ή 3 και αποκαλείται NDRange. ΄Ενας NDRange ορίζεται ως ένας πίνακας ακεραίων μεγέθους Ν, και προσδιορίζει το εύρος του ¨χώρου περιεχομένων’ σε κάθε διάσταση να αρχίζει από ένα offset F. ΄Ενα στιγμιότυπο του kernel εκτελείται για κάθε σημείο στον ¨χώρο Σχήμα 2: Μοντέλο Εκτέλεσης περιεχομένων¨. Το κάθε στιγμιότυπο του kernel ονομάζεται workitem και ταυτοποιείται από την θέση του στον ¨χώρο περιεχομένων¨, που του παρέχει μια μοναδική global ID (¨καθολική ταυτότητα¨). ΄Ολα work-item διαθέτουν τον ίδιο κώδικα αλλά οι εντολές που θα εκτελέσει το κάθε ένα από αυτά και τα δεδομένα που θα χρησιμοποιήσει διαφέρουν μπορεί να διαφέρουν ανά work-item. Τα work-items οργανώνονται σε work-groups. Στα work-groups ανατίθεται μια μοναδική ταυτότητα (work-group ID) με διαστάσεις ίδιες με αυτές του ¨χώρου περιεχομένων¨. Στα work-items εντός των work-groups ανατίθεται μια μοναδική ¨τοπική ταυτότητα’ (local-ID) έτσι ώστε το κάθε work-item να μπορεί να αναγνωριστεί είτε μέσω του global-ID είτε μέσω του συνδιασμού του work-group ID και του local-ID. • Μοντέλο Μνήμης : Η OpenCL ορίζει ένα Μοντέλο Μνήμης κατά το οποίο τα work items που εκτελούν έναν kernel έχουν πρόσβαση σε 4 διαφορετικές περιοχές μνήμης. Αρχικά υπάρχει η Global Memory (¨καθολική μνήμη¨) στην οποία έχουν πρόσβαση για ανάγνωση και εγγραφή όλα τα work-items από όλα τα work-groups. Τα work-items μπορούν να διαβάσουν και να γράψουν κάθε στοιχείο ενός Memory Object. Εν συνεχεία υπάρχει η Constant Memory (¨σταθερή μνήμη¨) η οποία παραμένει αναλλοίωτη κατά την εκτέλεση του OpenCL κώδικα και μπορεί να γραφτεί μόνο πριν την εκτέλεση του. Υπάρχει η Local Memory (¨Τοπική Μνήμη¨) την οποία μοιράζονται όλα τα work-items εντός ενός work-group. Κάθε work-group έχει τη δική του ¨τοπική μνήμη’ και work-items που δεν ανήκουν σε αυτό το work-group δεν έχουν πρόσβαση σε αυτή την περιοχή μνήμης. Τέλος υπάρχει η Private Memory (ίδιωτική μνήμη΄), κάθε work-item διαθέτει τη δική του ϊδιωτική μνήμη’ και έχει πρόσβαση για ανάγνωση και εγγραφή μόνο αυτό. • Μοντέλο Προγραμματισμού : Το μοντέλο της OpenCL ορίζει δύο είδη προγραμματιστικών μοντέλων, το task parallel, το data parallel καθώς και υβρίδιο των δύο. Το κυρίαρχο μοντέλο που οδηγεί την σχεδίαση εφαρμογών με τη χρήση της OpenCL είναι το data parallel σύμφωνα με το οποίο υπάρχει αντιστοίχηση ένα προς ένα μεταξύ των work-items και των στοιχείων ενός memory object. Η OpenCL ορίζει και μια πιο ¨χαλαρή’ έκδοση του μοντέλου αυτού όπου δεν είναι απαρραίτητη αυτή η ένα προς ένα αντιστοίχηση. Υπάρχουν δύο τομείς συγχρονισμού στην OpenCL. Αρχικά υπάρχει ο συγχρονισμός ανάμεσα σε work-items που ανήκουν στο ίδιο work-group χρησιμοποιώντας την εντολή barrier. ΄Ολα τα work-items πρέπει να εκτέλεσουν την εντολή αυτή πρωτού δωθεί η δυνατότητα σε καθέ ένα από αυτά να συνεχίσει την εκτέλεση του OpenCL κώδικα. Ο συγχρονισμός μεταξύ work-items που ανήκουν σε διαφορετικά work-groups δεν είναι δυνατός. Ο δεύτερος τομέας συγχρονισμού στην OpenCL είναι μεταξύ εντολών που κατατεθεί σε ένα command queue σε ένα context. Τέλος κλείνουμε την περιγραφή της OpenCL με μια σύντομη αναφορά στα memory objects. Υπάρχουν δύο ειδών memory objects στην OpenCL : τα buffer objects και τα image objects. Σε αυτή την διπλωματική εργασία πραγματευτήκαμε μόνο τα buffer objects. Τα buffer objects είναι μονοδιάστατη συλλογή από στοιχεία. Τα στοιχεία αυτά μπορεί να είναι οποιοδήποτε scalar type (int,float,char) ή πίνακας ή struct. Τα image objects χρησιμοποιούνται για την αποθήκευση texture, frame-buffer ή image δύο ή τριών διαστάσεων. POCL είναι μια ανοιχτή υλοποίηση της OpenCL, καθιστώντας δυνατή την εκτέλεση OpenCL εφαρμογών σε μια σειρά από διαφορετικές αρχιτεκτονικές. Η υλοποίηση αυτή χωρίζεται σε κομμάτια που εκτελούνται στην συσκευή όικοδεσπότη΄ και σε κομμάτια που έχουν συμπεριφορά διαφορετική ανάλογα με την επιλεγμένη συσκευή πάνω στην οποία θα τρέξει ο κώδικας της OpenCL. Αυτός ήταν ένας από τους λόγους που επιλέξαμε να χρησιμοποιήσουμε την υλοποίηση του POCL καθώς πολλές συναρτήσεις που τρέχουν στον host και δεν έχουν καμία target-specific συμπεριφορά είναι ήδη υλοποιημένες. Το άλλο πλεονέκτημα της υλοποίησης POCL είναι πως χρησιμοποιεί για το χτίσιμο του OpenCL κώδικα το LLVM-toolchain. Οι NEMA GPUs διαθέτουν backend για αυτό το toolchain απλοποιώντας έτσι σημαντικά την διαδικασία παραγωγής εκτελέσιμου αρχείου. Το LLVM-toolchain αποτελείται από τρία μέρη. Αρχικά από τον Clang ο οποίος διαβάζει τον κώδικα της OpenCL και παράγει ένα αρχείο μορφής LLVM-IR. Εν συνεχεία είναι ο Optimizer ο οποίος δέχεται σαν είσοδο την έξοδο του Clang και μπορεί να κάνει διάφορες βελτιστοποιήσεις πάνω στο LLVM-IR αρχείο. Και τέλος είναι το LLVM-backend το οποίο χρησιμοποιεί το κατάλληλο Instruction Set (¨Σύνολο Εντολών¨) έτσι ώστε το τελικό εκτελέσιμο να μπορεί να τρέξει στην επιλεγμένη συσκευή. ΙΙΙ) ΠΕΡΙΓΡΑΦΗ ΕΡΓΑΛΕΙΩΝ Καθόλη τη διάρκεια της διπλωματικής εργασίας όλοι οι κώδικες της OpenCL έτρεξαν πάνω στον Vertex Processor της NEMA\|S κάρτας γραφικών. Η NEMA\|S είναι μία πολυπύρηνη, multi-threaded κάρτα γραφικών, εξαιρετικά υψηλής επίδοσης και πολύ χαμηλής κατανάλωσης που μπορεί να χρησιμοποιηθεί τόσο για γραφική απεικόνιση όσο και για γενικού σκοπού επεξεργασία (GPGPU). Ο Vertex Processor στο Graphics Pipeline είναι υπεύθυνος για την μετατροπή των τρισδιάστατων συντεταγμένων κάθε αντικειμένου που υπάρχει στην εικόνα που θέλουμε να απεικονίσουμε, στις αντίστοιχες δισδιάστατες της οθόνης απεικόνισης. Η τοποθεσία κάθε αντικειμένου σε μια εικόνα, περιγράφεται από μια δομή δεδομένων που ονομάζεται Vertex, και ορίζει τη θέση του αντικειμένου ως σύνολο σημείων στον δισδιάστατο ή τρισδιάστατο χώρο. Τα Vertex data αποθηκεύονται ως ένα συνεχόμενο block στη μνήμη που ονομάζεται Vertex buffer. Ο Vertex Processor της NEMA\|S υποστηρίζει μόνο ένα hardware thread γεγονός που λειτούργησε αρνητικά όσον αφορά την επίδοση της υλοποίησης. Οι λόγοι που χρησιμοποιήσαμε μόνο τον Vertex Processor της NEMA\|S και όχι τον Fragment Processor για παράδειγμα, ο οποίος υποστηρίζει πολλαπλά hardware threads παρά την μειωμένη απόδοση είναι ποικίλοι. Αρχικά ο Fragment Processor δεν είναι πλήρως υλοποιημένος και λειτουργικός ακόμα. Επιπλέον η αποσφαλμάτωση (debugging) σε ένα single thread επεξεργαστή είναι αρκετά ευκολότερη από ότι σε έναν επεξεργαστή που υποστηρίζει πολλαπλά hardware threads. Επιπρόσθετα ο Vertex Processor εκτελεί απευθείας τις λειτουργίες αναγνωσής και εγγραφής στη μνήμη ενώ ο Fragment Processor χρησιμοποιεί ένα Module που ονομάζεται Texture Map, που είναι σχεδιασμένο για γραφικά, για τις λειτουργίες αυτές και εισάγει επομένως έναν επιπλέον βαθμό δυσκολίας στην υλοποίηση μας. Τέλος ο επεξεργαστής μπορεί να σηκώσει απευθείας ένα thread στον Vertex Processor ενώ ο Fragment Procesor οδηγείται από τον Rasterizer ο οποίος οδηγείται από τον Vertex Processor, γεγονός που εισάγει επιπλέον δυσκολία και πάλι. Ζητούμενο στην υλοποίηση αυτή δεν είναι η απόδοση αλλά να είναι όσο το δυνατόν πιο λειτουργική και ορθή γίνεται καθώς αποτελεί το πρώτο βήμα για την υποστήριξη της OpenCL από τις NEMA GPUs. Για να τεστάρουμε την υλοποίηση μας χρησιμοποιήσαμε τα conformance tests που παρέχει η εταιρία Khronos, η οποία δημιούργησε την OpenCL. Η επιτυχής ολοκλήρωση του συνόλου των τεστ για μια πλατφόρμα συνεπάγεται πως ο driver αλλά και το hardware της πλατφόρμας μπορούν να υποστηρίξουν κάθε εφαρμογή γραμμένη σε OpenCL. IV) ΥΛΟΠΟΙΗΣΗ Το κομμάτι της υλοποίησης του driver της OpenCL για τις NEMA GPUs χωρίστηκε σε τρία στάδια, το χτίσιμο του POCL,την δημιουργία εκτελέσιμου αρχείου για την NEMA\|S από κώδικα της OpenCL και τέλος την υλοποίηση όλων των target-specific συναρτήσεων του OpenCL API. Αρχικά χτίσαμε το POCL σε έναν υπολογιστή με επεξεργαστή Intel(R)Core(TM) i3-6100 και μια σειρά από απλούς κώδικες υλοποιήθηκαν για την κατανόηση της OpenCL. Εν συνεχεία μεταφερθήκαμε στην πλατφόρμα Zynq-7000 SoC ZC706 που διαθέτει επεξεργαστές ARM και πάνω στην πλατφόρμα αυτή ήταν φορτωμένος ο Vertex Processor. Εκεί χτίσαμε ξανά το POCL και τρέξαμε τους κώδικες που είχαμε υλοποιήσει για να διασταυρώσουμε ότι η διαδικασία είχε ολοκληρωθεί επιτυχώς. Το τελικό βήμα στο πρώτο αυτό στάδιο περιελάμβανε την προσθήκη των βιβλιοθηκών NemaGFX.so ToolChainAPI.so στο χτίστιμο του POCL, οι οποίες ήταν απαρραίτητες για την ολοκλήρωση των επόμενων βημάτων. Ο σκοπός του επόμενου σταδίου ήταν η εξαγωγή εκτελέσιμου ("binary") αρχείου από κώδικα της OpenCL το οποίο μπορεί να εκτελεστεί στον Vertex Processor. Η διαδικασία αυτή ολοκληρώθηκε με χρήση των συναρτήσεων της βιβλιοθήκης ToolChainAPI.so και όλος ο κώδικας για την εξαγωγή του εκτελέσιμου περιελαμβάνονταν σε ένα αρχείο "nema-gen.cc". Τελικό βήμα ήταν η υλοποίηση των targetspecific συναρτήσεων του OpenCL API. Η διαδικασία αυτή ολοκληρώθηκε με χρήση της βιβλιοθήκης NemaGFX.so και το σύνολο των υλοποιημένων συναρτήσεων περιελαμβάνονταν σε ένα αρχείο nema.c. V ΑΠΟΤΕΛΕΣΜΑΤΑ Η ορθότητα της υλοποίησης μας ήρθε μέσα από την επιτυχή ολοκλήρωση μιας σειράς από διαφορετικές κατηγορίες conformance tests. Σε όλες τις κατηγορίες τα tests σχετικά με images και samplers απενεργοποιήθηκαν. Οι κατηγορίες που ολοκληρώθηκαν με επιτυχία είναι οι ακόλουθες : • basic • buffers • device-partition • headers • integer-ops • multiple-device-context • relationals • select 2020-02-06T21:16:21Z 2020-02-06T21:16:21Z 2018-12-06 Thesis http://hdl.handle.net/10889/13126 en 0 application/pdf

Implementation and optimization of the OpenCL driver for the NEMA GPUs

Παρόμοια τεκμήρια