Περίληψη: | Ο υπολογισμός στένσιλ είναι ένας από τους πιο σημαντικούς πυρήνες σε ένα ευρύ φάσμα τομέων εφαρμογών, όπως η επεξεργασία εικόνας, η επίλυση μερικών διαφορικών εξισώσεων και τα κυψελωτά αυτόματα. Πολλοί από τους πυρήνες στένσιλ είναι πολύπλοκοι, αποτελούνται συνήθως από πολλαπλά στάδια ή επαναλήψεις και δεσμεύονται από εξαρτήσεις δεδομένων και ανάγκες μνήμης. Τέτοιοι υπολογισμοί ανατίθονται τακτικά σε Field Programmable Gate Arrays (FPGA) με τη χρήση εργαλείων που εκτελούν Σύνθεση Υψηλού Επιπέδου (HLS). Τέτοια εργαλεία HLS, έχουν σημειώσει σημαντική πρόοδο για την υλοποίηση περιγραφών υψηλού επιπέδου των εφαρμογών, σε επίπεδο μεταφοράς καταχωρητών (RTL), επιτυχγάνωντας επιδώσεις υψηλής διοχέτευσης.
Σε αυτή την εργασία, προτείνουμε τρεις διακριτές μεθοδολογίες επιτάχυνσης υλικού, βασισμένες σε μεγάλο βαθμό σε τρεις δημοσιεύσεις που περιλαμβάνουν την τελευταία λέξη της τεχνολογίας στον τομέα. Ο απλούστερος σχεδιασμός είναι το Single Time-Step Stencil Accelerator (STSA) που μπορεί να επεκταθεί σε Cascaded STSA (CSTSA) με την αλληλουχία διαδοχικών πολλαπλών σταδίων. Αυτός ο σχεδιασμός εισάγει μια μη ομοιόμορφη μέθοδο διαχωρισμού της μνήμης και προτείνει την χρήση της τεχνικής επαναχρησιμοποίησης δεδομένων, που αποθηκεύει τα στοιχεία δεδομένων στο chip μέχρι να μην χρειαστούν περαιτέρω. Η αρχιτεκτονική καταφέρνει το ελάχιστο μέγεθος μνήμης και τον ελάχιστο αριθμό.των τραπεζών μνήμης καθώς και την ελαχιστοποίηση της μεταφροάς δεδομένων από και προς την εξωτερική μνήμη. Η ακόλουθη σχεδίαση, δηλαδή η σχεδίαση του Spatially Parallel Time-Step Accelerator (SPTA), που επεκτείνεται στο Cascaded SPTA (CSPTA), βασίζεται στο έργο του STSA διατηρώντας το ελαχιστοποιημένο on-chip
μέγεθος μνήμης, αριθμό τράπεζών μνήμης και προσβάσεις στην εξωτερική μνήμη, παρέχοντας επιπλέον κλιμακωτό λεπτόκοκκο χωρικό παραλληλισμό. Η τελική αρχιτεκτονική ακολουθεί διαφορετική μεθοδολογία, καθώς υπερπηδά επαναλήψεις τομέα ενδιάμεσου χρόνου. Προϋπολογίζει τους αποτελεσματικούς συντελεστές για έναν συγκεκριμένο στόχο χρονικών επαναλήψεων κατά το χρόνο σχεδιασμού, με αποτέλεσμα έναν επιταχυντή που χρησιμοποιεί ελάχιστη μνήμη στο ολοκληρωμένο, χρειάζεται το λιγότερο ποσό εξωτερικών μεταφορών δεδομένων και αποφεύγει τους περιττούς υπολογισμούς.
Εκτελούνται πολλαπλά πειράματα με το xczu7ev-ffvf1517-3-e να χρησιμοποιείται ως πλατφόρμα. Τα αποτελέσματα προέρχονται από τις συνθετικές αναφορές του Vitis HLS, του εργαλείου HLS που επιλέχθηκε για τους σκοπούς αυτής της διατριβής. Διερευνώνται διαφορετικοί τύποι δεδομένων, μεγέθη πλέγματος και παράγοντες χρονικού και χωρικού παραλληλισμού. Τα αποτελέσματα του πειράματος CSTSA χρησιμοποιούνται ως βάση για τα άλλα. Η πειραματική αξιολόγηση δείχνει ότι τα σχέδια CSPTA αρχειοθετούν τα καλύτερα αποτελέσματα χρονισμού, υπολογίζοντας ταυτόχρονα τα αποτελέσματα, με την αντιστάθμιση να είναι οι απαιτήσεις σε περισσότερους πόρους. Τέλος, η ICTA αποδείχθηκε ότι είναι η πιο επεκτάσιμη αρχιτεκτοική όσον αφορά το μέγεθος του πλέγματος και έδειξε χαμηλή χρήση πόρων αποθήκευσης.
|