Περίληψη: | Η αυτόνομη οδήγηση εξελίσσεται πολύ γρήγορα τα τελευταία χρόνια, υποσχόμενη περισσότερη ασφάλεια στους δρόμους, άνεση και επιτάχυνση των μετακινήσεων. Βασικός παράγοντας για να φτάσει ο συγκεκριμένος τομέας στο επίπεδο αυτό είναι η ακριβής αναγνώριση και κατανόηση του εξωτερικού περιβάλλοντος του οχήματος. Αυτό σημαίνει ότι το αυτόνομο όχημα είναι σε θέση να εντοπίζει και να κατηγοριοποιεί τα αντικείμενα που βρίσκονται γύρω του, με στόχο την προσαρμογή των ενεργειών του. Υπάρχει πληθώρα αλγορίθμων που εξάγει τα παραπάνω αποτελέσματα με ικανοποιητική ακρίβεια έχοντας ως είσοδο εικόνες ή τρισδιάστατα νέφη σημείων. Στην εργασία αυτή δίνεται βάση στη δεύτερη κατηγορία αλγορίθμων.
Το νέφος σημείων προκύπτει από έναν LiDAR αισθητήρα και πιο διαδεδομένος τρόπος επεξεργασίας αυτών είναι με τη χρήση συνελικτικών νευρωνικών δικτύων. Παρ’ όλα αυτά, τελευταία έχουν αρχίσει να αναπτύσσονται αρχιτεκτονικές που βασίζονται στους Transformers. Αυτοί αρχικά χρησιμοποιήθηκαν σε προβλήματα επεξεργασίας φυσικής γλώσσας, αλλά στην πορεία, λόγω της απόδοσης τους, δοκιμάστηκαν και σε άλλους τομείς. Οι πρώτες προσπάθειες στον εντοπισμό αντικειμένων έγιναν με δεδομένα εισόδου εικόνες, ενώ στη συνέχεια έγινε επέκταση της ίδιας λογικής και σε σημεία.
Στόχος της συγκεκριμένης διπλωματικής είναι η βελτίωση της απόδοσης της δημοσίευσης “TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers” που στηρίζεται σε Transformers για τον εντοπισμό αντικειμένων. Ο τρόπος για να συμβεί αυτό είναι με προεκπαίδευση του δικτύου, όπως παρουσιάζεται στη δημοσίευση “3D Object Detection with a Self-supervised Lidar Scene Flow Backbone”. Πιο συγκεκριμένα με self-supervised μάθηση και pretext task το scene flow, αρχικοποιούνται οι παράμετροι του δικτύου κορμού της αρχιτεκτονικής TransFusion. Για να είναι εφικτό αυτό, γίνονται τροποποιήσεις στους αλγορίθμους και των δύο δημοσιεύσεων, ενώ παράλληλα επιλέγεται μεικτή ακρίβεια για τους υπολογισμούς λόγω περιορισμών στη διαθέσιμη μνήμη της κάρτας γραφικών. Για την εκπαίδευση και δοκιμή των δικτύων χρησιμοποιήθηκε το Nuscenes σετ δεδομένων. Οι παραπάνω ενέργειες οδήγησαν σε βελτίωση της απόδοσης με βάση τις μετρικές mAP και NDS. Εκτός από αυτό, έγινε μια δεύτερη απόπειρα στην οποία χρησιμοποιήθηκε διαφορετικός scheduler για τον ρυθμό μάθησης και στην οποία υπήρξε μικρή περαιτέρω αύξηση των μετρικών.
|