3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης

Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDA...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ρωμανέλης, Ιωάννης
Άλλοι συγγραφείς: Romanelis, Ioannis
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14976
Περιγραφή
Περίληψη:Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDAR (Light Detection And Ranging), για την καλύτερη αναγνώριση του περιβάλλοντος. Στην εργασία αυτή μελετάται το πρόβλημα της 3D ανίχνευσης αντικειμένων σε σκηνές εξωτερικού χώρου, ως μέρος του γενικότερου προβλήματος της αυτόνομης οδήγησης. Για να δημιουργηθούν τα δεδομένα ένας LIDAR αισθητήρας τοποθετείται στην οροφή του οχήματος, το οποίος επιστρέφει ένα νέφος σημείων που περιγράφει το χώρο 360 μοίρες γύρω από αυτό. ́Οπως και στην 2D ανίχνευση δεδομένων έτσι και στην 3D οι αλγόριθμοι που έχουν ξεχωρίσει για αυτό το πρόβλημα είναι αυτοί βασισμένοι σε βαθιά νευρωνικά δίκτυα. Το πρόβλημα της γενίκευσης των δικτύων στα νέφη σημείων έγκειται στο πως θα δεχτούν τα νέα δεδομένα, καθώς σε αντίθεση με την εικόνα όπου τα εικονοστοιχεία είναι διατεταγμένα σε ένα πλέγμα, τα σημεία βρίσκονται στο συνεχή χώρο. Για να υπερκεραστεί αυτό το πρόβλημα γίνεται χρήση της αναπαράστασης των αραιών voxel, καθώς με αυτά μπορούν να δημιουργηθούν δίκτυα εκτελέσιμα σε πραγματικό χρόνο, διατηρώντας μικρές απαιτήσεις μνήμης. Το πρώτο δίκτυο που μελετάται αποτελεί επανυλοποίηση ενός από τα σημαντικότερα δίκτυα που έχουν προταθεί για το πρόβλημα της 3D ανίχνευσης. Το δίκτυο αυτό χρησιμοποιεί ανά σημείο πλήρως συνδεδεμένα επίπεδα για να εξάγει τα χαρακτηριστικά των voxel, το μέρος αυτό της αρχιτεκτονικής καλείται Voxel Feature Extractor (VFE). Τα voxel αυτά εισέρχονται σε μία σειρά από αραιά συνελικτικά επίπεδα για να εξαχθούν τα 3D χαρακτηριστικά, τα οποία γίνονται προβολή σε Bird’s Eye View (BEV) εικόνα και ένας 2D συνελικτικό δίκτυο εξάγει τις τελικές προβλέψεις. Η αρχιτεκτονική αυτή δοκιμάζεται για δεδομένα εισόδου σε καρτεσιανές αλλά και κυλινδρικές συντεταγμένες. Στη δεύτερη αρχιτεκτονική το δίκτυο διαμορφώνεται ώστε να αφαιρεθεί ο VFE, χρησιμοποιώντας απευθείας αραιές συνελίξεις στο κβαντισμένο νέφος. Για την αρχιτεκτονική αυτή γίνονται, επίσης, εκτεταμένα πειράματα ως προς τα δεδομένα εισόδου της αλλά και τον αλγόριθμο βελτιστοποίησής της. Το υλοποιημένο δίκτυο εκπαιδεύτηκε στο σύνολο δεδομένων KITTI. Για την αξιο- λόγηση του έγινε διαχωρισμός του συνόλου σε δύο υποσύνολα, ένα για εκπαίδευσης και ένα για αξιολόγηση των αποτελεσμάτων. Το τελικό δίκτυο καταφέρνει να εξάγει αποτελέσματα συγκρίσιμα με τις state-of-the-art μεθόδους.