3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης

Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDA...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ρωμανέλης, Ιωάννης
Άλλοι συγγραφείς: Romanelis, Ioannis
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14976
id nemertes-10889-14976
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic 3Δ ανίχνευση αντικειμένων
Αραιή συνέλιξη
Βαθιά γεωμετρική μάθηση
Νέφη σημείων
Υπολογιστική όραση
3D object detection
Sparse convolutions
Geometric deep learning
Point clouds
Computer vision
spellingShingle 3Δ ανίχνευση αντικειμένων
Αραιή συνέλιξη
Βαθιά γεωμετρική μάθηση
Νέφη σημείων
Υπολογιστική όραση
3D object detection
Sparse convolutions
Geometric deep learning
Point clouds
Computer vision
Ρωμανέλης, Ιωάννης
3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
description Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDAR (Light Detection And Ranging), για την καλύτερη αναγνώριση του περιβάλλοντος. Στην εργασία αυτή μελετάται το πρόβλημα της 3D ανίχνευσης αντικειμένων σε σκηνές εξωτερικού χώρου, ως μέρος του γενικότερου προβλήματος της αυτόνομης οδήγησης. Για να δημιουργηθούν τα δεδομένα ένας LIDAR αισθητήρας τοποθετείται στην οροφή του οχήματος, το οποίος επιστρέφει ένα νέφος σημείων που περιγράφει το χώρο 360 μοίρες γύρω από αυτό. ́Οπως και στην 2D ανίχνευση δεδομένων έτσι και στην 3D οι αλγόριθμοι που έχουν ξεχωρίσει για αυτό το πρόβλημα είναι αυτοί βασισμένοι σε βαθιά νευρωνικά δίκτυα. Το πρόβλημα της γενίκευσης των δικτύων στα νέφη σημείων έγκειται στο πως θα δεχτούν τα νέα δεδομένα, καθώς σε αντίθεση με την εικόνα όπου τα εικονοστοιχεία είναι διατεταγμένα σε ένα πλέγμα, τα σημεία βρίσκονται στο συνεχή χώρο. Για να υπερκεραστεί αυτό το πρόβλημα γίνεται χρήση της αναπαράστασης των αραιών voxel, καθώς με αυτά μπορούν να δημιουργηθούν δίκτυα εκτελέσιμα σε πραγματικό χρόνο, διατηρώντας μικρές απαιτήσεις μνήμης. Το πρώτο δίκτυο που μελετάται αποτελεί επανυλοποίηση ενός από τα σημαντικότερα δίκτυα που έχουν προταθεί για το πρόβλημα της 3D ανίχνευσης. Το δίκτυο αυτό χρησιμοποιεί ανά σημείο πλήρως συνδεδεμένα επίπεδα για να εξάγει τα χαρακτηριστικά των voxel, το μέρος αυτό της αρχιτεκτονικής καλείται Voxel Feature Extractor (VFE). Τα voxel αυτά εισέρχονται σε μία σειρά από αραιά συνελικτικά επίπεδα για να εξαχθούν τα 3D χαρακτηριστικά, τα οποία γίνονται προβολή σε Bird’s Eye View (BEV) εικόνα και ένας 2D συνελικτικό δίκτυο εξάγει τις τελικές προβλέψεις. Η αρχιτεκτονική αυτή δοκιμάζεται για δεδομένα εισόδου σε καρτεσιανές αλλά και κυλινδρικές συντεταγμένες. Στη δεύτερη αρχιτεκτονική το δίκτυο διαμορφώνεται ώστε να αφαιρεθεί ο VFE, χρησιμοποιώντας απευθείας αραιές συνελίξεις στο κβαντισμένο νέφος. Για την αρχιτεκτονική αυτή γίνονται, επίσης, εκτεταμένα πειράματα ως προς τα δεδομένα εισόδου της αλλά και τον αλγόριθμο βελτιστοποίησής της. Το υλοποιημένο δίκτυο εκπαιδεύτηκε στο σύνολο δεδομένων KITTI. Για την αξιο- λόγηση του έγινε διαχωρισμός του συνόλου σε δύο υποσύνολα, ένα για εκπαίδευσης και ένα για αξιολόγηση των αποτελεσμάτων. Το τελικό δίκτυο καταφέρνει να εξάγει αποτελέσματα συγκρίσιμα με τις state-of-the-art μεθόδους.
author2 Romanelis, Ioannis
author_facet Romanelis, Ioannis
Ρωμανέλης, Ιωάννης
author Ρωμανέλης, Ιωάννης
author_sort Ρωμανέλης, Ιωάννης
title 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
title_short 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
title_full 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
title_fullStr 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
title_full_unstemmed 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
title_sort 3δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
publishDate 2021
url http://hdl.handle.net/10889/14976
work_keys_str_mv AT rōmanelēsiōannēs 3danichneusēantikeimenōnsenephēsēmeiōnmechrēsēbathiasgeōmetrikēsmathēsēs
AT rōmanelēsiōannēs 3dobjectdetectionfrompointcloudsusinggeometricdeeplearning
_version_ 1771297301054095360
spelling nemertes-10889-149762022-09-05T20:27:47Z 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης 3D object detection from point clouds using geometric deep learning Ρωμανέλης, Ιωάννης Romanelis, Ioannis 3Δ ανίχνευση αντικειμένων Αραιή συνέλιξη Βαθιά γεωμετρική μάθηση Νέφη σημείων Υπολογιστική όραση 3D object detection Sparse convolutions Geometric deep learning Point clouds Computer vision Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDAR (Light Detection And Ranging), για την καλύτερη αναγνώριση του περιβάλλοντος. Στην εργασία αυτή μελετάται το πρόβλημα της 3D ανίχνευσης αντικειμένων σε σκηνές εξωτερικού χώρου, ως μέρος του γενικότερου προβλήματος της αυτόνομης οδήγησης. Για να δημιουργηθούν τα δεδομένα ένας LIDAR αισθητήρας τοποθετείται στην οροφή του οχήματος, το οποίος επιστρέφει ένα νέφος σημείων που περιγράφει το χώρο 360 μοίρες γύρω από αυτό. ́Οπως και στην 2D ανίχνευση δεδομένων έτσι και στην 3D οι αλγόριθμοι που έχουν ξεχωρίσει για αυτό το πρόβλημα είναι αυτοί βασισμένοι σε βαθιά νευρωνικά δίκτυα. Το πρόβλημα της γενίκευσης των δικτύων στα νέφη σημείων έγκειται στο πως θα δεχτούν τα νέα δεδομένα, καθώς σε αντίθεση με την εικόνα όπου τα εικονοστοιχεία είναι διατεταγμένα σε ένα πλέγμα, τα σημεία βρίσκονται στο συνεχή χώρο. Για να υπερκεραστεί αυτό το πρόβλημα γίνεται χρήση της αναπαράστασης των αραιών voxel, καθώς με αυτά μπορούν να δημιουργηθούν δίκτυα εκτελέσιμα σε πραγματικό χρόνο, διατηρώντας μικρές απαιτήσεις μνήμης. Το πρώτο δίκτυο που μελετάται αποτελεί επανυλοποίηση ενός από τα σημαντικότερα δίκτυα που έχουν προταθεί για το πρόβλημα της 3D ανίχνευσης. Το δίκτυο αυτό χρησιμοποιεί ανά σημείο πλήρως συνδεδεμένα επίπεδα για να εξάγει τα χαρακτηριστικά των voxel, το μέρος αυτό της αρχιτεκτονικής καλείται Voxel Feature Extractor (VFE). Τα voxel αυτά εισέρχονται σε μία σειρά από αραιά συνελικτικά επίπεδα για να εξαχθούν τα 3D χαρακτηριστικά, τα οποία γίνονται προβολή σε Bird’s Eye View (BEV) εικόνα και ένας 2D συνελικτικό δίκτυο εξάγει τις τελικές προβλέψεις. Η αρχιτεκτονική αυτή δοκιμάζεται για δεδομένα εισόδου σε καρτεσιανές αλλά και κυλινδρικές συντεταγμένες. Στη δεύτερη αρχιτεκτονική το δίκτυο διαμορφώνεται ώστε να αφαιρεθεί ο VFE, χρησιμοποιώντας απευθείας αραιές συνελίξεις στο κβαντισμένο νέφος. Για την αρχιτεκτονική αυτή γίνονται, επίσης, εκτεταμένα πειράματα ως προς τα δεδομένα εισόδου της αλλά και τον αλγόριθμο βελτιστοποίησής της. Το υλοποιημένο δίκτυο εκπαιδεύτηκε στο σύνολο δεδομένων KITTI. Για την αξιο- λόγηση του έγινε διαχωρισμός του συνόλου σε δύο υποσύνολα, ένα για εκπαίδευσης και ένα για αξιολόγηση των αποτελεσμάτων. Το τελικό δίκτυο καταφέρνει να εξάγει αποτελέσματα συγκρίσιμα με τις state-of-the-art μεθόδους. 3D object detection is a competent task in problems ranging from autonomous driving to robot vision. The accuracy of these problems is crucial since an error could have fatal repercussions. Subsequently, advanced scanning sensors like LIDAR (Light Detection and Ranging) are deployed. In this project, we study 3D object detection in outdoor scenes as a part of the general self-driving car task. To generate the data a LIDAR sensor is placed on top of a car, scanning the surrounding space 360 degrees around the vehicle. As in 2D detection, Deep neural network algorithms stand out in this task. The apparent issue is the generalization of the networks to accept point clouds in their inputs. While image data lie on a regular grid, points of a point cloud do in the continuous space. To overcome this limitation, we use a sparse representation where the point cloud is voxelized while keeping only the voxels that contain at least one point. Using this method can result in networks that run in real-time while having limited memory requirements. The first network that we study is a reimplementation of one of the principal networks developed for this task. It consists of a Voxel Feature Extraction network that generates voxel features from the raw point cloud. The generated voxels are processed through a series of sparse convolutional layers to generate the 3D features of the scene. Finally, the 3D features are projected on a Bird’s Eye View (BEV) image and processed by a 2D detector to generate the final predictions. We have made variations of this architecture to receive data both in cartesian and cylindrical coordinates. Then we propose a second network architecture, that is modified accordingly to remove the VFE components. To do that, we apply sparse convolutions directly on the voxelized point cloud. To further improve this architecture we run different experiments with various input data combinations and optimization algorithms. Our network is trained and evaluated on the KITTI dataset. We split the training dataset into training and evaluation parts to validate the results. Our network achieves results comparable with state-of-the-art methods. 2021-07-12T06:22:40Z 2021-07-12T06:22:40Z 2021-07-07 http://hdl.handle.net/10889/14976 gr application/pdf