Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων

Τα βαθιά νευρωνικά δίκτυα (DNN), και κυριότερα τα συνελικτικά (CNN), χρησιμοποιούνται ευρέως για το πρόβλημα του εντοπισμού και της αναγνώρισης αντικειμένων στον τομέα της Υπολογιστικής Όρασης. Τα τελευταία χρόνια, έχουν αναπτυχθεί πολλαπλά μοντέλα βασισμένα στη δομή των CNN, τα οποία με συνεχή ρυθμ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Γώγου, Ιωάννα
Άλλοι συγγραφείς: Gogou, Ioanna
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16262
id nemertes-10889-16262
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Εντοπισμός και αναγνώριση αντικειμένου
Εντοπισμός και αναγνώριση ιατρικής μάσκας
Εντοπισμός και αναγνώριση σε πραγματικό χρόνο
Υπολογιστική όραση
Μηχανική μάθηση
Βαθιά νευρωνικά δίκτυα
Object detection and recognition
Medical mask detection and recognition
Real-time object detection and recognition
Computer vision
YOLO
R-CNN
RetinaNet
SSD
COCO
PWMFD
Machine learning
Deep neural networks
spellingShingle Εντοπισμός και αναγνώριση αντικειμένου
Εντοπισμός και αναγνώριση ιατρικής μάσκας
Εντοπισμός και αναγνώριση σε πραγματικό χρόνο
Υπολογιστική όραση
Μηχανική μάθηση
Βαθιά νευρωνικά δίκτυα
Object detection and recognition
Medical mask detection and recognition
Real-time object detection and recognition
Computer vision
YOLO
R-CNN
RetinaNet
SSD
COCO
PWMFD
Machine learning
Deep neural networks
Γώγου, Ιωάννα
Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
description Τα βαθιά νευρωνικά δίκτυα (DNN), και κυριότερα τα συνελικτικά (CNN), χρησιμοποιούνται ευρέως για το πρόβλημα του εντοπισμού και της αναγνώρισης αντικειμένων στον τομέα της Υπολογιστικής Όρασης. Τα τελευταία χρόνια, έχουν αναπτυχθεί πολλαπλά μοντέλα βασισμένα στη δομή των CNN, τα οποία με συνεχή ρυθμό υψώνουν τον πήχη ως προς την ακρίβεια, όπως το YOLO και οι νεότερες εκδόσεις του, τo SSD, το RetinaNet και τα Faster R-CNN και Mask R-CNN της οικογένειας των Region-based Convolutional Neural Network (R-CNN). Παρ' όλα αυτά, εμφανίζουν αμφίρροπα αποτελέσματα όταν λαμβάνεται υπόψη η ταχύτητα εντοπισμού, η οποία συχνά θυσιάζεται στο βωμό της ακρίβειας. Τα σύγχρονα συστήματα απαιτούν εντοπισμό πραγματικού χρόνου με εύλογα ποσοστά ακρίβειας. Ωστόσο, μέχρι στιγμής δεν υπάρχει στη βιβλιογραφία επαρκής αξιολόγηση των διαθέσιμων μεθόδων ως προς το αντιστάθμισμα ακρίβειας/ταχύτητας. Η παρούσα εργασία εξετάζει τα προαναφερόμενα μοντέλα εντοπισμού και αναγνώρισης ως προς το αντιστάθμισμα αυτό, αλλά και ως προς την αρχιτεκτονική, την κατανάλωση μνήμης και το υπολογιστικό και αποθηκευτικό κόστος. Η συγκριτική αξιολόγηση των μοντέλων πραγματοποιήθηκε στο ίδιο σύνολο δεδομένων (COCO) και πλαίσιο μηχανικής μάθησης (PyTorch) για την εξαγωγή δίκαιων συμπερασμάτων με τρόπο αναπαράξιμο από τον συνοδεύοντα ανοιχτό κώδικα. Επιλεγμένα μοντέλα που παρουσίασαν ταχύτητα εντοπισμού πραγματικού χρόνου δοκιμάστηκαν σε δεδομένα ροής αφού εκπαιδεύτηκαν στο επίκαιρο και μη εξερευνημένο σύνολο δεδομένων ανθρώπινων προσώπων με ιατρικές μάσκες (PWMFD). Στη συνέχεια, αναλύουμε τα οφέλη βελτιστοποιήσεων που έχουν χρησιμοποιηθεί στο παρελθόν για τον εντοπισμό ιατρικών μασκών, αλλά και βελτιστοποιήσεων άλλων σχετικών προβλημάτων, οι οποίες εφαρμόστηκαν για πρώτη φορά στον εντοπισμό ιατρικών μασκών. Αυτές είναι η μεταφορά μάθησης, οι τεχνικές ενίσχυσης δεδομένων και οι μηχανισμοί προσοχής. Χρησιμοποιώντας τα αποτελέσματα μας στο πλαίσιο της καταπολέμησης της πανδημίας COVID-19, προτείνουμε βελτιστοποιημένο μοντέλο βασισμένο στο YOLOv5s για τον εντοπισμό και την αναγνώριση σωστά ή λάθος τοποθετημένων ιατρικών μασκών το οποίο ξεπέρασε πάνω από δύο φορές σε ταχύτητα, διατηρώντας ίσα επίπεδα ακρίβειας (mAP 67%), το state-of-the-art μοντέλο SE-YOLOv3 στο σύνολο PWMFD.
author2 Gogou, Ioanna
author_facet Gogou, Ioanna
Γώγου, Ιωάννα
author Γώγου, Ιωάννα
author_sort Γώγου, Ιωάννα
title Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
title_short Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
title_full Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
title_fullStr Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
title_full_unstemmed Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
title_sort αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων
publishDate 2022
url http://hdl.handle.net/10889/16262
work_keys_str_mv AT gōgouiōanna axiologēsēkaiylopoiēsēmethodōnentopismoukaianagnōrisēsantikeimenōnsepragmatikochronomechrēsēbatheōnneurōnikōndiktyōn
AT gōgouiōanna evaluationandimplementationofrealtimeobjectdetectionandrecognitionmethodsusingdeepneuralnetworks
_version_ 1771297159355826176
spelling nemertes-10889-162622022-09-05T05:39:20Z Αξιολόγηση και υλοποίηση μεθόδων εντοπισμού και αναγνώρισης αντικειμένων σε πραγματικό χρόνο με χρήση βαθέων νευρωνικών δικτύων Evaluation and implementation of real-time object detection and recognition methods using deep neural networks Γώγου, Ιωάννα Gogou, Ioanna Εντοπισμός και αναγνώριση αντικειμένου Εντοπισμός και αναγνώριση ιατρικής μάσκας Εντοπισμός και αναγνώριση σε πραγματικό χρόνο Υπολογιστική όραση Μηχανική μάθηση Βαθιά νευρωνικά δίκτυα Object detection and recognition Medical mask detection and recognition Real-time object detection and recognition Computer vision YOLO R-CNN RetinaNet SSD COCO PWMFD Machine learning Deep neural networks Τα βαθιά νευρωνικά δίκτυα (DNN), και κυριότερα τα συνελικτικά (CNN), χρησιμοποιούνται ευρέως για το πρόβλημα του εντοπισμού και της αναγνώρισης αντικειμένων στον τομέα της Υπολογιστικής Όρασης. Τα τελευταία χρόνια, έχουν αναπτυχθεί πολλαπλά μοντέλα βασισμένα στη δομή των CNN, τα οποία με συνεχή ρυθμό υψώνουν τον πήχη ως προς την ακρίβεια, όπως το YOLO και οι νεότερες εκδόσεις του, τo SSD, το RetinaNet και τα Faster R-CNN και Mask R-CNN της οικογένειας των Region-based Convolutional Neural Network (R-CNN). Παρ' όλα αυτά, εμφανίζουν αμφίρροπα αποτελέσματα όταν λαμβάνεται υπόψη η ταχύτητα εντοπισμού, η οποία συχνά θυσιάζεται στο βωμό της ακρίβειας. Τα σύγχρονα συστήματα απαιτούν εντοπισμό πραγματικού χρόνου με εύλογα ποσοστά ακρίβειας. Ωστόσο, μέχρι στιγμής δεν υπάρχει στη βιβλιογραφία επαρκής αξιολόγηση των διαθέσιμων μεθόδων ως προς το αντιστάθμισμα ακρίβειας/ταχύτητας. Η παρούσα εργασία εξετάζει τα προαναφερόμενα μοντέλα εντοπισμού και αναγνώρισης ως προς το αντιστάθμισμα αυτό, αλλά και ως προς την αρχιτεκτονική, την κατανάλωση μνήμης και το υπολογιστικό και αποθηκευτικό κόστος. Η συγκριτική αξιολόγηση των μοντέλων πραγματοποιήθηκε στο ίδιο σύνολο δεδομένων (COCO) και πλαίσιο μηχανικής μάθησης (PyTorch) για την εξαγωγή δίκαιων συμπερασμάτων με τρόπο αναπαράξιμο από τον συνοδεύοντα ανοιχτό κώδικα. Επιλεγμένα μοντέλα που παρουσίασαν ταχύτητα εντοπισμού πραγματικού χρόνου δοκιμάστηκαν σε δεδομένα ροής αφού εκπαιδεύτηκαν στο επίκαιρο και μη εξερευνημένο σύνολο δεδομένων ανθρώπινων προσώπων με ιατρικές μάσκες (PWMFD). Στη συνέχεια, αναλύουμε τα οφέλη βελτιστοποιήσεων που έχουν χρησιμοποιηθεί στο παρελθόν για τον εντοπισμό ιατρικών μασκών, αλλά και βελτιστοποιήσεων άλλων σχετικών προβλημάτων, οι οποίες εφαρμόστηκαν για πρώτη φορά στον εντοπισμό ιατρικών μασκών. Αυτές είναι η μεταφορά μάθησης, οι τεχνικές ενίσχυσης δεδομένων και οι μηχανισμοί προσοχής. Χρησιμοποιώντας τα αποτελέσματα μας στο πλαίσιο της καταπολέμησης της πανδημίας COVID-19, προτείνουμε βελτιστοποιημένο μοντέλο βασισμένο στο YOLOv5s για τον εντοπισμό και την αναγνώριση σωστά ή λάθος τοποθετημένων ιατρικών μασκών το οποίο ξεπέρασε πάνω από δύο φορές σε ταχύτητα, διατηρώντας ίσα επίπεδα ακρίβειας (mAP 67%), το state-of-the-art μοντέλο SE-YOLOv3 στο σύνολο PWMFD. Deep Neural Networks (DNN), and primarily Convolutional Neural Networks (CNN), are commonly used for the problem of object detection and recognition in the field of Computer Vision. In recent years, numerous models based on the CNN architecture have been developed, which increasingly raise the bar in terms of accuracy, such as YOLO and its newer versions, SSD, RetinaNet and Faster R-CNN and Mask R-CNN of the family of Region-based Convolutional Neural Networks (R-CNN). Nevertheless, their performance is ambiguous when detection speed is considered, which is, more often than not, sacrificed in the name of accuracy. Modern systems require real-time detection with a reasonable accuracy rate. Up to this point, however, there has not been sufficient evaluation of the available methods in terms of the accuracy/speed trade-off in related bibliography. This work assesses the aforementioned object detection and recognition models with respect to this trade-off, as well as their architecture, memory consumption and computational and storage cost. The comparative evaluation of the models was implemented using the same dataset (COCO) and machine learning framework (PyTorch), so as to reach fair conclusions in a reproducible way through the accompanying open-source code. Selected models that achieved real-time detection speed were tested on data streams after training on the topical and unexplored dataset of human faces with medical masks (PWMFD). Next, we analyze the benefits of different optimizations which have been used in the past for medical mask detection, as well as optimizations of other related problems, which were applied to medical mask detection for the first time. These include transfer learning, data augmentation techniques and attention mechanisms. Using our findings in the context of the containment of the COVID-19 pandemic, we propose an optimized model based on YOLOv5s for the detection and recognition of correctly and incorrectly worn medical masks that surpassed more than two times in speed, while maintaining the same level of accuracy (mAP 67%), the state-of-the-art model SE-YOLOv3 on the PWMFD dataset. 2022-06-21T06:28:23Z 2022-06-21T06:28:23Z 2022-04-14 http://hdl.handle.net/10889/16262 gr winrar application/pdf