Περίληψη: | Τα βαθιά νευρωνικά δίκτυα (DNN), και κυριότερα τα συνελικτικά (CNN), χρησιμοποιούνται ευρέως για το πρόβλημα του εντοπισμού και της αναγνώρισης αντικειμένων στον τομέα της Υπολογιστικής Όρασης. Τα τελευταία χρόνια, έχουν αναπτυχθεί πολλαπλά μοντέλα βασισμένα στη δομή των CNN, τα οποία με συνεχή ρυθμό υψώνουν τον πήχη ως προς την ακρίβεια, όπως το YOLO και οι νεότερες εκδόσεις του, τo SSD, το RetinaNet και τα Faster R-CNN και Mask R-CNN της οικογένειας των Region-based Convolutional Neural Network (R-CNN). Παρ' όλα αυτά, εμφανίζουν αμφίρροπα αποτελέσματα όταν λαμβάνεται υπόψη η ταχύτητα εντοπισμού, η οποία συχνά θυσιάζεται στο βωμό της ακρίβειας. Τα σύγχρονα συστήματα απαιτούν εντοπισμό πραγματικού χρόνου με εύλογα ποσοστά ακρίβειας. Ωστόσο, μέχρι στιγμής δεν υπάρχει στη βιβλιογραφία επαρκής αξιολόγηση των διαθέσιμων μεθόδων ως προς το αντιστάθμισμα ακρίβειας/ταχύτητας. Η παρούσα εργασία εξετάζει τα προαναφερόμενα μοντέλα εντοπισμού και αναγνώρισης ως προς το αντιστάθμισμα αυτό, αλλά και ως προς την αρχιτεκτονική, την κατανάλωση μνήμης και το υπολογιστικό και αποθηκευτικό κόστος. Η συγκριτική αξιολόγηση των μοντέλων πραγματοποιήθηκε στο ίδιο σύνολο δεδομένων (COCO) και πλαίσιο μηχανικής μάθησης (PyTorch) για την εξαγωγή δίκαιων συμπερασμάτων με τρόπο αναπαράξιμο από τον συνοδεύοντα ανοιχτό κώδικα. Επιλεγμένα μοντέλα που παρουσίασαν ταχύτητα εντοπισμού πραγματικού χρόνου δοκιμάστηκαν σε δεδομένα ροής αφού εκπαιδεύτηκαν στο επίκαιρο και μη εξερευνημένο σύνολο δεδομένων ανθρώπινων προσώπων με ιατρικές μάσκες (PWMFD). Στη συνέχεια, αναλύουμε τα οφέλη βελτιστοποιήσεων που έχουν χρησιμοποιηθεί στο παρελθόν για τον εντοπισμό ιατρικών μασκών, αλλά και βελτιστοποιήσεων άλλων σχετικών προβλημάτων, οι οποίες εφαρμόστηκαν για πρώτη φορά στον εντοπισμό ιατρικών μασκών. Αυτές είναι η μεταφορά μάθησης, οι τεχνικές ενίσχυσης δεδομένων και οι μηχανισμοί προσοχής. Χρησιμοποιώντας τα αποτελέσματα μας στο πλαίσιο της καταπολέμησης της πανδημίας COVID-19, προτείνουμε βελτιστοποιημένο μοντέλο βασισμένο στο YOLOv5s για τον εντοπισμό και την αναγνώριση σωστά ή λάθος τοποθετημένων ιατρικών μασκών το οποίο ξεπέρασε πάνω από δύο φορές σε ταχύτητα, διατηρώντας ίσα επίπεδα ακρίβειας (mAP 67%), το state-of-the-art μοντέλο SE-YOLOv3 στο σύνολο PWMFD.
|