Περίληψη: | Η έννοια της αραιότητας (sparsity ή parsimony) έγκειται στην αναπαράσταση ενός φαινομένου με όσο το δυνατόν λιγότερες μεταβλητές. Στον τομέα της Μηχανική Μάθησης, η αραιή αναπαράσταση (Sparse Representation) αποτελεί μία μέθοδο μη-εποπτευόμενης μάθησης (unsupervised learning), όπου επιχειρείται η ελαχιστοποίησης του σφάλματος αναπαράστασης του σήματος με έναν περιορισμό αραιότητας. Έτσι, κάθε σήμα αναπαρίσταται σαν γραμμικός συνδυασμός ενός περιορισμένου αριθμού σημάτων ενός υπερπλήρους λεξικού, που ονομάζονται άτομα. Η επέκταση της αραιής αναπαράστασης σε μία αποδοτική πολλαπλών επιπέδων αρχιτεκτονική επιτυγχάνεται μέσα από τη σύνθεση της αρχιτεκτονικής Bag-of-Visual-words και της αρχιτεκτονικής deep Learning (βαθιά Μάθηση) για την ανάπτυξη μίας αρχιτεκτονικής μη-εποπτευόμενης μάθησης χαρακτηριστικών, που ονομάζεται Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση). Η βασική πρωτοτυπία της τοπολογίας Deep Sparse Coding είναι η μονάδα σύνδεσης που τοποθετείται μεταξύ των επιπέδων αραιής αναπαράστασης. Η μονάδα σύνδεσης συγκροτείται από μία διαδικασία τοπικής χωρικής συγκέντρωσης (local spatial pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και από μία διαδικασία ελάττωσης διάστασης (dimensionality reduction) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η τοπική χωρική συγκέντρωση εξασφαλίζει ότι τα σύνθετα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών απλούστερων χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη ενώ η μέθοδος ελάττωσης διάστασης εκτελείται λαμβάνοντας υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας έτσι ώστε να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Με αυτό τον τρόπο, η τοπολογία Deep Sparse Coding εξάγει ιεραρχικά χαρακτηριστικά από διαφορετικές βαθμίδες της όλης διαδικασίας εκμάθησης που αντιστοιχούν σε διαφορετικές χωρικές περιοχές της εικόνας. Άρα, δομούνται ιεραρχικές αναπαραστάσεις των δεδομένων και υπολογίζονται χαρακτηριστικά υψηλής τάξης (high-level) από τα βαθύτερα (υψηλότερα) επίπεδα (layers) μέσω της σύνθεσης των απλούστερων χαρακτηριστικών από τα χαμηλότερα (αρχικά) επίπεδα της τοπολογίας. Η τοπολογία Deep Sparse Coding εφαρμόζεται σε δύο σημαντικά προβλήματα υπολογιστικής όρασης, που είναι η αναγνώριση φυσικών εικόνων και η αναγνώριση χειρόγραφων υπογραφών (αναγνώριση βιομετρικών χαρακτηριστικών). Το αποτέλεσμα και στις δύο περιπτώσεις είναι ότι η χρήση πολλαπλών επιπέδων αραιής αναπαράστασης μέσω της μεθόδου Deep Sparse Coding οδηγεί στη βελτίωση της απόδοσης αναγνώρισης.
|