Περίληψη: | Η υπολογιστική όραση αποτελεί τα τελευταία χρόνια , ένα από τους πιο αναπτυσσόμενους κλάδους, γνωρίζοντας σημαντική άνθιση τόσο σε ερευνητικές όσο και σε πραγματικές εφαρμογές. Αιτία είναι οι αλγόριθμοι της βαθιάς μάθησης, που θεωρούνται από πολλούς το μέλλον της τεχνητής νοημοσύνης, και σε συνδυασμό με την πληθώρα των δεδομένων και την εξέλιξη των υπολογιστικών εκτίναξαν την απόδοση των συστημάτων σε πολύ υψηλά επίπεδα.
Η παρούσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη ενός συστήματος υπολογιστικής όρασης, που χρησιμοποιεί μεθόδους βαθιάς μηχανικής μάθησης για να αναγνωρίσει αντικείμενα σε εικόνες και να τις ταξινομήσει , με βάση το περιεχόμενο τους, σε κλάσεις. Αναλύονται και μελετώνται οι δύο βασικότερες τεχνικές βαθιάς μάθησης (deep learning), τα πλήρως συνδεδεμένα και τα συνελικτικά νευρωνικά δίκτυα , που είναι φορείς ευρείας αποδοχής από την επιστημονική κοινότητα για εφαρμογές υπολογιστικής όρασης. Παρουσιάζεται η δομή τους, οι ικανότητες τους, τα ελαττώματα τους καθώς και η διαδικασία εκπαίδευσης τους, ώστε να γίνει κατανοητός ο λόγος της υψηλής απόδοσής τους.
Στη συνέχεια, περιγράφεται ο αλγόριθμος που αναπτύχθηκε, τα στάδια υλοποίησης του και διάφοροι περιορισμοί του. Το σύστημα έχει τη μορφή βιβλιοθήκης που υλοποιεί πλήρως συνδεδεμένα και βαθιά συνελικτικά δίκτυα, παρέχοντας τη δυνατότητα στο χρήστη να κατασκευάσει και να εκπαιδεύσει το δικό του δίκτυο με τις παραμέτρους της επιλογής του. Για να επιταχυνθεί η εκπαίδευση όλοι οι υπολογισμοί πραγματοποιούνται παράλληλα σε κάρτα γραφικών.
Τέλος, η βιβλιοθήκη εξετάζεται σε δύο πραγματικά προβλήματα, την αναγνώριση χειρόγραφων ψηφίων και την αναγνώριση αντικειμένων, και παρουσιάζονται τα αποτελέσματα για διάφορες αρχιτεκτονικές και παραμέτρους.
|