Περίληψη: | Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης.
|