Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης

Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Μεϊμέτης, Δημήτριος
Άλλοι συγγραφείς:	Meimetis, Dimitrios
Γλώσσα:	Greek
Έκδοση:	2020
Θέματα:	Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort
Διαθέσιμο Online:	http://hdl.handle.net/10889/14114

id	nemertes-10889-14114
record_format	dspace
spelling	nemertes-10889-141142022-09-05T05:38:13Z Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης Visual question answering using deep learning methods Μεϊμέτης, Δημήτριος Meimetis, Dimitrios Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης. Given an image and a natural language question about the image, the task is to create a deep learning model that provides an accurate natural language answer. Mirroring real-world scenarios, such as helping the visually impaired, both the questions and answers are open-ended. Visual questions selectively target different areas of an image, including background details and underlying context. As a result, a system that succeeds at detailed image captioning typically needs a more detailed understanding of the image and complex reasoning than a system that produces generic statements. Moreover, these systems are amenable to automatic evaluation, since many open-ended answers contain only a few words or a closed set of answers that can be provided in a multiple-choice format. This diploma thesis explores the performance of existing machine learning methods and datasets. Important datasets and deep learning implementations are documented. Various architectures are tested and the datasets are picked and examined for objectivity and variety within their sample size. Furthermore, we explore ways to increase accuracy via data augmentation and extensive training of leading architectures. Lastly this thesis introduces an implementation of the deepsort object tracking algorithm with using 2 different object recognition models. The pros and cons for these implementations are explored and evaluated with car traffic videos. Lastly, we profile our application to figure out how to extract more performance. We implement some changes and the results are positive while also showing ways to further improve performance. 2020-10-21T15:17:31Z 2020-10-21T15:17:31Z 2020-07-08 http://hdl.handle.net/10889/14114 gr application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort
spellingShingle	Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort Μεϊμέτης, Δημήτριος Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
description	Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης.
author2	Meimetis, Dimitrios
author_facet	Meimetis, Dimitrios Μεϊμέτης, Δημήτριος
author	Μεϊμέτης, Δημήτριος
author_sort	Μεϊμέτης, Δημήτριος
title	Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_short	Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_full	Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_fullStr	Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_full_unstemmed	Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_sort	οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
publishDate	2020
url	http://hdl.handle.net/10889/14114
work_keys_str_mv	AT meïmetēsdēmētrios optikēapantēsēerōtēmatōnmetechnikesbatheiasmathēsēs AT meïmetēsdēmētrios visualquestionansweringusingdeeplearningmethods
_version_	1771297154559639552

Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης

Παρόμοια τεκμήρια