Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/14114 |
id |
nemertes-10889-14114 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-141142022-09-05T05:38:13Z Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης Visual question answering using deep learning methods Μεϊμέτης, Δημήτριος Meimetis, Dimitrios Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης. Given an image and a natural language question about the image, the task is to create a deep learning model that provides an accurate natural language answer. Mirroring real-world scenarios, such as helping the visually impaired, both the questions and answers are open-ended. Visual questions selectively target different areas of an image, including background details and underlying context. As a result, a system that succeeds at detailed image captioning typically needs a more detailed understanding of the image and complex reasoning than a system that produces generic statements. Moreover, these systems are amenable to automatic evaluation, since many open-ended answers contain only a few words or a closed set of answers that can be provided in a multiple-choice format. This diploma thesis explores the performance of existing machine learning methods and datasets. Important datasets and deep learning implementations are documented. Various architectures are tested and the datasets are picked and examined for objectivity and variety within their sample size. Furthermore, we explore ways to increase accuracy via data augmentation and extensive training of leading architectures. Lastly this thesis introduces an implementation of the deepsort object tracking algorithm with using 2 different object recognition models. The pros and cons for these implementations are explored and evaluated with car traffic videos. Lastly, we profile our application to figure out how to extract more performance. We implement some changes and the results are positive while also showing ways to further improve performance. 2020-10-21T15:17:31Z 2020-10-21T15:17:31Z 2020-07-08 http://hdl.handle.net/10889/14114 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort |
spellingShingle |
Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort Μεϊμέτης, Δημήτριος Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
description |
Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης. |
author2 |
Meimetis, Dimitrios |
author_facet |
Meimetis, Dimitrios Μεϊμέτης, Δημήτριος |
author |
Μεϊμέτης, Δημήτριος |
author_sort |
Μεϊμέτης, Δημήτριος |
title |
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
title_short |
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
title_full |
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
title_fullStr |
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
title_full_unstemmed |
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
title_sort |
οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/14114 |
work_keys_str_mv |
AT meïmetēsdēmētrios optikēapantēsēerōtēmatōnmetechnikesbatheiasmathēsēs AT meïmetēsdēmētrios visualquestionansweringusingdeeplearningmethods |
_version_ |
1771297154559639552 |