Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης

Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μεϊμέτης, Δημήτριος
Άλλοι συγγραφείς: Meimetis, Dimitrios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14114
id nemertes-10889-14114
record_format dspace
spelling nemertes-10889-141142022-09-05T05:38:13Z Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης Visual question answering using deep learning methods Μεϊμέτης, Δημήτριος Meimetis, Dimitrios Μηχανική εκμάθηση Απάντηση σε οπτικές ερωτήσεις Machine learning Visual question answering Deepsort Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης. Given an image and a natural language question about the image, the task is to create a deep learning model that provides an accurate natural language answer. Mirroring real-world scenarios, such as helping the visually impaired, both the questions and answers are open-ended. Visual questions selectively target different areas of an image, including background details and underlying context. As a result, a system that succeeds at detailed image captioning typically needs a more detailed understanding of the image and complex reasoning than a system that produces generic statements. Moreover, these systems are amenable to automatic evaluation, since many open-ended answers contain only a few words or a closed set of answers that can be provided in a multiple-choice format. This diploma thesis explores the performance of existing machine learning methods and datasets. Important datasets and deep learning implementations are documented. Various architectures are tested and the datasets are picked and examined for objectivity and variety within their sample size. Furthermore, we explore ways to increase accuracy via data augmentation and extensive training of leading architectures. Lastly this thesis introduces an implementation of the deepsort object tracking algorithm with using 2 different object recognition models. The pros and cons for these implementations are explored and evaluated with car traffic videos. Lastly, we profile our application to figure out how to extract more performance. We implement some changes and the results are positive while also showing ways to further improve performance. 2020-10-21T15:17:31Z 2020-10-21T15:17:31Z 2020-07-08 http://hdl.handle.net/10889/14114 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Μηχανική εκμάθηση
Απάντηση σε οπτικές ερωτήσεις
Machine learning
Visual question answering
Deepsort
spellingShingle Μηχανική εκμάθηση
Απάντηση σε οπτικές ερωτήσεις
Machine learning
Visual question answering
Deepsort
Μεϊμέτης, Δημήτριος
Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
description Δεδομένου μίας εικόνας και μιας ερώτησης φυσικής γλώσσας για την εικόνα, ο βασικός στόχος είναι η δημιουργία ενός μοντέλου εκμάθησης που προσφέρει μια ακριβής απάντηση φυσικής γλώσσας. Αντικατοπτρίζοντας τα σενάρια πραγματικού κόσμου, όπως η βοήθεια στα άτομα με προβλήματα όρασης, τόσο οι ερωτήσεις όσο και οι απαντήσεις είναι ανοικτού περιεχομένου. Οι οπτικές ερωτήσεις επιλεκτικά στοχεύουν σε διαφορετικές περιοχές μιας εικόνας, συμπεριλαμβανομένων των λεπτομερειών του φόντου και των υποκείμενων πλαισίων. Ως αποτέλεσμα, ένα σύστημα που επιτυγχάνει στην δημιουργία σχολιασμών χρειάζεται συνήθως μια πιο λεπτομερή κατανόηση της εικόνας και πολύπλοκων συλλογισμών από ένα σύστημα που παράγει γενικές λεζάντες εικόνας. Επιπλέον, το σύστημα μπορεί να αξιολογηθεί αυτόματα, καθώς πολλές ανοικτές απαντήσεις περιέχουν μόνο λίγες λέξεις ή ένα κλειστό σύνολο απαντήσεων που μπορούν να παρασχεθούν σε μορφή πολλαπλών επιλογών. Αυτή η διπλωματική εργασία εξετάζει τις υπάρχουσες μεθόδους μηχανικής εκμάθησης και τα σύνολα δεδομένων στην αποδοτικότητα παραγωγής σχολιασμών είδους προτάσεων η γενικής λεζάντας. Τα μοντέλα εκμάθησης τεκμηριώνονται και τα σύνολα δεδομένων εξετάζονται και επιλέγονται για την αντικειμενικότητα και ποικιλία στο μέγεθος του δείγματος τους. Ακόμα, εξετάζουμε τρόπους αύξησης της ακρίβειας των μοντέλων αυτών μέσω αύξησης των δεδομένων προπόνησης και περαιτέρω εκπαίδευσης των ηγούμενων αρχιτεκτονικών. Ολοκληρώνοντας, η παρούσα εργασία έχει υλοποιήσει έναν αλγόριθμο παρακολούθησης αντικειμένων με την βοήθεια του αλγόριθμου deepsort και δυο διαφορετικών μοντέλων ανίχνευσης πολλαπλών αντικειμένων.Τα θετικά και αρνητικά χαρακτηριστικά αυτών των μεθόδων ζυγίζονται και αξιολογείται η απόδοση τους μέσω αναγνώρισης οχημάτων σε αυτοκινητόδρομους. Συνοψίζοντας, ελέγχουμε την εφαρμογή μας για πιθανόν τρόπους βελτιστοποίησης της ταχύτητας του. Υλοποιούμε αρκετές αλλαγές οι οποίες έχουν θετικά αποτελέσματα ενώ παράλληλα παρουσιάζουμε τρόπους περαιτέρω βελτίωσης.
author2 Meimetis, Dimitrios
author_facet Meimetis, Dimitrios
Μεϊμέτης, Δημήτριος
author Μεϊμέτης, Δημήτριος
author_sort Μεϊμέτης, Δημήτριος
title Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_short Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_full Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_fullStr Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_full_unstemmed Οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
title_sort οπτική απάντηση ερωτημάτων με τεχνικές βαθείας μάθησης
publishDate 2020
url http://hdl.handle.net/10889/14114
work_keys_str_mv AT meïmetēsdēmētrios optikēapantēsēerōtēmatōnmetechnikesbatheiasmathēsēs
AT meïmetēsdēmētrios visualquestionansweringusingdeeplearningmethods
_version_ 1771297154559639552