Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης
Το πρόβλημα της δημιουργίας του γράφου σκηνής, όπου οι αναγνωρισμένες οντότητες, μιας εικόνας, αποτελούν τους κόμβους και οι μεταξύ τους οπτικές σχέσεις, αποτελούν τις κατευθυνόμενες ακμές, είναι ένα ιδιαίτερο πρόβλημα στον τομέα της υπολογιστικής όρασης, το οποίο μπορεί να χαρακτηριστεί ως ενδιά...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/16432 |
id |
nemertes-10889-16432 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-164322022-09-05T20:45:40Z Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης Visual relationship detection with supervised learning Παπανικολάου, Ορέστης Papanikolaou, Orestis Συνάρτηση κόστους Οπτικές σχέσεις Γράφος σκηνής Long tail κατανομή Έμμεσες επισημειώσεις Loss function Visual relations Scene graphs Long tail distribution Implicit annotations Το πρόβλημα της δημιουργίας του γράφου σκηνής, όπου οι αναγνωρισμένες οντότητες, μιας εικόνας, αποτελούν τους κόμβους και οι μεταξύ τους οπτικές σχέσεις, αποτελούν τις κατευθυνόμενες ακμές, είναι ένα ιδιαίτερο πρόβλημα στον τομέα της υπολογιστικής όρασης, το οποίο μπορεί να χαρακτηριστεί ως ενδιάμεσο σκαλοπάτι για την επίλυση, άλλων πιο σύνθετων προβλημάτων, όπως η δημιουργία οπτικής επεξήγησης για μία φυσική σκηνή (image captioning) ή και η ανάκτηση εικόνων (image retrieval), γεγονός που, αδιαμφισβήτητα, το καθιστά σημαντικό. ΄Ομως, η ανισορροπία που υπάρχει ανάμεσα στο πλήθος των διαθέσιμων επισημειώσεων για τα κατηγορήματα - οπτικές σχέσεις, στα σύνολα δεδομένων που χρησιμοποιούμε, περιορίζει τις δυνατότητες των δικτύων που επιλύουν το συγκεκριμένο πρόβλημα, στην πρόβλεψη μόνο εκείνων που διαθέτουν πληθώρα δειγμάτων. Σε συνδυασμό με την πιο εξειδικευμένη, σημασιολογικά, φύση των κατηγορημάτων λίγων δειγμάτων, οδηγούμαστε σε έλλειψη λεπτομέρειας, και εν τέλει πληροφορίας, στους γράφους που δημιουργούμε. Για τον λόγο αυτό, στην παρούσα διπλωματική εργασία, ασχοληθήκαμε με το πως μπορούμε να αμβλύνουμε την δυσκολία που επιφέρει η long tail κατανομή των δεδομένων των κατηγορημάτων. Οι συνεισφορές μας αφορούν στη συνάρτηση κόστους που χρησιμοποιούμε για την εκπαίδευση των δικτύων, που επιλύουν το πρόβλημα της δημιουργίας του γράφου σκηνής και ειδικότερα, σχετίζονται με: • το πως μπορούμε να αξιοποιήσουμε τα κατηγορήματα πολλών δειγμάτων, προκειμένου να παραγάγουμε, έμμεσα, επισημειώσεις (implicit annotations) για κατηγορήματα με περιορισμένο πλήθος δεδομένων, μέσω ενός προεκπαιδευμένου, στο ίδιο σύνολο δεδομένων, δικτύου. • πως μπορούμε να αξιοποιήσουμε σε μεγαλύτερο βαθμό τα λιγοστά δείγματα εκπαίδευσης που διαθέτουμε για ορισμένα κατηγορήματα, μέσω ενός επιπλέον όρου (Head loss) στη συνάρτηση κόστους που χρησιμοποιούμε για την εκπαίδευση του εκάστοτε δικτύου, προκειμένου να αποτρέψουμε τη μεροληψία του δικτύου προς τις κλάσεις πολλών δειγμάτων. Scene Graph Generation, where the detected objects act as nodes, and their visual relationships act as directed edges, is a peculiar task under the computer vision field, as it plays the role of an intermediate step, in order to solve more difficult tasks, such as image captioning or image retrieval, which undoubtedly, grounds it as a really important problem. Predicates’ data imbalance, reduces the capability of the networks that we train under this task, as it limits the classes of the predicates that we can predict, only to those that are provided with a significant amount of training samples. If we also consider the fact that limited, in terms of data, predicates are more fine-grained, at least in a conceptual way, we end up with scene graphs that lack of information. Due to these facts, this thesis main purpose is to find a way to alleviate the challenge that the long tail distribution of predicates provokes. Our main contributions, are in association with the loss function that we use to train our networks, and they are as follows: • how to take advantage of rich, in terms of training samples, classes, in order to produce annotations, in an implicit way (implicit annotations), concerning predicates with less training samples • how to exploit predicate classes with less training samples, through an extra loss term (Head loss), in order for them not to be skewed by head classes during inference. 2022-07-11T06:17:20Z 2022-07-11T06:17:20Z 2022-07-08 http://hdl.handle.net/10889/16432 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Συνάρτηση κόστους Οπτικές σχέσεις Γράφος σκηνής Long tail κατανομή Έμμεσες επισημειώσεις Loss function Visual relations Scene graphs Long tail distribution Implicit annotations |
spellingShingle |
Συνάρτηση κόστους Οπτικές σχέσεις Γράφος σκηνής Long tail κατανομή Έμμεσες επισημειώσεις Loss function Visual relations Scene graphs Long tail distribution Implicit annotations Παπανικολάου, Ορέστης Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
description |
Το πρόβλημα της δημιουργίας του γράφου σκηνής, όπου οι αναγνωρισμένες οντότητες,
μιας εικόνας, αποτελούν τους κόμβους και οι μεταξύ τους οπτικές σχέσεις, αποτελούν τις
κατευθυνόμενες ακμές, είναι ένα ιδιαίτερο πρόβλημα στον τομέα της υπολογιστικής όρασης,
το οποίο μπορεί να χαρακτηριστεί ως ενδιάμεσο σκαλοπάτι για την επίλυση, άλλων πιο
σύνθετων προβλημάτων, όπως η δημιουργία οπτικής επεξήγησης για μία φυσική σκηνή
(image captioning) ή και η ανάκτηση εικόνων (image retrieval), γεγονός που,
αδιαμφισβήτητα, το καθιστά σημαντικό.
΄Ομως, η ανισορροπία που υπάρχει ανάμεσα στο πλήθος των διαθέσιμων επισημειώσεων
για τα κατηγορήματα - οπτικές σχέσεις, στα σύνολα δεδομένων που χρησιμοποιούμε,
περιορίζει τις δυνατότητες των δικτύων που επιλύουν το συγκεκριμένο πρόβλημα, στην
πρόβλεψη μόνο εκείνων που διαθέτουν πληθώρα δειγμάτων. Σε συνδυασμό με την πιο
εξειδικευμένη, σημασιολογικά, φύση των κατηγορημάτων λίγων δειγμάτων, οδηγούμαστε σε
έλλειψη λεπτομέρειας, και εν τέλει πληροφορίας, στους γράφους που δημιουργούμε. Για τον
λόγο αυτό, στην παρούσα διπλωματική εργασία, ασχοληθήκαμε με το πως μπορούμε να
αμβλύνουμε την δυσκολία που επιφέρει η long tail κατανομή των δεδομένων των
κατηγορημάτων.
Οι συνεισφορές μας αφορούν στη συνάρτηση κόστους που χρησιμοποιούμε για την
εκπαίδευση των δικτύων, που επιλύουν το πρόβλημα της δημιουργίας του γράφου σκηνής και
ειδικότερα, σχετίζονται με:
• το πως μπορούμε να αξιοποιήσουμε τα κατηγορήματα πολλών δειγμάτων, προκειμένου
να παραγάγουμε, έμμεσα, επισημειώσεις (implicit annotations) για κατηγορήματα
με περιορισμένο πλήθος δεδομένων, μέσω ενός προεκπαιδευμένου, στο ίδιο σύνολο
δεδομένων, δικτύου.
• πως μπορούμε να αξιοποιήσουμε σε μεγαλύτερο βαθμό τα λιγοστά δείγματα
εκπαίδευσης που διαθέτουμε για ορισμένα κατηγορήματα, μέσω ενός επιπλέον όρου
(Head loss) στη συνάρτηση κόστους που χρησιμοποιούμε για την εκπαίδευση του
εκάστοτε δικτύου, προκειμένου να αποτρέψουμε τη μεροληψία του δικτύου προς τις
κλάσεις πολλών δειγμάτων. |
author2 |
Papanikolaou, Orestis |
author_facet |
Papanikolaou, Orestis Παπανικολάου, Ορέστης |
author |
Παπανικολάου, Ορέστης |
author_sort |
Παπανικολάου, Ορέστης |
title |
Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
title_short |
Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
title_full |
Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
title_fullStr |
Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
title_full_unstemmed |
Αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
title_sort |
αναγνώριση οπτικών σχέσεων σε εικόνες μέσω επιβλεπόμενων τεχνικών μάθησης |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16432 |
work_keys_str_mv |
AT papanikolaouorestēs anagnōrisēoptikōnscheseōnseeikonesmesōepiblepomenōntechnikōnmathēsēs AT papanikolaouorestēs visualrelationshipdetectionwithsupervisedlearning |
_version_ |
1771297354513645568 |