Περίληψη: | Το πρόβλημα της δημιουργίας του γράφου σκηνής, όπου οι αναγνωρισμένες οντότητες,
μιας εικόνας, αποτελούν τους κόμβους και οι μεταξύ τους οπτικές σχέσεις, αποτελούν τις
κατευθυνόμενες ακμές, είναι ένα ιδιαίτερο πρόβλημα στον τομέα της υπολογιστικής όρασης,
το οποίο μπορεί να χαρακτηριστεί ως ενδιάμεσο σκαλοπάτι για την επίλυση, άλλων πιο
σύνθετων προβλημάτων, όπως η δημιουργία οπτικής επεξήγησης για μία φυσική σκηνή
(image captioning) ή και η ανάκτηση εικόνων (image retrieval), γεγονός που,
αδιαμφισβήτητα, το καθιστά σημαντικό.
΄Ομως, η ανισορροπία που υπάρχει ανάμεσα στο πλήθος των διαθέσιμων επισημειώσεων
για τα κατηγορήματα - οπτικές σχέσεις, στα σύνολα δεδομένων που χρησιμοποιούμε,
περιορίζει τις δυνατότητες των δικτύων που επιλύουν το συγκεκριμένο πρόβλημα, στην
πρόβλεψη μόνο εκείνων που διαθέτουν πληθώρα δειγμάτων. Σε συνδυασμό με την πιο
εξειδικευμένη, σημασιολογικά, φύση των κατηγορημάτων λίγων δειγμάτων, οδηγούμαστε σε
έλλειψη λεπτομέρειας, και εν τέλει πληροφορίας, στους γράφους που δημιουργούμε. Για τον
λόγο αυτό, στην παρούσα διπλωματική εργασία, ασχοληθήκαμε με το πως μπορούμε να
αμβλύνουμε την δυσκολία που επιφέρει η long tail κατανομή των δεδομένων των
κατηγορημάτων.
Οι συνεισφορές μας αφορούν στη συνάρτηση κόστους που χρησιμοποιούμε για την
εκπαίδευση των δικτύων, που επιλύουν το πρόβλημα της δημιουργίας του γράφου σκηνής και
ειδικότερα, σχετίζονται με:
• το πως μπορούμε να αξιοποιήσουμε τα κατηγορήματα πολλών δειγμάτων, προκειμένου
να παραγάγουμε, έμμεσα, επισημειώσεις (implicit annotations) για κατηγορήματα
με περιορισμένο πλήθος δεδομένων, μέσω ενός προεκπαιδευμένου, στο ίδιο σύνολο
δεδομένων, δικτύου.
• πως μπορούμε να αξιοποιήσουμε σε μεγαλύτερο βαθμό τα λιγοστά δείγματα
εκπαίδευσης που διαθέτουμε για ορισμένα κατηγορήματα, μέσω ενός επιπλέον όρου
(Head loss) στη συνάρτηση κόστους που χρησιμοποιούμε για την εκπαίδευση του
εκάστοτε δικτύου, προκειμένου να αποτρέψουμε τη μεροληψία του δικτύου προς τις
κλάσεις πολλών δειγμάτων.
|