Περίληψη: | Στην παρούσα διδακτορική διατριβή προτείνουμε έναν βασικό αλγόριθμο, τον GenProxSGD, για τον υπολογισμό μιας CANDECOM/PARAFAC (CP) αποδόμησης από μερικώς παρατηρούμενα δεδομένα, ο οποίος βασίζεται στον τελεστή εγγύτητας και αντιμετωπίζει το πρόβλημα βελτιστοποίησης λύνοντας τοπικά προβλήματα βελτιστοποίησης, με την έννοια ότι σε κάθε επανάληψη υπολογίζεται ένα σημείο το οποίο να είναι σε εγγύτητα με το προηγούμενο σημείο, αλλά να οδηγεί προς το ελάχιστο της αντικειμενικής συνάρτησης. Επιπλέον, προτείνουμε δύο κατανεμημένους αλγορίθμους, τους ParallelProxSGD και StrProxSGD, που βασίζονται στον τελεστή εγγύτητας και στην παραπάνω ιδέα, για τον υπολογισμό μιας CP αποδόμησης από μερικώς παρατηρούμενα δεδομένα. Οι αλγόριθμοι αυτοί είναι κατάλληλοι και αξιολογήθηκαν σε δεδομένα μεγάλου όγκου. Δείξαμε πειραματικά ότι οι αλγόριθμοι αυτοί έχουν πολύ καλές ιδιότητες κλιμάκωσης ως προς διάφορες παραμέτρους (διαστατικότητα, βαθμός αποδόμησης, επιτάχυνση (speed-up) κ.τ.λ.). Στη συνέχεια, προτείνουμε έναν αλγόριθμο κατηγοριοποίησης για Μάθηση Πολλαπλών Στιγμιότυπων, τον TensMIL. Στον TensMIL προτείνουμε μια νέα αναπαράσταση των δεδομένων με τανυστές 3ης τάξης, και μια μέθοδο για τον υπολογισμό χαρακτηριστικών με CP αποδόμηση σε επίπεδο στιγμιότυπων, τόσο από πλήρως όσο και από μερικώς παρατηρούμενα δεδομένα. Ο TensMIL αναπτύσσεται σε δύο φάσεις. Στην πρώτη φάση, μια μη γραμμική παλινδρόμηση υπολογίζει την απόκριση των στιγμιότυπων, ενώ στη δεύτερη φάση υπολογίζονται οι κατανομές των αποκρίσεων ανά αντικείμενο και εκπαιδεύεται ένας QDA ταξινομητής. Με τη βοήθεια του TensMIL, επιλύσαμε δύο προβλήματα με εντελώς διαφορετική φύση μεταξύ τους: την κατηγοριοποίηση ιστοπαθολογικών εικόνων καρκίνου του μαστού σε κακοήθεις και καλοήθεις, καθώς και την εκτίμηση της ευθραυστότητας (frailty) ηλικιωμένων ατόμων από πολυδιάστατα σήματα παρακολούθησης, που περιλαμβάνουν επιταχυνσιόμετρα, καρδιογράφημα και παρακολούθηση της αναπνευστικής λειτουργίας. Και στις δύο περιπτώσεις, αξιολογήσαμε τον αλγόριθμο τόσο από πλήρως όσο και από μερικώς (10% των δεδομένων) παρατηρούμενα δεδομένα με συγκρίσιμα αποτελέσματα σε σχέση με αλγορίθμους αιχμής. Στη συνέχεια, επεκτείναμε και βελτιώσαμε τον αλγόριθμο TensMIL, προσθέτοντας περιορισμούς μη αρνητικότητας στην αποδόμηση CP καθώς και μια φάση επιλογής στιγμιότυπων, βασισμένη στα διαστήματα εμπιστοσύνης των αποκρίσεων της μη γραμμικής παλινδρόμησης. Ο νέος αυτός αλγόριθμος, TensMIL2, αξιολογήθηκε στην κατηγοριοποίηση φυσικών εικόνων άγριων ζώων, ένα σύνολο αναφοράς στη βιβλιογραφία της Μάθησης Πολλαπλών Στιγμιότυπων. Κατά τη πειραματική διαδικασία, συμπεράναμε ότι ο TensMIL2 έχει καλύτερη απόδοση από αλγόριθμους Μάθησης Πολλαπλών Στιγμιότυπων αιχμής καθώς και καλύτερη απόδοση από αλγόριθμους Μάθησης Πολλαπλών Στιγμιότυπων που βασίζονται στη βαθιά μηχανική μάθηση (deep learning). Η αξιολόγηση του TensMIL2 έγινε τόσο από πλήρως όσο και από μερικώς (10% των δεδομένων) παρατηρούμενα δεδομένα. Η πειραματική διαδικασία έδειξε, ότι στις περισσότερες των περιπτώσεων ο TensMIL2, όταν εφαρμόστηκε σε μερικώς παρατηρούμενα δεδομένα (10% παρατηρούμενες τιμές), είχε καλύτερη ή συγκρίσιμη απόδοση, σε σχέση με τους αλγορίθμους αιχμής όταν εφαρμοζόταν σε πλήρη δεδομένα. Επιπλέον, προτείνουμε μια τεχνική επιλογής στιγμιότυπων για αλγόριθμους Μάθησης Πολλαπλών Στιγμιότυπων που βασίζεται στο μέτρο της εντροπίας καθώς και μια τεχνική που βασίζεται στην ποιότητα της συσταδοποίησης, τις οποίες ενσωματώσαμε στον αλγόριθμο JC2MIL, ο οποίος δεν διέθετε κάποια διαδικασία επιλογής στιγμιότυπων. Τέλος, προτείνουμε και μια νέα διαδικασία εξαγωγής στιγμιότυπων και χαρακτηριστικών πολλαπλής κλίμακας, μέσω της αποδόμησης CP. Η αξιολόγηση όλων των προτεινόμενων τεχνικών έγινε χρησιμοποιώντας ως αλγόριθμο αναφοράς τον JC2MIL. Η πειραματική διαδικασία έδειξε ότι στις περισσότερες των περιπτώσεων, οι προτεινόμενες τεχνικές επιλογής στιγμιότυπων βελτίωσαν την απόδοση του JC2MIL.
|