Development of semi-supervised machine learning algorithms and applications
The well-established approach of Supervised learning is a branch of the broader science of artificial intelligence. The aim of this learning philosophy is the development of computer programs to automatically improve their experience through the extraction of useful information from annotated exampl...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | English |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/23907 |
id |
nemertes-10889-23907 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
English |
topic |
Machine learning Semi-supervised learning Μηχανική μάθηση Ημι-επιβλεπόμενη μάθηση |
spellingShingle |
Machine learning Semi-supervised learning Μηχανική μάθηση Ημι-επιβλεπόμενη μάθηση Φαζάκης, Νικόλαος Development of semi-supervised machine learning algorithms and applications |
description |
The well-established approach of Supervised learning is a branch of the broader science of artificial intelligence. The aim of this learning philosophy is the development of computer programs to automatically improve their experience through the extraction of useful information from annotated examples. The methodology of this learning approach is extremely useful in real world applications where large collections of data are available related to problems where absolute associations of the input data and the outcomes cannot be discovered or approximated by explicit mathematic formulations. Such scientific fields include observed data of text, audio or image formats.
The classic methodology of supervised learning comes with the cost of annotating, usually referred as ‘labeling’ process, the available data instances of a dataset often by human experts in a field. Considering that modern big datasets can have terabytes of data; it is a very inefficient procedure for humans to tackle. This intrinsic bottleneck is addressed by Semi-supervised learning (SSL), which allows the model to incorporate part or all of the available unlabeled data into its supervised learning. The goal of SSL is to maximize a model's learning performance while reducing the amount of labor required by using such newly labeled instances.
This thesis is oriented in the improvement of a sub-category of SSL algorithms referred as self-labeled techniques, and the application of them in real world problems. Numerous important questions are answered such as: Which learning algorithms can best utilize the self-labeling schemes? Can the introduction of ensemble learning along with semi-supervised learning provide classification improvements in real world problems such as speaker identification or educational grade prediction? Is it possible to define a new multi-regressor learning scheme based on self-labeling that can rival the existing semi-supervised regression algorithms? Can iterative data imputation be improved through the introduction of self-training? In health-related datasets is it possible to take advantage of unlabeled test sets to balance the shortage of examples through semi-supervised transductive learning? |
author2 |
Fazakis, Nikos |
author_facet |
Fazakis, Nikos Φαζάκης, Νικόλαος |
author |
Φαζάκης, Νικόλαος |
author_sort |
Φαζάκης, Νικόλαος |
title |
Development of semi-supervised machine learning algorithms and applications |
title_short |
Development of semi-supervised machine learning algorithms and applications |
title_full |
Development of semi-supervised machine learning algorithms and applications |
title_fullStr |
Development of semi-supervised machine learning algorithms and applications |
title_full_unstemmed |
Development of semi-supervised machine learning algorithms and applications |
title_sort |
development of semi-supervised machine learning algorithms and applications |
publishDate |
2022 |
url |
https://hdl.handle.net/10889/23907 |
work_keys_str_mv |
AT phazakēsnikolaos developmentofsemisupervisedmachinelearningalgorithmsandapplications AT phazakēsnikolaos anaptyxēalgorithmōnēmiepiblepomenēsmēchanikēsmathēsēskaiepharmoges |
_version_ |
1771297350881378304 |
spelling |
nemertes-10889-239072022-11-15T04:38:21Z Development of semi-supervised machine learning algorithms and applications Ανάπτυξη αλγορίθμων ημι-επιβλεπόμενης μηχανικής μάθησης και εφαρμογές Φαζάκης, Νικόλαος Fazakis, Nikos Machine learning Semi-supervised learning Μηχανική μάθηση Ημι-επιβλεπόμενη μάθηση The well-established approach of Supervised learning is a branch of the broader science of artificial intelligence. The aim of this learning philosophy is the development of computer programs to automatically improve their experience through the extraction of useful information from annotated examples. The methodology of this learning approach is extremely useful in real world applications where large collections of data are available related to problems where absolute associations of the input data and the outcomes cannot be discovered or approximated by explicit mathematic formulations. Such scientific fields include observed data of text, audio or image formats. The classic methodology of supervised learning comes with the cost of annotating, usually referred as ‘labeling’ process, the available data instances of a dataset often by human experts in a field. Considering that modern big datasets can have terabytes of data; it is a very inefficient procedure for humans to tackle. This intrinsic bottleneck is addressed by Semi-supervised learning (SSL), which allows the model to incorporate part or all of the available unlabeled data into its supervised learning. The goal of SSL is to maximize a model's learning performance while reducing the amount of labor required by using such newly labeled instances. This thesis is oriented in the improvement of a sub-category of SSL algorithms referred as self-labeled techniques, and the application of them in real world problems. Numerous important questions are answered such as: Which learning algorithms can best utilize the self-labeling schemes? Can the introduction of ensemble learning along with semi-supervised learning provide classification improvements in real world problems such as speaker identification or educational grade prediction? Is it possible to define a new multi-regressor learning scheme based on self-labeling that can rival the existing semi-supervised regression algorithms? Can iterative data imputation be improved through the introduction of self-training? In health-related datasets is it possible to take advantage of unlabeled test sets to balance the shortage of examples through semi-supervised transductive learning? Στην επιστήμη και τη μηχανική, η Τεχνητή Νοημοσύνη (ΤΝ) είναι ένας από τους νεότερους τομείς έρευνας. Η γένεση του πεδίου έγινε το έτος 1956, όταν εισήχθη και ο ίδιος ο όρος σε επιστημονικό συνέδριο που έλαβε χώρα στο Ανόβερο των ΗΠΑ. Ειδικά τις τελευταίες δύο δεκαετίες, η επιστήμη των υπολογιστών έχει υποστεί μια σιωπηλή επανάσταση, βλέπουμε συνεχώς λογισμικό υπολογιστών που μπορεί να μάθει και να προσαρμόσει αυτόματα τις ενέργειές του για να καλύψει καλύτερα τις ανάγκες του έργου του. Τα συστήματα συστάσεων, η αναγνώριση αντικειμένων και τα αυτόνομα οχήματα είναι μερικές από τις εφαρμογές με τις οποίες έχουμε συνηθίσει να αλληλοεπιδρούμε καθημερινά μέσω εξελιγμένων συσκευών και δικτυακών πλατφορμών. Ένα άλλο ισχυρό υποπεδίο της ΤΝ που έχει παράγει τρομερά αποτελέσματα και απαράμιλλη προγνωστική απόδοση τα τελευταία χρόνια είναι η Μηχανική Μάθηση (ΜΜ). Η γενική έννοια της ΜΜ είναι η χρήση δεδομένων ως σύνολο κατάρτισης, για την εκπαίδευση ενός ευρέος φάσματος διαθέσιμων αλγοριθμικών οικογενειών όπως Μπεϋζιανοί ταξινομητές, Δένδρα Απόφασης, Μηχανές Διανυσμάτων Υποστήριξης κ.λ.π. Ένα από τα σημαντικότερα προβλήματα που παρατηρούνται στον τομέα της ΜΜ είναι η διαδικασία ταξινόμησης. Χρησιμοποιώντας αυτόν τον όρο, το πρόβλημα της ταυτοποίησης και κατηγοριοποίησης μιας νέας παρατήρησης (που ονομάζεται επίσης παράδειγμα) σε ένα σύνολο προκαθορισμένων κατηγοριών από τη βάση ενός συνόλου εκπαίδευσης. Άλλες μορφές προβλημάτων περιλαμβάνουν, την ανάλυση παλινδρόμησης που πηγάζει από το κλάδος της στατιστικής μοντελοποίησης και στη συνέχεια χρησιμοποιήθηκε συστηματικά ως προσέγγιση της ΜΜ. Ο κύριος στόχος ενός μοντέλου παλινδρόμησης είναι να περιγράψει ή τουλάχιστον να προσεγγίσει τη σχέση μεταξύ ενός αριθμού ανεξάρτητων μεταβλητών (συνήθως ονομάζονται συν -μεταβλητές ή χαρακτηριστικά) και μιας εξαρτημένης μεταβλητής γνωστής ως στόχο. Επιπλέον, υπάρχει η κατηγορία αλγορίθμων που μοιράζονται τον στόχο της ομαδοποίησης παρόμοιων αντικειμένων, κρίνοντας τις τιμές των χαρακτηριστικών τους, και οργανώνοντας τα σε ένα αριθμό συστάδων. Κάποιες σημαντικές έννοιες που αναφέρονται συχνά στο πεδίο της ΜΜ την ομαδοποίηση εκμαθητών και την συμπλήρωση ελλιπών τιμών. Η θεωρία Ομαδοποιημένων εκμαθητών υποστηρίζει ότι ένα σύνολο ομαδοποιημένων ταξινομητών δύναται να παράγει σταθερά καλύτερα αποτελέσματα ακρίβειας από τους μεμονωμένους ταξινομητές του. Σε πολλές εφαρμογές του πραγματικού κόσμου, οι επιστήμονες αντιμετωπίζουν συχνά το πρόβλημα των ελλιπών συνόλων δεδομένων. Αυτό το φαινόμενο είναι ιδιαίτερα έντονο σε ιατρικά, κλινικά δεδομένα, βιομηχανικά και δεδομένα έρευνας . Τα ατελή δεδομένα είναι ένα συχνό φαινόμενο που αναφέρεται στην παρουσία τιμών που λείπουν σε ένα ή περισσότερα χαρακτηριστικά ενός συνόλου δεδομένων για διάφορους λόγους, όπως λάθη χειροκίνητης εισαγωγής δεδομένων, βλάβες εξοπλισμού, επινόηση βλαβών, ανακριβείς μετρήσεις κατά τη συλλογή δεδομένων , τυχαία διαγραφή, μη απάντηση, άρνηση παροχής προσωπικών πληροφοριών και ούτω καθεξής. Άλλες σημαντικές έννοιες που συναντώνται κατά τις διαδικασίες εφαρμογής της ΜΜ συμπεριλαμβάνουν, τη μέθοδος διασταυρούμενης επικύρωσης θεωρείται μέθοδος επαναληπτικής δειγματοληψίας και συνήθως χρησιμοποιείται όταν το σύνολο δεδομένων που χρησιμοποιείται είναι περιορισμένο σε μέγεθος δείγματος, αν και μπορεί να χρησιμοποιηθεί σε όλα τα άλλα σενάρια πειράματος χωρίς να βλάψει τη γενικότητα των αποτελεσμάτων. Καθώς επίσης και την αξιολόγηση διαφοράς απόδοσης αλγορίθμων με χρήση στατιστικών τεστ, όπως το τεστ Φρίντμαν, ώστε να διασφαλιστεί η στατιστική σημαντικότητα στα αποτελέσματα απόδοσης συγκρινόμενων μεθοδολογιών εκμάθησης. Ανάμεσα στις χαρακτηριστικές μεθόδους Επιβλεπόμενης και Μη-Επιβλεπόμενης μάθησης ορίζεται μια ακόμα προσέγγιση μάθησης η Ημι-Επιβλεπόμενη μάθηση (ΗΜ). Η παλαιότερη αναφορά της ως αυτοτελή τρόπο μάθησης, εμφανίστηκε στη βιβλιογραφία στα μέσα της δεκαετίας του 1960, με τον αλγόριθμο «περιτυλίγματος» της αυτό-εκπαίδευσης (γνωστός και ως ή αυτό-μάθηση). Αυτός ο όρος περιγράφει μια επαναληπτική μορφή μάθησης που εκμεταλλεύεται τα μη επισημασμένα δεδομένα με την καθοδήγηση της κατάλληλης συνάρτησης απόφασης. Υποθέτοντας ότι έχουμε να αντιμετωπίσουμε ένα δυαδικό πρόβλημα ταξινόμησης, το όριο απόφασης για την απόδοση ετικέτας ενός στοιχειού του συνόλου ελέγχου βρίσκεται στο μέσο της απόστασης δυο δοθέντων παρατηρήσεων. Οπότε ερχόμενο ένα καινούργιο παράδειγμα προς κατηγοριοποίηση θα λάβει μια ετικέτα ανάλογα με το διαχωρισμό του από το όριο απόφασης. Σε περίπτωση ωστόσο που το παράδειγμα αυτό βρεθεί ακριβώς πάνω στο όριο απόφασης, θα λάβει προφανώς μια τυχαία ετικέτα, εάν όμως εξάγονταν και αξιοποιούνταν κάποιες πρόσθετες πληροφορίες σχετικά με την κατανομή ενός συνόλου μη-ετικετοποιημένων σχετικών δεδομένων, τότε ίσως δημιουργείτο έμμεσα και η δυνατότητα απόδοσης μιας συγκεκριμένης ετικέτας στο στοιχειό αυτό, παρόλο που τα στοιχεία του μη-ετικετοποιημένου συνόλου δεν περιλαμβάνουν ουδεμιά πληροφορία σχετικά με τις πιθανές ετικέτες τους. Προφανώς, σε αυτή την περίπτωση θα μπορούσε να επαναπροσδιοριστεί το όριο απόφασης και το στοιχείο να παραλάβει πλέον μια ετικέτα αξιοποιώντας την καινούργια πληροφορία που προστέθηκε στην διαδικασία κατηγοριοποίησης. Ωστόσο για να λειτουργήσει η διαδικασία αυτή στη πράξη θα πρέπει να πληρούνται μια ή περισσότερος από τις υποθέσεις Ομαλότητας, Συστάδας ή Πολλαπλότητας στην κατανομή των δεδομένων. Ενδιαφέρουσα κατεύθυνση δίδει η ταξινόμηση αλγορίθμων αυτό-σήμανσης που έχει προταθεί, ως εργαλείο διερεύνησης πιθανών βελτιώσεων τον αλγορίθμων ΗΜ. Έτσι οι αλγόριθμοι μπορούν να διακριθούν σε κατηγορίες ανάλογα με, το πλήθος των όψεων των χαρακτηριστικών εισόδου, την πληθικότητα του συνόλου των διαφορετικών τύπων αλγορίθμων που χρησιμοποιούνται κατά τη διεργασία δημιουργίας του μοντέλου μάθησης και το πλήθος των μοντέλων κατηγοριοποίησης που εφαρμόζονται. Οι αλγόριθμοι αυτό-σήμανσης που συνήθως εντοπίζονται στην βιβλιογραφία περιλαμβάνουν τους Co-Training, Tri-training, Co-Forest, ADE-Co-Forest, RASCO, Democratic-Co και Self-training. Αυτή η διατριβή παρουσίασε έξι ερευνητικές εργασίες που μαζί με αρκετές άλλες δημοσιεύσεις συγκρίθηκαν με άλλες τεχνικές ημι-εποπτευόμενων μεθοδολογιών μάθησης ενώ τα ευρήματα αναλύθηκαν και επικυρώθηκαν πειραματικά. Στο πεδίο της ΗΜ ταξινόμησης, η ενθυλάκωση ομάδοποιημένων ταξινομητών που παράγουν διαφορετικά μοντέλα μέσω εκπαιδευτικής διαδικασίας σε ημι-εποπτευόμενα σχήματα φαίνεται να είναι μια πολλά υποσχόμενη στρατηγική για ενισχυμένη ικανότητα μάθησης. Η πρώτη συμβολή αυτής της εργασίας εισάγει ένα αυτο-εκπαιδευμένο σύστημα ταξινόμησης που χρησιμοποιεί τον ταξινομητή Περιστροφικών Δασών, και συγκρίθηκε εξαντλητικά με τους περισσότερους από τους πιο σύγχρονους αλγόριθμους ημι-εποπτευόμενων περιτυλίξεων και παραλλαγές τους. Η στατιστική ανάλυση επέδειξε ότι o προτεινόμενος Self-RotF υπερτερεί σημαντικά των υπολοίπων αλγορίθμων. Επιπλέον, εξετάστηκε επίσης η επίδραση της απόδοσής του μέσω ενός μηχανισμού στάθμισης στα εισερχόμενα στιγμιότυπα χωρίς ετικέτα, γεγονός που οδήγησε σε περαιτέρω βελτίωση της πρόβλεψης για τη σταθμισμένη έκδοση του προτεινόμενου αλγορίθμου (Weighted-Self-RotF). Επιπλέον εφαρμογή μιας τροποποιημένης έκδοσης του σχήματος αυτού ταξινόμησης έγινε στο επιστημονικό πεδίο της αναγνώρισης ομιλητών και αποτέλεσε μια από τις πρώτες εργασίες στο χώρο με ενθαρρυντικά αποτελέσματα. Ερευνήθηκε επίσης και το υπο-πεδίο της ΗΜ παλινδρόμησης, Ο συνδυασμός ομάδοποιημένων παλινδρομητών μελετήθηκε επίσης γύρω από ένα αλγοριθμο περιτυλίγματος αυτό-εκπαίδευσης (MSSRA). Η σχετική εργασία βασίστηκε κυρίως στο επιχείρημα ότι ένα σύνολο παλινδρόμησης είναι εγγυημένο ότι θα αποδίδει καλύτερα κατά μέσο όρο, σε πολλά σύνολα δεδομένων, από ένα τυχαία επιλεγμένο παλινδρομιτή μεταξύ αυτών που κατασκευάζουν την ομάδα. Υπό αυτό το σκεπτικό, έγινε η πρόταση ενός ημι-εποπτευόμενου συστήματος παλινδρόμησης πολλαπλών σχημάτων, αξιοποιώντας τη μετρική MRL που ορίσθηκε στην ίδια εργασία για να συνδυάσει πολλαπλές αποφάσεις παλινδρόμησης και να παράσχει αξιόπιστη επισήμανση για τους στόχους χωρίς ετικέτα. Η εκτεταμένη ανάλυση συγκεκριμένων σεναρίων πειραματισμού, καθώς και η πολυπλοκότητα και οι χρόνοι εκτέλεσης κατέδειξαν πολλά πλεονεκτήματα απόδοσης του προτεινόμενου σχήματος σε σχέση με άλλες γνωστές προσεγγίσεις ημι-εποπτευόμενης παλινδρόμησης. Ο MSSRA εφαρμόστηκε σε επόμενη εργασία με μεγάλη επιτυχία σε ένα πρόβλημα πρόγνωσης επιδόσεων μαθητών εξ-αποστάσεως εκπαίδευσης. Δυο ακόμα υπο-πεδία της ΜΜ εξετάσθηκαν υπό την σκοπιά της ΗΜ. Στο πεδίο της συμπλήρωσης ελλιπών τιμών, τα δυο σύνθετα σχήματα ταξινόμησης και παλινδρόμησης που προτάθηκαν, αξιοποιήθηκαν σε έναν ημι-επιβλεπόμενο αλγόριθμο συμπλήρωσης ελλιπών τιμών (IRSSI) ο οποίος έρχεται να βελτιώσει την απόδοση του IRMI αξιοποιώντας την πληροφορία που κρύβεται στα ελλιπή δεδομένα με ημι-εποπτευόμενο τρόπο. Τα πειραματικά αποτελέσματα καταδεικνύουν την αποτελεσματικότητα του IRSSI σε σύγκριση με τις τυπικές μεθόδους καταλογισμού. Το άλλο πεδίο εφαρμογής έγινε για την αύξηση της επίδοσης μοντέλων πρόγνωσης του διαβήτη εκμεταλλευόμενα τη μεταβιβαστική μάθηση. Οι σχετική εργασία έδειξε ότι αρκετά από τα μοντέλα πρόγνωσης μπορούν να βελτιώσουν σημαντικά τις αποφάσεις τους μέσω αυτής. Κλείνοντας θα πρέπει να σημειωθεί ότι όπως καταδεικνύεται και μέσα από τις εργασίες η ΗΜ είναι ένα αργαλειό που δύναται να μειώσει το κόστος ετικετοποίησης σε περιπτώσεις όπου τα μοντέλα βάσης είναι ικανά να συνδυάσουν τις προβλέψεις τους αποδοτικά, αυξάνοντας έτσι την συνολική επίδοση ενός αλγορίθμου, χωρίς όμως αυτό να αποτελεί πανάκεια, γι’ αυτό και τα σχήματα συνδυασμού αποτελούν αντικείμενο επιστημονικής μελέτης της ΜΜ. 2022-11-14T10:13:27Z 2022-11-14T10:13:27Z 2021-11-25 https://hdl.handle.net/10889/23907 en application/pdf |