Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση

Αντικείμενο αυτής της πτυχιακής εργασίας αποτέλεσε η περιγραφή μαθηματικών τεχνικών σε μεθόδους Επιβλεπόμενης Μηχανικής Μάθησης. Η δομή της εργασίας οργανώθηκε σε πέντε κεφάλαια, όπως παρουσιάζουμε στη συνέχεια. Στο πρώτο κεφάλαιο, παρουσιάζονται εισαγωγικές έννοιες, οι οποίες χρησιμεύουν στην κ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Παντής, Γεώργιος
Άλλοι συγγραφείς: Pantis, Georgios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13821
id nemertes-10889-13821
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Επιστήμη των δεδομένων
Μέθοδοι ταξινόμησης
Μέθοδοι παλινδρόμησης
Συνεργατικές μέθοδοι
Machine learning
Data science
Classification methods
Regression methods
Ensemble methods
spellingShingle Μηχανική μάθηση
Επιστήμη των δεδομένων
Μέθοδοι ταξινόμησης
Μέθοδοι παλινδρόμησης
Συνεργατικές μέθοδοι
Machine learning
Data science
Classification methods
Regression methods
Ensemble methods
Παντής, Γεώργιος
Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
description Αντικείμενο αυτής της πτυχιακής εργασίας αποτέλεσε η περιγραφή μαθηματικών τεχνικών σε μεθόδους Επιβλεπόμενης Μηχανικής Μάθησης. Η δομή της εργασίας οργανώθηκε σε πέντε κεφάλαια, όπως παρουσιάζουμε στη συνέχεια. Στο πρώτο κεφάλαιο, παρουσιάζονται εισαγωγικές έννοιες, οι οποίες χρησιμεύουν στην κατανόηση του τομέα της Μηχανικής Μάθησης και Επιστήμης των Δεδομένων. Ακόμη, αναλύεται η ηθική δεοντολογία μεθόδων Μηχανικής Μάθησης με σκοπό τον προβληματισμό του αναγνώστη για πιθανές κακόβουλες χρήσεις τέτοιων νέων τεχνολογικών επιτευγμάτων. Στο δεύτερο κεφάλαιο, περιγράφεται η μη ύπαρξη βέλτιστης μεθόδου Μηχανικής Μάθησης επί γενικών προβλημάτων, βασιζόμενοι στο θεώρημα No Free Lunch Theorem και η ανάγκη υπάρξης συγκεκριμένων μέτρων απόδοσης μιας μεθόδου, όπως ο Confusion Matrix και τα ROC γραφήματα. Ακόμη, αναλύονται μέθοδοι εκπαίδευσης ενός μοντέλου, όπως οι τεχνικές Cross Validation. Στο τρίτο κεφάλαιο, περιγράφονται τα μαθηματικά θεμέλια μεθόδων Μηχανικής Μάθησης που επιλύουν προβλήματα Ταξινόμησης. Τέτοιες μέθοδοι είναι τα Δέντρα Απόφασης, οι Bayesian προσέγγιση (συμπεριλαμβανομένου των παραλλαγών του), ο Ταξινομητής Πλησιέστερου Γείτονα καθώς και οι μέθοδοι Μηχανών Διανυσματικής Υποστήριξης (συμπεριλαμβανομένου των μεθόδων Soft SVM, Hard SVM και Τεχνικών Πυρήνα). Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκαν μέτρα πληροφορίας (Entropy, Gini Index), το Θεώρημα του Bayes, τεχνικές βελτιστοποίησης τετραγωνικού προγραμματισμού και χρήση των συνθηκών Karush - Kuhn - Tucke. Στο τέταρτο κεφάλαιο, περιγράφεται η μαθηματική θεμελίωση μεθόδων Μηχανικής Μάθησης, οι οποίες επιλύουν προβλήματα Παλινδρόμησης. Τέτοιες μέθοδοι είναι το Απλό και Πολλαπλό Γραμμικό Μοντέλο, καθώς και ειδικές περιπτώσεις μεθόδων Bridge, όπως η παλινδρόμηση Ridge και LASSO. Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκε η μέθοδος Ελαχίστων Τετραγώνων για την εύρεση ελαχίστου εκτιμητή (όπου υπήρχε), η μελέτη των ιδιοτήτων αυτών των εκτιμητών καθώς και ειδικές περιπτώσεις ύπαρξης βέλτιστου εκτιμητή στη περίπτωση της LASSO παλινδρόμησης. Στό πέμπτο κεφάλαιο, περιγράφεται μια νέα κατηγορία μεθόδων, οι Συνεργαστικές μέθοδοι, όπου εφαρμόζονται τόσο σε προβλήματα Ταξινόμησης όσο και Παλινδρόμησης. Η βασική διαφοροποίησή τους σε σχέση με τους παραπάνω ταξινομητές είναι ότι ο αλγόριθμος στηρίζεται σε περισσότερες από μία μεθόδους με σκοπό να πετύχει περισσότερο αποδοτικούς μαθητές. Τέτοιες μέθοδοι είναι οι Bagging, Boosting και Random Forests. Η εργασία ολοκληρώνεται με μια σύνοψη, όπως και κάποια βασικά συμπεράσματα και παρατηρήσεις.
author2 Pantis, Georgios
author_facet Pantis, Georgios
Παντής, Γεώργιος
author Παντής, Γεώργιος
author_sort Παντής, Γεώργιος
title Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
title_short Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
title_full Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
title_fullStr Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
title_full_unstemmed Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
title_sort μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
publishDate 2020
url http://hdl.handle.net/10889/13821
work_keys_str_mv AT pantēsgeōrgios mathēmatikestechnikesstēnepistēmētōndedomenōnkaistēmēchanikēmathēsē
AT pantēsgeōrgios mathematicaltechniquesindatascienceandmachinelearning
_version_ 1771297136551395328
spelling nemertes-10889-138212022-09-05T04:59:42Z Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση Mathematical techniques in data science and machine learning Παντής, Γεώργιος Pantis, Georgios Μηχανική μάθηση Επιστήμη των δεδομένων Μέθοδοι ταξινόμησης Μέθοδοι παλινδρόμησης Συνεργατικές μέθοδοι Machine learning Data science Classification methods Regression methods Ensemble methods Αντικείμενο αυτής της πτυχιακής εργασίας αποτέλεσε η περιγραφή μαθηματικών τεχνικών σε μεθόδους Επιβλεπόμενης Μηχανικής Μάθησης. Η δομή της εργασίας οργανώθηκε σε πέντε κεφάλαια, όπως παρουσιάζουμε στη συνέχεια. Στο πρώτο κεφάλαιο, παρουσιάζονται εισαγωγικές έννοιες, οι οποίες χρησιμεύουν στην κατανόηση του τομέα της Μηχανικής Μάθησης και Επιστήμης των Δεδομένων. Ακόμη, αναλύεται η ηθική δεοντολογία μεθόδων Μηχανικής Μάθησης με σκοπό τον προβληματισμό του αναγνώστη για πιθανές κακόβουλες χρήσεις τέτοιων νέων τεχνολογικών επιτευγμάτων. Στο δεύτερο κεφάλαιο, περιγράφεται η μη ύπαρξη βέλτιστης μεθόδου Μηχανικής Μάθησης επί γενικών προβλημάτων, βασιζόμενοι στο θεώρημα No Free Lunch Theorem και η ανάγκη υπάρξης συγκεκριμένων μέτρων απόδοσης μιας μεθόδου, όπως ο Confusion Matrix και τα ROC γραφήματα. Ακόμη, αναλύονται μέθοδοι εκπαίδευσης ενός μοντέλου, όπως οι τεχνικές Cross Validation. Στο τρίτο κεφάλαιο, περιγράφονται τα μαθηματικά θεμέλια μεθόδων Μηχανικής Μάθησης που επιλύουν προβλήματα Ταξινόμησης. Τέτοιες μέθοδοι είναι τα Δέντρα Απόφασης, οι Bayesian προσέγγιση (συμπεριλαμβανομένου των παραλλαγών του), ο Ταξινομητής Πλησιέστερου Γείτονα καθώς και οι μέθοδοι Μηχανών Διανυσματικής Υποστήριξης (συμπεριλαμβανομένου των μεθόδων Soft SVM, Hard SVM και Τεχνικών Πυρήνα). Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκαν μέτρα πληροφορίας (Entropy, Gini Index), το Θεώρημα του Bayes, τεχνικές βελτιστοποίησης τετραγωνικού προγραμματισμού και χρήση των συνθηκών Karush - Kuhn - Tucke. Στο τέταρτο κεφάλαιο, περιγράφεται η μαθηματική θεμελίωση μεθόδων Μηχανικής Μάθησης, οι οποίες επιλύουν προβλήματα Παλινδρόμησης. Τέτοιες μέθοδοι είναι το Απλό και Πολλαπλό Γραμμικό Μοντέλο, καθώς και ειδικές περιπτώσεις μεθόδων Bridge, όπως η παλινδρόμηση Ridge και LASSO. Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκε η μέθοδος Ελαχίστων Τετραγώνων για την εύρεση ελαχίστου εκτιμητή (όπου υπήρχε), η μελέτη των ιδιοτήτων αυτών των εκτιμητών καθώς και ειδικές περιπτώσεις ύπαρξης βέλτιστου εκτιμητή στη περίπτωση της LASSO παλινδρόμησης. Στό πέμπτο κεφάλαιο, περιγράφεται μια νέα κατηγορία μεθόδων, οι Συνεργαστικές μέθοδοι, όπου εφαρμόζονται τόσο σε προβλήματα Ταξινόμησης όσο και Παλινδρόμησης. Η βασική διαφοροποίησή τους σε σχέση με τους παραπάνω ταξινομητές είναι ότι ο αλγόριθμος στηρίζεται σε περισσότερες από μία μεθόδους με σκοπό να πετύχει περισσότερο αποδοτικούς μαθητές. Τέτοιες μέθοδοι είναι οι Bagging, Boosting και Random Forests. Η εργασία ολοκληρώνεται με μια σύνοψη, όπως και κάποια βασικά συμπεράσματα και παρατηρήσεις. The subject of this dissertation was the description of mathematical techniques in supervised Machine Learning methods. The structure of the work was organized into five chapters, as presented below. In the first chapter, introductory concepts are presented, which are useful in understanding the difference between the field of Machine Learning and Data Science. Furthermore, the ethical ethics of Machine Learning methods is analyzed in order to concern the reader with possible malicious uses of such new technological achievements. The second chapter describes the non - existence of an optimal Machine Learning method on general problems, based on the No Free Lunch Theorem and the need for specific performance measures of a method, such as the Confusion Matrix and the ROC graphs. Also, methods of training a model are analyzed, such as the techniques Cross Validation. In the third chapter, the mathematical foundations of Machine Learning methods which solve Classification problems are described. Such methods are Decision Trees, Bayesian Learners (General Bayes and Naive Bayes including variants), the Nearest Neighbor Classifier, and the Support Vector Machines (including Soft SVM, Hard SVM, and Kernel Tricks). To describe the above methods it was necessary to use information measures (Entropy, Gini Index), Bayes Theorem, methods of Optimization Quadratic Programming and the use of Karush - Kuhn - Tucke. The fourth chapter describes the mathematical foundation of Machine Learning methods, which solve Regression problems. Such methods are the Simple and Multiple Linear Model, as well as special cases of Bridge methods, such as Ridge and LASSO regression. To describe the above methods, the Minimal Squares method was used to find a minimum estimator (if it is possible), the description of the properties of these estimators as well as special cases of an optimal estimator in the case of LASSO regression. In the fifth chapter, a new category of methods is described, the Ensemble Methods, where they are applied to both Classification and Regression problems. The main difference between the above methods is that the algorithm relies on more than one method in order to achieve more efficient learners. Such methods are Bagging, Boosting and Random Forests. The work concludes with a summary, as well as some key conclusions and observations. 2020-10-01T18:26:36Z 2020-10-01T18:26:36Z 2020-06-30 http://hdl.handle.net/10889/13821 gr application/pdf