Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης

Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαρισ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βαρδαλάκης, Αλέξανδρος
Άλλοι συγγραφείς: Καρακαπιλίδης, Νικόλαος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12924
id nemertes-10889-12924
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Δεδομένα
Μηχανική μάθηση
Επιβλεπόμενη μάθηση
Μη-επιβλεπόμενη μάθηση
Data
Machine learning
Supervised learning
Unsupervised learning
spellingShingle Δεδομένα
Μηχανική μάθηση
Επιβλεπόμενη μάθηση
Μη-επιβλεπόμενη μάθηση
Data
Machine learning
Supervised learning
Unsupervised learning
Βαρδαλάκης, Αλέξανδρος
Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
description Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαριστούν (Data cleaning) ώστε να βρίσκονται σε μία κατάσταση που μπορούν να παρέχουν χρήσιμες πληροφορίες. Οι πληροφορίες αυτές θα εξαχθούν από τα δεδομένα μέσω της χρήσης ειδικών μεθόδων data mining και machine learning. Το Machine Learning έχει 2 βασικές κατηγορίες οι οποίες είναι το Supervised Learning και το Unsupervised Learning. Το Supervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Classification και το Regression. Για την εκτέλεση της διαδικασίας του classification παρουσιάστηκαν 7 αλγόριθμοι που διαφέρουν σε μεγάλο βαθμό στο τρόπο με τον οποίο καταφέρνουν να κατηγοριοποιήσουν τα δεδομένα και είναι οι Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network και Linear Support Vector Machine. Για τη διαδικασία του Regression αναλύθηκαν 3 αλγόριθμοι που έχουν ως σκοπό την πρόβλεψη συνεχών ποσοτικών τιμών και είναι οι Simple Linear Regression, Multiple Linear Regression και Polynomial Regression. Το Unsupervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Clustering και το Dimensionality Reduction. Το clustering προσπαθεί μέσω επαναλαμβανόμενων διαδικασιών να ομαδοποιήσει τα δεδομένα τα οποία είναι σε μεγάλο βαθμό παρόμοια μεταξύ τους και ουσιαστικά να παραχθούν κατηγορίες μέσω της δημιουργίας των clusters και οι αλγόριθμοι που αναλύθηκαν είναι οι K-Means, DBSCAN και Hierarchical. Τέλος, υπάρχει το dimensionality reduction για το Unsupervised Learning όπου ο βασικότερος αλγόριθμος είναι ο Principal Component Analysis και μέσω αυτού ο αναλυτής προσπαθεί να πετύχει την μείωση του όγκου των attributes των δεδομένων και την εύρεση νέων attributes όπου θα παρέχουν σημαντικές καινούργιες πληροφορίες και θα βρεθούν νέα συσχετίσεις μεταξύ των δεδομένων.
author2 Καρακαπιλίδης, Νικόλαος
author_facet Καρακαπιλίδης, Νικόλαος
Βαρδαλάκης, Αλέξανδρος
format Thesis
author Βαρδαλάκης, Αλέξανδρος
author_sort Βαρδαλάκης, Αλέξανδρος
title Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
title_short Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
title_full Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
title_fullStr Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
title_full_unstemmed Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
title_sort βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης
publishDate 2020
url http://hdl.handle.net/10889/12924
work_keys_str_mv AT bardalakēsalexandros bibliographikēepiskopēsēkaiaxiologēsēalgorithmōnmēchanikēsmathēsēs
AT bardalakēsalexandros bibliographicreviewandevaluationofmachinelearningalgorithms
_version_ 1771297188185374720
spelling nemertes-10889-129242022-09-05T09:40:34Z Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης Bibliographic review and evaluation of machine learning algorithms Βαρδαλάκης, Αλέξανδρος Καρακαπιλίδης, Νικόλαος Καρακαπιλίδης, Νικόλαος Αδαμίδης, Εμμανουήλ Μαλεφάκη, Σόνια Vardalakis, Alexandros Δεδομένα Μηχανική μάθηση Επιβλεπόμενη μάθηση Μη-επιβλεπόμενη μάθηση Data Machine learning Supervised learning Unsupervised learning Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαριστούν (Data cleaning) ώστε να βρίσκονται σε μία κατάσταση που μπορούν να παρέχουν χρήσιμες πληροφορίες. Οι πληροφορίες αυτές θα εξαχθούν από τα δεδομένα μέσω της χρήσης ειδικών μεθόδων data mining και machine learning. Το Machine Learning έχει 2 βασικές κατηγορίες οι οποίες είναι το Supervised Learning και το Unsupervised Learning. Το Supervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Classification και το Regression. Για την εκτέλεση της διαδικασίας του classification παρουσιάστηκαν 7 αλγόριθμοι που διαφέρουν σε μεγάλο βαθμό στο τρόπο με τον οποίο καταφέρνουν να κατηγοριοποιήσουν τα δεδομένα και είναι οι Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network και Linear Support Vector Machine. Για τη διαδικασία του Regression αναλύθηκαν 3 αλγόριθμοι που έχουν ως σκοπό την πρόβλεψη συνεχών ποσοτικών τιμών και είναι οι Simple Linear Regression, Multiple Linear Regression και Polynomial Regression. Το Unsupervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Clustering και το Dimensionality Reduction. Το clustering προσπαθεί μέσω επαναλαμβανόμενων διαδικασιών να ομαδοποιήσει τα δεδομένα τα οποία είναι σε μεγάλο βαθμό παρόμοια μεταξύ τους και ουσιαστικά να παραχθούν κατηγορίες μέσω της δημιουργίας των clusters και οι αλγόριθμοι που αναλύθηκαν είναι οι K-Means, DBSCAN και Hierarchical. Τέλος, υπάρχει το dimensionality reduction για το Unsupervised Learning όπου ο βασικότερος αλγόριθμος είναι ο Principal Component Analysis και μέσω αυτού ο αναλυτής προσπαθεί να πετύχει την μείωση του όγκου των attributes των δεδομένων και την εύρεση νέων attributes όπου θα παρέχουν σημαντικές καινούργιες πληροφορίες και θα βρεθούν νέα συσχετίσεις μεταξύ των δεδομένων. Data collection is now an essential part of any organization (i.e. companies, government agencies, etc.) that wants to increase its performance. The data collected will be useful to the organization when there are the following actions of data preprocessing and data cleaning so that the data will be transformed and give useful information. This information will be extracted from the data using specific data mining and machine learning methods. Machine Learning has two main categories which are Supervised Learning and Unsupervised Learning. Supervised Learning contains two subcategories which are Classification and Regression. To perform the process of classification seven algorithms were presented that differ greatly in how they manage to classify the data and the algorithms are Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network and Linear Support Vector Machine. For the regression process, which is the prediction of continuous quantitative values, three algorithms were presented which are Simple Linear Regression, Multiple Linear Regression and Polynomial Regression. Unsupervised Learning contains two major subcategories which are Clustering and Dimensionality Reduction. Clustering attempts through iterative processes to cluster data that are largely similar and essentially generates groups of data. The algorithms presented for the clustering method are K-Means, DBSCAN and Hierarchical. Finally, there is dimensionality reduction where the main algorithm for this method is Principal Component Analysis and with the analyst uses this algorithm to try and reduce the volume of attributes in the data and at the same time find new features that will provide new useful information and correlations about the data. 2020-01-14T16:29:36Z 2020-01-14T16:29:36Z 2019-10-16 Thesis http://hdl.handle.net/10889/12924 gr 0 application/pdf