Βιβλιογραφική επισκόπηση και αξιολόγηση αλγορίθμων μηχανικής μάθησης

Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαρισ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βαρδαλάκης, Αλέξανδρος
Άλλοι συγγραφείς: Καρακαπιλίδης, Νικόλαος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12924
Περιγραφή
Περίληψη:Η συλλογή data αποτελεί πλέον βασικό κομμάτι κάθε οργανισμού (π.χ. εταιρία, κυβερνητικός οργανισμός κ.α.) που επιθυμεί να αυξήσει την απόδοσή του. Τα δεδομένα τα οποία θα συλλεχθούν, για να είναι χρήσιμα για τον οργανισμό θα πρέπει πρώτα να δεχτούν προ-επεξεργασία (Data preprocessing) και να καθαριστούν (Data cleaning) ώστε να βρίσκονται σε μία κατάσταση που μπορούν να παρέχουν χρήσιμες πληροφορίες. Οι πληροφορίες αυτές θα εξαχθούν από τα δεδομένα μέσω της χρήσης ειδικών μεθόδων data mining και machine learning. Το Machine Learning έχει 2 βασικές κατηγορίες οι οποίες είναι το Supervised Learning και το Unsupervised Learning. Το Supervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Classification και το Regression. Για την εκτέλεση της διαδικασίας του classification παρουσιάστηκαν 7 αλγόριθμοι που διαφέρουν σε μεγάλο βαθμό στο τρόπο με τον οποίο καταφέρνουν να κατηγοριοποιήσουν τα δεδομένα και είναι οι Naive Bayes, Logistic Regression, Decision Tree, Random Forest, K-Nearest Neighbor, Artificial Neural Network και Linear Support Vector Machine. Για τη διαδικασία του Regression αναλύθηκαν 3 αλγόριθμοι που έχουν ως σκοπό την πρόβλεψη συνεχών ποσοτικών τιμών και είναι οι Simple Linear Regression, Multiple Linear Regression και Polynomial Regression. Το Unsupervised Learning περιέχει δύο βασικές υποκατηγορίες οι οποίες είναι το Clustering και το Dimensionality Reduction. Το clustering προσπαθεί μέσω επαναλαμβανόμενων διαδικασιών να ομαδοποιήσει τα δεδομένα τα οποία είναι σε μεγάλο βαθμό παρόμοια μεταξύ τους και ουσιαστικά να παραχθούν κατηγορίες μέσω της δημιουργίας των clusters και οι αλγόριθμοι που αναλύθηκαν είναι οι K-Means, DBSCAN και Hierarchical. Τέλος, υπάρχει το dimensionality reduction για το Unsupervised Learning όπου ο βασικότερος αλγόριθμος είναι ο Principal Component Analysis και μέσω αυτού ο αναλυτής προσπαθεί να πετύχει την μείωση του όγκου των attributes των δεδομένων και την εύρεση νέων attributes όπου θα παρέχουν σημαντικές καινούργιες πληροφορίες και θα βρεθούν νέα συσχετίσεις μεταξύ των δεδομένων.