Περίληψη: | Σκοπός της διπλωματικής εργασίας είναι να ελέγξει την επίδραση του καταλογισμού
μέσω των μεθόδων DrImpute, scImpute, I-Impute, McImpute και ENHANCE στην
ταξινόμηση με τα μοντέλα SVM, SGD, Nearest Centroid, Naïve Bayes και Decision Trees
σε 26 scRNA-seq(αλληλούχισης RNA μεμονωμένου κυττάρου) σύνολα δεδομένων με
διαφορετικά πλήθη γονιδίων, κυττάρων(δειγμάτων), κυτταρικών
υποπληθυσμών(κλάσεων) τα οποία προέκυψαν από διαφορετικά πρωτόκολλα
αλληλούχισης, διαφορετικούς οργανισμούς, διαφορετικούς ιστούς και διαφορετικές
παθολογικές καταστάσεις.
Έτσι συγκρίνεται η απόδοση της ταξινόμησης μεταξύ των καταλογισμένων από κάθε
μέθοδο καταλογισμού συνόλων δεδομένων και των αρχικών συνόλων δεδομένων με
χρήση των μετρικών accuracy, recall, specificity, f1 score και precision με χρήση
boxplots και πινάκων σύγκρισης.
Οι μεταβολές μεταξύ των προ καταλογισμού και μετά καταλογισμού μετρικών
αναλύονται ανά μοντέλο ταξινόμησης ως προς όλες τις μεθόδους καταλογισμού αλλά
και ανά μέθοδο καταλογισμού ως προς όλα τα μοντέλα ταξινόμησης.
Ο καταλογισμός είναι η διαδικασία συμπλήρωσης των χαμένων τιμών που προκύπτουν
από αδυναμίες αποδοτικής πραγματοποίησης των στόχων του κάθε βήματος της
αλληλούχισης αλλά και λόγο της στοχαστικής έκφρασης των γονιδίων και της
αποικοδόμησης των μορίων mRNA.
|