Περίληψη: | Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων
καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην
απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans,
Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων
tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων
αλληλούχισης RNA ενός κυττάρου.
Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα
σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη
τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων,
συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που
λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που
έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους.
Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της
μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που
είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της
συσταδοποίησης τις rand index, mutual information, homogeneity, completeness
και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα
σύνολα δεδομένων.
|