Μέθοδοι clustering για single-cell RNAseq δεδομένα

Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PC...

Full description

Bibliographic Details
Main Author: Κορνιαχτός, Ιωάννης
Other Authors: Korniachtos, Ioannis
Language:Greek
Published: 2023
Subjects:
Online Access:https://hdl.handle.net/10889/24654
Description
Summary:Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων αλληλούχισης RNA ενός κυττάρου. Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων, συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους. Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της συσταδοποίησης τις rand index, mutual information, homogeneity, completeness και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα σύνολα δεδομένων.