Μέθοδοι clustering για single-cell RNAseq δεδομένα
Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PC...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2023
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/24654 |
id |
nemertes-10889-24654 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-246542023-03-04T04:36:51Z Μέθοδοι clustering για single-cell RNAseq δεδομένα Clustering methods for single-cell RNAseq data Κορνιαχτός, Ιωάννης Korniachtos, Ioannis Καταλογισμός Συσταδοποίηση Μείωση διαστάσεων Επίδραση καταλογισμού Δεδομένα αλληλούχισης RNA ενός κυττάρου Single-cell RNA-seq data Machine learning Imputation Clustering Dimensionality reduction Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων αλληλούχισης RNA ενός κυττάρου. Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων, συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους. Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της συσταδοποίησης τις rand index, mutual information, homogeneity, completeness και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα σύνολα δεδομένων. The purpose of the diploma thesis is to test the effect of the imputation algorithms DrImpute, ENHANCE, scImpute, I-Impute and McImpute in the performance of clustering algorithms Spectral Clustering with Kmeans, Agglomerative, DBScan, OPTICS and BIRCH and dimensionality reduction algorithms tSNE, UMAP, ISOMAP, PCA and LLE on a set of 26 single cell RNA sequencing datasets. Imputation is the process of replacing values that are missing from one dataset, with a value selected based on some specific technique. Thus all the information of the dataset is preserved, filling in the missing ones and preserving its original structure. The values that are missing in the case of single-cell RNA sequence data, are zero values which have been caused by technical issues during the sequencing process. The effect of imputation algorithms is tested by calculating the percentage change of their metrics, from which silhouette , Davies Bouldin and Calinski harabsz are common to both sets of models and additionally in the case of clustering rand index, mutual information, homogeneity, completeness and v measure, before and after applying the imputation algorithms to the datasets. 2023-03-03T07:56:52Z 2023-03-03T07:56:52Z 2023-03-01 https://hdl.handle.net/10889/24654 el Attribution-NonCommercial-ShareAlike 3.0 United States http://creativecommons.org/licenses/by-nc-sa/3.0/us/ application/octet-stream application/octet-stream application/octet-stream application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Καταλογισμός Συσταδοποίηση Μείωση διαστάσεων Επίδραση καταλογισμού Δεδομένα αλληλούχισης RNA ενός κυττάρου Single-cell RNA-seq data Machine learning Imputation Clustering Dimensionality reduction |
spellingShingle |
Καταλογισμός Συσταδοποίηση Μείωση διαστάσεων Επίδραση καταλογισμού Δεδομένα αλληλούχισης RNA ενός κυττάρου Single-cell RNA-seq data Machine learning Imputation Clustering Dimensionality reduction Κορνιαχτός, Ιωάννης Μέθοδοι clustering για single-cell RNAseq δεδομένα |
description |
Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων
καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην
απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans,
Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων
tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων
αλληλούχισης RNA ενός κυττάρου.
Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα
σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη
τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων,
συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που
λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που
έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους.
Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της
μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που
είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της
συσταδοποίησης τις rand index, mutual information, homogeneity, completeness
και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα
σύνολα δεδομένων. |
author2 |
Korniachtos, Ioannis |
author_facet |
Korniachtos, Ioannis Κορνιαχτός, Ιωάννης |
author |
Κορνιαχτός, Ιωάννης |
author_sort |
Κορνιαχτός, Ιωάννης |
title |
Μέθοδοι clustering για single-cell RNAseq δεδομένα |
title_short |
Μέθοδοι clustering για single-cell RNAseq δεδομένα |
title_full |
Μέθοδοι clustering για single-cell RNAseq δεδομένα |
title_fullStr |
Μέθοδοι clustering για single-cell RNAseq δεδομένα |
title_full_unstemmed |
Μέθοδοι clustering για single-cell RNAseq δεδομένα |
title_sort |
μέθοδοι clustering για single-cell rnaseq δεδομένα |
publishDate |
2023 |
url |
https://hdl.handle.net/10889/24654 |
work_keys_str_mv |
AT korniachtosiōannēs methodoiclusteringgiasinglecellrnaseqdedomena AT korniachtosiōannēs clusteringmethodsforsinglecellrnaseqdata |
_version_ |
1771297255288995840 |