Μέθοδοι clustering για single-cell RNAseq δεδομένα

Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PC...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κορνιαχτός, Ιωάννης
Άλλοι συγγραφείς: Korniachtos, Ioannis
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24654
id nemertes-10889-24654
record_format dspace
spelling nemertes-10889-246542023-03-04T04:36:51Z Μέθοδοι clustering για single-cell RNAseq δεδομένα Clustering methods for single-cell RNAseq data Κορνιαχτός, Ιωάννης Korniachtos, Ioannis Καταλογισμός Συσταδοποίηση Μείωση διαστάσεων Επίδραση καταλογισμού Δεδομένα αλληλούχισης RNA ενός κυττάρου Single-cell RNA-seq data Machine learning Imputation Clustering Dimensionality reduction Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων αλληλούχισης RNA ενός κυττάρου. Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων, συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους. Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της συσταδοποίησης τις rand index, mutual information, homogeneity, completeness και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα σύνολα δεδομένων. The purpose of the diploma thesis is to test the effect of the imputation algorithms DrImpute, ENHANCE, scImpute, I-Impute and McImpute in the performance of clustering algorithms Spectral Clustering with Kmeans, Agglomerative, DBScan, OPTICS and BIRCH and dimensionality reduction algorithms tSNE, UMAP, ISOMAP, PCA and LLE on a set of 26 single cell RNA sequencing datasets. Imputation is the process of replacing values that are missing from one dataset, with a value selected based on some specific technique. Thus all the information of the dataset is preserved, filling in the missing ones and preserving its original structure. The values that are missing in the case of single-cell RNA sequence data, are zero values which have been caused by technical issues during the sequencing process. The effect of imputation algorithms is tested by calculating the percentage change of their metrics, from which silhouette , Davies Bouldin and Calinski harabsz are common to both sets of models and additionally in the case of clustering rand index, mutual information, homogeneity, completeness and v measure, before and after applying the imputation algorithms to the datasets. 2023-03-03T07:56:52Z 2023-03-03T07:56:52Z 2023-03-01 https://hdl.handle.net/10889/24654 el Attribution-NonCommercial-ShareAlike 3.0 United States http://creativecommons.org/licenses/by-nc-sa/3.0/us/ application/octet-stream application/octet-stream application/octet-stream application/pdf
institution UPatras
collection Nemertes
language Greek
topic Καταλογισμός
Συσταδοποίηση
Μείωση διαστάσεων
Επίδραση καταλογισμού
Δεδομένα αλληλούχισης RNA ενός κυττάρου
Single-cell RNA-seq data
Machine learning
Imputation
Clustering
Dimensionality reduction
spellingShingle Καταλογισμός
Συσταδοποίηση
Μείωση διαστάσεων
Επίδραση καταλογισμού
Δεδομένα αλληλούχισης RNA ενός κυττάρου
Single-cell RNA-seq data
Machine learning
Imputation
Clustering
Dimensionality reduction
Κορνιαχτός, Ιωάννης
Μέθοδοι clustering για single-cell RNAseq δεδομένα
description Σκοπός της διπλωματικής είναι να ελεγχθεί η επίδραση των αλγορίθμων καταλογισμού DrImpute, ENHANCE, scImpute, I-Impute και McImpute στην απόδοση των αλγορίθμων συσταδοποίησης Spectral Clustering με Kmeans, Συσσωρευτικό Ιεραρχικό, DBScan, OPTICS και BIRCH και μείωσης διαστάσεων tSNE, UMAP, ISOMAP, PCA και LLE σε ένα σύνολο από 26 σύνολα δεδομένων αλληλούχισης RNA ενός κυττάρου. Καταλογισμός είναι η διαδικασία αντικατάστασης των τιμών που λείπουν από ένα σύνολο δεδομένων, με μια τιμή που έχει επιλεχθεί με βάση κάποια συγκεκριμένη τεχνική. Έτσι διατηρούνται όλες οι πληροφορίες του συνόλου δεδομένων, συμπληρώνοντας όσες λείπουν και δεν επηρεάζεται η δομή του. Οι τιμές που λείπουν στη περίπτωση των δεδομένων ενός κυττάρου RNA, είναι μηδενικά που έχουν προστεθεί λόγω τεχνικών ζητημάτων κατά τη διαδικασία δημιουργίας τους. Η επίδραση των αλγορίθμων καταλογισμού ελέγχεται με τον υπολογισμό της μεταβολής των μετρικών τους silhouette, Davies Bouldin και Calinski harabsz που είναι κοινές και για τα δύο σύνολα μοντέλων και επιπλέον για τη περίπτωση της συσταδοποίησης τις rand index, mutual information, homogeneity, completeness και v measure, πριν και μετά την εφαρμογή των αλγορίθμων καταλογισμού στα σύνολα δεδομένων.
author2 Korniachtos, Ioannis
author_facet Korniachtos, Ioannis
Κορνιαχτός, Ιωάννης
author Κορνιαχτός, Ιωάννης
author_sort Κορνιαχτός, Ιωάννης
title Μέθοδοι clustering για single-cell RNAseq δεδομένα
title_short Μέθοδοι clustering για single-cell RNAseq δεδομένα
title_full Μέθοδοι clustering για single-cell RNAseq δεδομένα
title_fullStr Μέθοδοι clustering για single-cell RNAseq δεδομένα
title_full_unstemmed Μέθοδοι clustering για single-cell RNAseq δεδομένα
title_sort μέθοδοι clustering για single-cell rnaseq δεδομένα
publishDate 2023
url https://hdl.handle.net/10889/24654
work_keys_str_mv AT korniachtosiōannēs methodoiclusteringgiasinglecellrnaseqdedomena
AT korniachtosiōannēs clusteringmethodsforsinglecellrnaseqdata
_version_ 1771297255288995840