RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders

The present thesis focuses on the analysis of datasets from skin samples related to psoriasis towards the discovery of biomarkers discovery. RNA-seq technologies and microarray datasets and analysis methods were used to conduct disease biomarker discovery which could provide a possible guide for dis...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ζαφειροπούλου, Αικατερίνη
Άλλοι συγγραφείς: Λυγερού, Ζωή
Μορφή: Thesis
Γλώσσα:English
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14322
id nemertes-10889-14322
record_format dspace
institution UPatras
collection Nemertes
language English
topic RNA-seq
Microarray
Psoriasis
Μικροσυστοιχείες
Ψωρίαση
spellingShingle RNA-seq
Microarray
Psoriasis
Μικροσυστοιχείες
Ψωρίαση
Ζαφειροπούλου, Αικατερίνη
RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
description The present thesis focuses on the analysis of datasets from skin samples related to psoriasis towards the discovery of biomarkers discovery. RNA-seq technologies and microarray datasets and analysis methods were used to conduct disease biomarker discovery which could provide a possible guide for disease diagnosis and prognosis. Psoriasis is a chronic skin disease of scaling and inflammation that is characterized by the proliferation and abnormal differentiation of keratinocytes, and by the infiltration of TH1 and TH17 cells and DCs, with a spectrum of clinical phenotypes. It affects primarily the skin, nails and occasionally the joints. It occurs when skin cells rise quickly from their origin below the surface of the skin and pile up on the surface before they have a chance to mature. Under healthy conditions, this movement takes about a month, but in psoriasis, it may occur in only a few days. Psoriasis affects 2-4% of the general population. Comparing to other diseases, the accessibility of skin for tissue biopsy provides us with the ability to study the cellular and molecular nature of cutaneous diseases such as psoriasis, allowing the development of effective targeted therapies for the disease. The datasets that were used for this analysis are derived from skin punch biopsies taken from psoriatic patients (lesional and non lesional samples) and normal healthy controls. The microarray dataset that was used for this part of the analysis is published in Gene Expression Omnibus with DataSet Record GDS4602. It consists of 180 samples derived from skin punch biopsies taken from 58 psoriatic patients and from 64 healthy individuals. Two biopsies were taken from each patient from lesional and non-lesional parts of the skin. Regarding the RNA-seq analysis, two different datasets were used. They are both publicly available in NCBI’s Gene Expression Omnibus platform with DataSet Records GSE74697 and GSE54456. The first dataset consists of 52 samples derived from skin punch biopsies taken from 18 psoriasis patients before and after treatment and from normal skin from 16 healthy individuals. The second Dataset consists of 174 samples derived from 92 psoriatic and 82 normal skin punch biopsies. The overall analysis on this thesis consists of three main parts including microarray data analysis, RNA-seq data analysis and the integration of all results together with available clinical variables of the dataset in order to extract the final diagnostic biomarkers and the relevant computational predictive models. The first step of analysis was the application of preprocessing methods for normalization and missing values imputation which were applied to both control and disease-related samples. Then, some statistical tests were conducted for the extraction of differential expression biomarkers in order to define a minimal set of statistically significant genes. Then, an alternative biomarker discovery method was conducted where gene co-expression networks are constructed for both disease and control datasets. After networks construction, a network vii based biomarker discovery method was applied to locate genes whose role in the network changes with a statistically significant difference. The last step of the analysis is the integration of various types of biomarkers which is a key step in understanding the mechanisms that underlie the disease. The analysis led to the uncovering of 35 biomarkers related to psoriasis. Meta-analysis was also conducted on the final dataset of biomarkers through gene ontology enrichment analysis. Finally, the last step of analysis was the training and testing of computational diagnostic models for psoriasis using the final uncovered biomarkers as input. Every step of the analysis, its contribution to experimental procedure and the variety of tools that can be used will be described as well as the recommended pipeline that should be followed in every case.
author2 Λυγερού, Ζωή
author_facet Λυγερού, Ζωή
Ζαφειροπούλου, Αικατερίνη
format Thesis
author Ζαφειροπούλου, Αικατερίνη
author_sort Ζαφειροπούλου, Αικατερίνη
title RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
title_short RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
title_full RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
title_fullStr RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
title_full_unstemmed RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders
title_sort rna-seq and microarray data analysis related to skin psoriasis. overview of optimal methods for rna-seq analysis and application for biomarker discovery for skin-related disorders
publishDate 2020
url http://hdl.handle.net/10889/14322
work_keys_str_mv AT zapheiropoulouaikaterinē rnaseqandmicroarraydataanalysisrelatedtoskinpsoriasisoverviewofoptimalmethodsforrnaseqanalysisandapplicationforbiomarkerdiscoveryforskinrelateddisorders
AT zapheiropoulouaikaterinē analysērnaseqkaimicroarraydedomenōnschetizomenametēnpsōriasēepiskopēsētōnbeltistōnmethodōngiaanalysērnaseqdedomenōnkaiepharmogētousgiaanakalypsēbiodeiktōngiadiatarachestoudermatos
_version_ 1771297145111969792
spelling nemertes-10889-143222022-09-05T05:38:43Z RNA-seq and microarray data analysis related to skin psoriasis. Overview of optimal methods for RNA-seq analysis and application for biomarker discovery for skin-related disorders Ανάλυση RNA-seq και microarray δεδομένων σχετιζόμενα με την ψωρίαση. Επισκόπηση των βέλτιστων μεθόδων για ανάλυση RNA-seq δεδομένων και εφαρμογή τους για ανακάλυψη βιοδεικτών για διαταραχές του δέρματος Ζαφειροπούλου, Αικατερίνη Λυγερού, Ζωή Λυγερού, Ζωή Μαυρουδή, Σεφερίνα Τσόκα, Σοφία Zafeiropoulou, Aikaterini RNA-seq Microarray Psoriasis Μικροσυστοιχείες Ψωρίαση The present thesis focuses on the analysis of datasets from skin samples related to psoriasis towards the discovery of biomarkers discovery. RNA-seq technologies and microarray datasets and analysis methods were used to conduct disease biomarker discovery which could provide a possible guide for disease diagnosis and prognosis. Psoriasis is a chronic skin disease of scaling and inflammation that is characterized by the proliferation and abnormal differentiation of keratinocytes, and by the infiltration of TH1 and TH17 cells and DCs, with a spectrum of clinical phenotypes. It affects primarily the skin, nails and occasionally the joints. It occurs when skin cells rise quickly from their origin below the surface of the skin and pile up on the surface before they have a chance to mature. Under healthy conditions, this movement takes about a month, but in psoriasis, it may occur in only a few days. Psoriasis affects 2-4% of the general population. Comparing to other diseases, the accessibility of skin for tissue biopsy provides us with the ability to study the cellular and molecular nature of cutaneous diseases such as psoriasis, allowing the development of effective targeted therapies for the disease. The datasets that were used for this analysis are derived from skin punch biopsies taken from psoriatic patients (lesional and non lesional samples) and normal healthy controls. The microarray dataset that was used for this part of the analysis is published in Gene Expression Omnibus with DataSet Record GDS4602. It consists of 180 samples derived from skin punch biopsies taken from 58 psoriatic patients and from 64 healthy individuals. Two biopsies were taken from each patient from lesional and non-lesional parts of the skin. Regarding the RNA-seq analysis, two different datasets were used. They are both publicly available in NCBI’s Gene Expression Omnibus platform with DataSet Records GSE74697 and GSE54456. The first dataset consists of 52 samples derived from skin punch biopsies taken from 18 psoriasis patients before and after treatment and from normal skin from 16 healthy individuals. The second Dataset consists of 174 samples derived from 92 psoriatic and 82 normal skin punch biopsies. The overall analysis on this thesis consists of three main parts including microarray data analysis, RNA-seq data analysis and the integration of all results together with available clinical variables of the dataset in order to extract the final diagnostic biomarkers and the relevant computational predictive models. The first step of analysis was the application of preprocessing methods for normalization and missing values imputation which were applied to both control and disease-related samples. Then, some statistical tests were conducted for the extraction of differential expression biomarkers in order to define a minimal set of statistically significant genes. Then, an alternative biomarker discovery method was conducted where gene co-expression networks are constructed for both disease and control datasets. After networks construction, a network vii based biomarker discovery method was applied to locate genes whose role in the network changes with a statistically significant difference. The last step of the analysis is the integration of various types of biomarkers which is a key step in understanding the mechanisms that underlie the disease. The analysis led to the uncovering of 35 biomarkers related to psoriasis. Meta-analysis was also conducted on the final dataset of biomarkers through gene ontology enrichment analysis. Finally, the last step of analysis was the training and testing of computational diagnostic models for psoriasis using the final uncovered biomarkers as input. Every step of the analysis, its contribution to experimental procedure and the variety of tools that can be used will be described as well as the recommended pipeline that should be followed in every case. Η παρούσα διπλωματική εργασία εστιάζει στην ανάλυση δεδομένων που προέρχονται από δείγματα δέρματος που σχετίζονται με την ψωρίαση, με σκοπό την ανακάλυψη νέων βιοδεικτών. Διαφορετικές μέθοδοι και τεχνικές ανάλυσης δεδομένων χρησιμοποιήθηκαν για την ανακάλυψη βιοδεικτών που θα μπορούσαν να αποτελέσουν έναν πιθανό οδηγό για τη διάγνωση και την πρόγνωση της νόσου. Η ψωρίαση είναι μια χρόνια δερματική ασθένεια η οποία αποτελεί ένα αυτοάνοσο νόσημα που χαρακτηρίζεται από τον πολλαπλασιασμό και την ανώμαλη διαφοροποίηση των κυττάρων του δέρματος, με ένα ευρύ φάσμα κλινικών φαινοτύπων. Επηρεάζει κυρίως το δέρμα, τα νύχια και περιστασιακά τις αρθρώσεις. Εμφανίζεται όταν τα κύτταρα του δέρματος ανεβαίνουν γρήγορα κάτω από την επιφάνεια του δέρματος και συσσωρεύονται στην επιφάνεια πριν την ωρίμασή τους. Υπό υγιείς συνθήκες, αυτή η διαδικασία διαρκεί περίπου ένα μήνα, αλλά στην ψωρίαση, μπορεί να συμβεί σε λίγες μόνο ημέρες. Σε σύγκριση με άλλες ασθένειες, η εύκολη προσβασιμότητα στον ιστό του δέρματος για βιοψία ιστού παρέχει στους επιστήμονες τη δυνατότητα να μελετήσουν την κυτταρική και μοριακή φύση των δερματικών ασθενειών, όπως για παράδειγμα την ψωρίαση, επιτρέποντας την ανάπτυξη αποτελεσματικών στοχευμένων θεραπειών για την ασθένεια. Τα σύνολα δεδομένων που χρησιμοποιήθηκαν για την ανάλυση προέρχονται από βιοψίες δέρματος που έχουν ληφθεί από ασθενείς (από δερματικές περιοχές αλλοιωμένες και μη αλλοιωμένες) και δείγματα δέρματος από υγιείς ανθρώπους. Τα Microarray δεδομένα βρίσκονται διαθέσιμα στη βάση δεδομένων της Gene Expression Omnibus με DataSet Record GDS4602 και αποτελούνται από 180 δείγματα όπου 58 προέρχονται από αλλοιωμένες δερματικές περιοχές ασθενών, 58 προέρχονται από μη αλλοιωμένες δερματικές περιοχές ασθενών και 64 προέρχονται από δερματικές περιοχές υγειών ανθρώπων. Τα RNA-seq δεδομένα βρίσκονται διαθέσιμα στη βάση δεδομένων της Gene Expression Omnibus με Dataset Records GSE74697 και GSE54456. Το πρώτο αποτελείται από 52 δείγματα που προέρχονται από 18 ασθενείς πριν και μετά τη θεραπευτική αγωγή και από 16 υγιείς ανθρώπους. Το δεύτερο RNA-seq Dataset αποτελείται από 174 δείγματα που προέρχονται από 92 ασθενείς και 82 υγιείς ανθρώπους. Η ανάλυση που πραγματοποιήθηκε σε αυτή την εργασία αποτελείται από τρία βασικά μέρη που περιλαμβάνουν την ανάλυση δεδομένων μικροσυστοιχιών, την ανάλυση RNA-seq δεδομένων και την ενσωμάτωση όλων των αποτελεσμάτων μαζί, όπου σε συνδυασμό με την υπάρχουσα γνώση, οδηγούν στην ανίχνευση διαγνωστικών Βιοδεικτών και στη διαμόρφωση των αντίστοιχων προγνωστικών και διαγνωστικών υπολογιστικών μοντέλων για τη νόσο. Το πρώτο βήμα της ανάλυσης ήταν η εφαρμογή μεθόδων προεπεξεργασίας με σκοπό την κανονικοποίηση και τον υπολογισμό ελλειπόντων τιμών στα δείγματα που προέρχονται από υγιείς και ασθενείς συμμετέχοντες. Στη συνέχεια, πραγματοποιήθηκαν κάποια στατιστικά test v με σκοπό την εξαγωγή βιοδεικτών μέσω διαφορικής έκφρασης, έτσι ώστε να καθοριστεί ένα ελάχιστο σύνολο βιοδεικτών που θα αποτελείται από τα στατιστικά σημαντικά γονίδια. Στη συνέχεια, ακολούθησε μια εναλλακτική μέθοδος ανίχνευσης βιοδεικτών, όπου τα δίκτυα γονιδιακής συν-έκφρασης κατασκευάζονται για τα σύνολα δεδομένων που προέρχονται από ασθενείς και για τα σύνολα δεδομένων που προέρχονται από υγιείς. Έπειτα, πραγματοποιήθηκε εξαγωγή των βιοδεικτών βάσει του παραγόμενου δικτύου με σκοπό τον εντοπισμό γονιδίων, των οποίων ο ρόλος στο δίκτυο αλλάζει παρουσιάζοντας σημαντικά στατιστικές διαφορές. Το τελευταίο βήμα της ανάλυσης είναι η ενσωμάτωση των διαφορετικών τύπων βιοδεικτών που έχουν προκύψει από την ανάλυση και αποτελεί βασικό παράγοντα για την κατανόηση των μηχανισμών που διέπουν τη νόσο. Η παραπάνω ανάλυση οδήγησε στον εντοπισμό 35 βιοδεικτών σχετικά με την ψωρίαση. Στη συνέχεια πραγματοποιήθηκε μετα-ανάλυση (enrichment analysis) για τον προσδιορισμό των βιολογικών μονοπατιών και των βιολογικών λειτουργιών που σχετίζονται με τα συγκεκριμένα γονίδια. Τέλος, πραγματοποιήθηκε εκπαίδευση και έλεγχος (Training, Testing Validation) υπολογιστικών μοντέλων διάγνωσης της ψωρίασης, με χρήση σαν είσοδο τη λίστα των γονιδίων που προέκυψαν από την ανάλυση. Κάθε βήμα της ανάλυσης, η συμβολή τους στην πειραματική διαδικασία, καθώς και η ποικιλία εργαλείων που μπορούν να χρησιμοποιηθούν σε κάθε περίπτωση, περιγράφονται στα κεφάλαια της παρούσας εργασίας, καταλήγοντας στον συνιστώμενο αριθμό και τύπο βημάτων που θα πρέπει να ακολουθούνται σε κάθε περίπτωση. 2020-12-08T12:15:16Z 2020-12-08T12:15:16Z 2019-11-13 Thesis http://hdl.handle.net/10889/14322 en 12 application/pdf