Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών

Η Βιοπληροφορική (bioinformatics) είναι ένα διεπιστημονικό πεδίο που αναπτύσσει μεθόδους και διαδικασίες για τη κατανόηση βιολογικών δεδομένων. Ως ένα διεπιστημονικό πεδίο της επιστήμης, η Βιοπληροφορική συνδυάζει την επιστήμη της πληροφορίας, τη στατιστική, τα μαθηματικά και τη μηχανική για να α...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μπάρμπας, Πέτρος
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13148
id nemertes-10889-13148
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μείωση διαστατικότητας
Βιοπληροφορική
Αλγόριθμοι
Οπτικοποίηση
Αναπαράσταση
Δεδομένα μεγάλου όγκου
Dimensionality
Reduction
Bioinformatics
Algorithms
Visualisation
Big data
spellingShingle Μείωση διαστατικότητας
Βιοπληροφορική
Αλγόριθμοι
Οπτικοποίηση
Αναπαράσταση
Δεδομένα μεγάλου όγκου
Dimensionality
Reduction
Bioinformatics
Algorithms
Visualisation
Big data
Μπάρμπας, Πέτρος
Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
description Η Βιοπληροφορική (bioinformatics) είναι ένα διεπιστημονικό πεδίο που αναπτύσσει μεθόδους και διαδικασίες για τη κατανόηση βιολογικών δεδομένων. Ως ένα διεπιστημονικό πεδίο της επιστήμης, η Βιοπληροφορική συνδυάζει την επιστήμη της πληροφορίας, τη στατιστική, τα μαθηματικά και τη μηχανική για να αναλύσει και να ερμηνεύσει βιολογικά δεδομένα. Η Βιοπληροφορική έχει χρησιμοποιηθεί για in silico (υπολογιστικές) αναλύσεις βιολογικών ερωτημάτων χρησιμοποιώντας μαθηματικές και στατιστικές τεχνικές. Τα τελευταία χρόνια, αυτός ο κλάδος της επιστήμης γνωρίζει ιδιαίτερη ανάπτυξη, με ορόσημο το πρόγραμμα του ανθρώπινου γονιδιώματος (human genome project), το οποίο ως στόχο είχε την απόκτηση βασικών πληροφοριών που αφορούν το γενετικό μας υπόστρωμα και την ανάλυση και σύνθεση των πληροφοριών αυτών για πληρέστερη κατανόηση του ρόλου των διαφόρων γονιδίων στη διατήρηση της υγείας και τη δημιουργία γενετικών νόσων. Ως αποτέλεσμα των ερευνών πάνω στην καταγραφή και την αποκρυπτογράφηση του γονιδιώματος των οργανισμών, ο όγκος των προς επεξεργασία δεδομένων που προκύπτουν έχει αυξηθεί σημαντικά και αναμένεται να πολλαπλασιάζεται τα επόμενα χρόνια. Έτσι, καθίσταται αναγκαία η έρευνα σε τεχνικές επεξεργασίας και διαχείρισης των δεδομένων αυτών που ως στόχο έχουν την μείωση της διαστατικότητάς τους και την οπτικοποίησή τους με γραφήματα δύο ή το πολύ τριών διαστάσεων. Η παρούσα διπλωματική εργασία ακολουθεί αυτή την κατεύθυνση και χωρίζεται σε δύο μέρη. Το πρώτο μέρος είναι βιβλιογραφικό και ασχολείται με την ανασκόπηση της ερευνητικής περιοχής και την θεωρητική τεκμηρίωση των γενικότερων τεχνικών μείωσης διαστατικότητας, σε δεδομένα μεγάλου όγκου που προκύπτουν από τεχνικές ακολουθιών, παρουσιάζοντας μια γενικότερη επισκόπηση των DNA σημαντικότερων μεθοδολογιών. Το δεύτερο πειραματικό τμήμα, επιχειρεί να επιβεβαιώσει την απόδοση των παραπάνω τεχνικών πάνω σε πραγματικά δεδομένα του πεδίου της Βιοπληροφορικής, αξιολογώντας τες ως προς την απόδοσή τους όσο αναφορά το χρόνο ,την κατηγοριοποίηση που πετυχαίνουν και την απόδοσή τους όσο αναφορά την οπτικοποίηση των δεδομένων.
author2 Μακρής, Χρήστος
author_facet Μακρής, Χρήστος
Μπάρμπας, Πέτρος
format Thesis
author Μπάρμπας, Πέτρος
author_sort Μπάρμπας, Πέτρος
title Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
title_short Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
title_full Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
title_fullStr Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
title_full_unstemmed Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών
title_sort τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές dna αλληλουχιών
publishDate 2020
url http://hdl.handle.net/10889/13148
work_keys_str_mv AT mparmpaspetros technikesmeiōsēsdiastaseōnsededomenamegalouonkouapotechnikesdnaallēlouchiōn
AT mparmpaspetros dimensionalityreductiontechniquesinbigdataderivedfromdnasequencingtechniques
_version_ 1771297339220164608
spelling nemertes-10889-131482022-09-05T20:35:55Z Τεχνικές μείωσης διαστάσεων σε δεδομένα μεγάλου όγκου από τεχνικές DNA αλληλουχιών Dimensionality reduction techniques, in big data derived from DNA sequencing techniques Μπάρμπας, Πέτρος Μακρής, Χρήστος Μακρής, Χρήστος Σιούτας, Σπύρος Κουτσομητρόπουλος, Δημήτρης Barmpas, Petros Μείωση διαστατικότητας Βιοπληροφορική Αλγόριθμοι Οπτικοποίηση Αναπαράσταση Δεδομένα μεγάλου όγκου Dimensionality Reduction Bioinformatics Algorithms Visualisation Big data Η Βιοπληροφορική (bioinformatics) είναι ένα διεπιστημονικό πεδίο που αναπτύσσει μεθόδους και διαδικασίες για τη κατανόηση βιολογικών δεδομένων. Ως ένα διεπιστημονικό πεδίο της επιστήμης, η Βιοπληροφορική συνδυάζει την επιστήμη της πληροφορίας, τη στατιστική, τα μαθηματικά και τη μηχανική για να αναλύσει και να ερμηνεύσει βιολογικά δεδομένα. Η Βιοπληροφορική έχει χρησιμοποιηθεί για in silico (υπολογιστικές) αναλύσεις βιολογικών ερωτημάτων χρησιμοποιώντας μαθηματικές και στατιστικές τεχνικές. Τα τελευταία χρόνια, αυτός ο κλάδος της επιστήμης γνωρίζει ιδιαίτερη ανάπτυξη, με ορόσημο το πρόγραμμα του ανθρώπινου γονιδιώματος (human genome project), το οποίο ως στόχο είχε την απόκτηση βασικών πληροφοριών που αφορούν το γενετικό μας υπόστρωμα και την ανάλυση και σύνθεση των πληροφοριών αυτών για πληρέστερη κατανόηση του ρόλου των διαφόρων γονιδίων στη διατήρηση της υγείας και τη δημιουργία γενετικών νόσων. Ως αποτέλεσμα των ερευνών πάνω στην καταγραφή και την αποκρυπτογράφηση του γονιδιώματος των οργανισμών, ο όγκος των προς επεξεργασία δεδομένων που προκύπτουν έχει αυξηθεί σημαντικά και αναμένεται να πολλαπλασιάζεται τα επόμενα χρόνια. Έτσι, καθίσταται αναγκαία η έρευνα σε τεχνικές επεξεργασίας και διαχείρισης των δεδομένων αυτών που ως στόχο έχουν την μείωση της διαστατικότητάς τους και την οπτικοποίησή τους με γραφήματα δύο ή το πολύ τριών διαστάσεων. Η παρούσα διπλωματική εργασία ακολουθεί αυτή την κατεύθυνση και χωρίζεται σε δύο μέρη. Το πρώτο μέρος είναι βιβλιογραφικό και ασχολείται με την ανασκόπηση της ερευνητικής περιοχής και την θεωρητική τεκμηρίωση των γενικότερων τεχνικών μείωσης διαστατικότητας, σε δεδομένα μεγάλου όγκου που προκύπτουν από τεχνικές ακολουθιών, παρουσιάζοντας μια γενικότερη επισκόπηση των DNA σημαντικότερων μεθοδολογιών. Το δεύτερο πειραματικό τμήμα, επιχειρεί να επιβεβαιώσει την απόδοση των παραπάνω τεχνικών πάνω σε πραγματικά δεδομένα του πεδίου της Βιοπληροφορικής, αξιολογώντας τες ως προς την απόδοσή τους όσο αναφορά το χρόνο ,την κατηγοριοποίηση που πετυχαίνουν και την απόδοσή τους όσο αναφορά την οπτικοποίηση των δεδομένων. Bioinformatics is a multidisciplinary field that develops methods and procedures for understanding biological data. As an interdisciplinary field of science, bioinformatics combines information science, statistics, mathematics and engineering to analyze and interpret biological data. In recent years, this field of science has witnessed a significant development, with a milestone in the «human genome project», which aimed at acquiring basic information about our genetic background and analyzing and synthesizing this information for a fuller understanding of the role of different genes in maintaining health and genetic disease. As a result of research on organism genome registration and decryption, the volume of data to be processed has increased significantly and is expected to multiply in the coming years. Thus, it is necessary to research techniques for the processing and management of such data with the aim of reducing their dimensionality and visualizing them with two or three dimensional graphs. The present thesis moves in this direction and is divided into two parts. The first part is bibliographical and deals with the review of the research area and the theoretical documentation of the most general dimensionality reduction techniques, in large volume data derived from DNA sequencing techniques, presenting a more general overview of the most important methodologies. The second experimental section attempts to confirm the performance of the above techniques on real data in the field of bioinformatics, evaluating their performance as a reference to time, their categorization, and their performance in data visualization. 2020-02-06T21:28:21Z 2020-02-06T21:28:21Z 2019-11-13 Thesis http://hdl.handle.net/10889/13148 gr 0 application/pdf application/octet-stream