Νέος αλγόριθµος οµαδοποίησης και εφαρµογές

Η αξία ενός επιστηµονικού πεδίου είναι άµεσα συνυφασµένη µε τη συµβολή αυτού στη λοιπή επιστηµονική κοινότητα και την κοινωνία γενικότερα. Η οµαδοποίηση δεδοµένων αποτελεί ένα τέτοιο πεδίο µε εφαρµογές στη βιοϊατρική, την οικονοµία κ.ά. Ωστόσο, η οµαδοποίηση δεδοµένων δεν παύει να εξελίσσεται και νέ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Οικονομάκης, Εμμανουήλ
Άλλοι συγγραφείς: Ikonomakis, Emmanouil
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15687
id nemertes-10889-15687
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Ομαδοποίηση δεδομένων
Ζεύγη γονιδίων
Βιοϊατρική
Καρκίνος του μαστού
Data clustering
Gene links
Bioinformatics
Breast cancer
spellingShingle Ομαδοποίηση δεδομένων
Ζεύγη γονιδίων
Βιοϊατρική
Καρκίνος του μαστού
Data clustering
Gene links
Bioinformatics
Breast cancer
Οικονομάκης, Εμμανουήλ
Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
description Η αξία ενός επιστηµονικού πεδίου είναι άµεσα συνυφασµένη µε τη συµβολή αυτού στη λοιπή επιστηµονική κοινότητα και την κοινωνία γενικότερα. Η οµαδοποίηση δεδοµένων αποτελεί ένα τέτοιο πεδίο µε εφαρµογές στη βιοϊατρική, την οικονοµία κ.ά. Ωστόσο, η οµαδοποίηση δεδοµένων δεν παύει να εξελίσσεται και νέοι αλγόριθµοι παρουσιάζονται σε τακτικά διαστήµατα. Οι αλγόριθµοι προέρχονται τόσο από την εξέλιξη των ήδη υπάρχοντων αλγορίθµων, όσο και από την ανάγκη να αντιµετωπιστούν συγκεκριµένα προβλήµατα. Η οµαδοποίηση δεδοµένων ϐασίζεται σε πλειάδα αλγορίθµων, οι περισσότεροι από αυτούς µπορούν να διαχωριστούν σε κατηγορίες ϐάσει των ϐασικών τους χαρακτηριστικών και του τρόπου µε τον οποίο αντιλαµβάνονται τις οµάδες. Οι έννοιες της απόστασης και της πυκνότητας είναι ίσως οι σηµαντικότερες στο χώρο της οµαδοποίησης. Από τη µία πλευρά, οι αλγόριθµοι που βασίζονται στην απόσταση κρίνουν αν τα σηµεία ενός συνόλου δεδοµένων ανήκουν στην ίδια οµάδα µε βάση τις µεταξύ τους αποστάσεις. Από την άλλη πλευρά, οι αλγόριθµοι που βασίζονται στην πυκνότητα συνήθως δεν εξετάζουν τα σηµεία ξεχωριστά, αλλά µελετάνε τις περιοχές του συνόλου δεδοµένων. Με αυτό τον τρόπο, προσδιορίζουν περιοχές αυξηµένης πυκνότητας τις οποίες χαρακτηρίζουν ως οµάδες ή µέρη αυτών. Αν και η οµαδοποίηση δεδοµένων αποτελείται και από πολλές επιπλέον κατηγορίες όπως αλγόριθµοι βασισµένοι στην Ασαφή Λογική, σε Γκαουσσιανές κατανοµές και στην οµοιότητα, κατά βάσιν οι αλγόριθµοι αυτοί µπορούν να ενταχθούν σε κάποια από τις βασικές κατηγορίες που βασίζονται στην απόσταση ή την πυκνότητα. Τέλος, πρέπει να σηµειωθεί ότι έχουν προταθεί αλγόριθµοι που συνδυάζουν και τις δύο έννοιες, συνδυάζοντας τις σε ένα ϐασικό µέτρο που χρησιµοποιείται ώστε να κατασκευάσει τις οµάδες. Ωστόσο, ϑεωρώντας την απόσταση ως βασικό κριτήριο για την οµαδοποίηση σηµείων δηµιουργούνται αλγόριθµοι που έµµεσα ή άµεσα συγκρίνουν όλα τα σηµεία του συνόλου δεδοµένων οδηγούµενοι έτσι σε αυξηµένο υπολογιστικό κόστος. Αντιθέτως, αλγόριθµοι που βασίζονται στην πυκνότητα παρουσιάζουν µία αδυναµία να αντιληφθούν τις συσχετίσεις µεταξύ σηµείων που βρίσκονται σε περιοχές ίσης ή παρεµφερούς πυκνότητας. Η συµβολή αυτής της διατριβής στο πεδίο της οµαδοποίησης δεδοµένων είναι η εισαγωγή ενός αλγορίθµου που συνδυάζει τις δύο αυτές έννοιες όχι δηµιουργώντας µία νέα έννοια που τις ενοποιεί σε µία, αλλά επιλέγοντας της έννοια που εξυπηρετεί το εκάστοτε βήµα του αλγορίθµου. Συγκεκριµένα, χρησιµοποιεί την πυκνότητα προκειµένου να εντοπίσει τις περιοχές αυξηµένης πυκνότητας και συνεπώς τις οµάδες ή τουλάχιστον µέρη αυτών. Αντιθέτως, θέλοντας να εντοπιστούν οι πλησιέστερες οµάδες αξιοποιείται η έννοια της απόστασης. Ωστόσο, η συµβολή µίας µεθόδου εξαρτάται από την δυνατότητα να «προσφέρει» και σε άλλα επιστηµονικά πεδία. Η οµαδοποίηση δεδοµένων έχει βρει πρόσφορο πεδίο εφαρµογής στην ιατρική, συγκεκριµένα στη βιοϊατρική, στην προσωποποιηµένη ιατρική και στην επεξεργασία ιατρικής εικόνας. Αναλυτικότερα, η οµαδοποίηση δεδοµένων αξιοποιείται στη βιοϊατρική και στην προσωποποιηµένη ιατρική µε στόχο να εντοπίσει συσχετίσεις µεταξύ γονιδίων, ασθενειών και ϕαρµακευτικών ουσιών. Ειδικότερα στην περίπτωση του καρκίνου και συγκεκριµένα του καρκίνου του µαστού, η περιπλοκότητα των συσχετίσεων που τυχόν υπάρχουν έχουν τέτοιο επίπεδο περιπλοκότητας ώστε η ανάδειξη αυτών να εµφανίζει ακόµα πολύ µεγάλα περιθώρια βελτίωσης. Συνεπώς, η εφαρµογή της οµαδοποίησης σε προβλήµατα των χώρων αυτών αποτελεί µία πρόκληση για τους νέους αλγορίθµους οµαδοποίησης και η παρούσα διατριβή µελετά την εφαρµογή της οµαδοποίησης σε προβλήµατα του καρκίνου του µαστού, µελετώντας τη δυναµική του νέου αλγορίθµου που εισάγεται σε αυτή. Για την περίπτωση της βιοϊατρικής, ερευνάται η συµβολή του αλγορίθµου στη οµαδοποίηση συσχετίσεων γονιδίων µε ϐάση την συνέκφραση και τη διαφορική τους έκφραση. Στόχος αυτής της µελέτης είναι ο προσδιορισµός µονοπατιών γονιδίων που να περιγράφουν τα στάδια του καρκίνου του µαστού. Τα αποτελέσµατα της εργασίας στο συγκεκριµένο πρόβληµα δικαιολογούν την επιλογή αυτή καθώς πολλά από τα µονοπάτια που προσδιορίστηκαν επιβεβαιώνονται από την υπάρχουσα βιβλιογραφία.
author2 Ikonomakis, Emmanouil
author_facet Ikonomakis, Emmanouil
Οικονομάκης, Εμμανουήλ
author Οικονομάκης, Εμμανουήλ
author_sort Οικονομάκης, Εμμανουήλ
title Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
title_short Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
title_full Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
title_fullStr Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
title_full_unstemmed Νέος αλγόριθµος οµαδοποίησης και εφαρµογές
title_sort νέος αλγόριθµος οµαδοποίησης και εφαρµογές
publishDate 2021
url http://hdl.handle.net/10889/15687
work_keys_str_mv AT oikonomakēsemmanouēl neosalgorithmosomadopoiēsēskaiepharmoges
AT oikonomakēsemmanouēl newclusteringalgorithmandapplications
_version_ 1771297305550389248
spelling nemertes-10889-156872022-09-05T20:41:01Z Νέος αλγόριθµος οµαδοποίησης και εφαρµογές New clustering algorithm and applications Οικονομάκης, Εμμανουήλ Ikonomakis, Emmanouil Ομαδοποίηση δεδομένων Ζεύγη γονιδίων Βιοϊατρική Καρκίνος του μαστού Data clustering Gene links Bioinformatics Breast cancer Η αξία ενός επιστηµονικού πεδίου είναι άµεσα συνυφασµένη µε τη συµβολή αυτού στη λοιπή επιστηµονική κοινότητα και την κοινωνία γενικότερα. Η οµαδοποίηση δεδοµένων αποτελεί ένα τέτοιο πεδίο µε εφαρµογές στη βιοϊατρική, την οικονοµία κ.ά. Ωστόσο, η οµαδοποίηση δεδοµένων δεν παύει να εξελίσσεται και νέοι αλγόριθµοι παρουσιάζονται σε τακτικά διαστήµατα. Οι αλγόριθµοι προέρχονται τόσο από την εξέλιξη των ήδη υπάρχοντων αλγορίθµων, όσο και από την ανάγκη να αντιµετωπιστούν συγκεκριµένα προβλήµατα. Η οµαδοποίηση δεδοµένων ϐασίζεται σε πλειάδα αλγορίθµων, οι περισσότεροι από αυτούς µπορούν να διαχωριστούν σε κατηγορίες ϐάσει των ϐασικών τους χαρακτηριστικών και του τρόπου µε τον οποίο αντιλαµβάνονται τις οµάδες. Οι έννοιες της απόστασης και της πυκνότητας είναι ίσως οι σηµαντικότερες στο χώρο της οµαδοποίησης. Από τη µία πλευρά, οι αλγόριθµοι που βασίζονται στην απόσταση κρίνουν αν τα σηµεία ενός συνόλου δεδοµένων ανήκουν στην ίδια οµάδα µε βάση τις µεταξύ τους αποστάσεις. Από την άλλη πλευρά, οι αλγόριθµοι που βασίζονται στην πυκνότητα συνήθως δεν εξετάζουν τα σηµεία ξεχωριστά, αλλά µελετάνε τις περιοχές του συνόλου δεδοµένων. Με αυτό τον τρόπο, προσδιορίζουν περιοχές αυξηµένης πυκνότητας τις οποίες χαρακτηρίζουν ως οµάδες ή µέρη αυτών. Αν και η οµαδοποίηση δεδοµένων αποτελείται και από πολλές επιπλέον κατηγορίες όπως αλγόριθµοι βασισµένοι στην Ασαφή Λογική, σε Γκαουσσιανές κατανοµές και στην οµοιότητα, κατά βάσιν οι αλγόριθµοι αυτοί µπορούν να ενταχθούν σε κάποια από τις βασικές κατηγορίες που βασίζονται στην απόσταση ή την πυκνότητα. Τέλος, πρέπει να σηµειωθεί ότι έχουν προταθεί αλγόριθµοι που συνδυάζουν και τις δύο έννοιες, συνδυάζοντας τις σε ένα ϐασικό µέτρο που χρησιµοποιείται ώστε να κατασκευάσει τις οµάδες. Ωστόσο, ϑεωρώντας την απόσταση ως βασικό κριτήριο για την οµαδοποίηση σηµείων δηµιουργούνται αλγόριθµοι που έµµεσα ή άµεσα συγκρίνουν όλα τα σηµεία του συνόλου δεδοµένων οδηγούµενοι έτσι σε αυξηµένο υπολογιστικό κόστος. Αντιθέτως, αλγόριθµοι που βασίζονται στην πυκνότητα παρουσιάζουν µία αδυναµία να αντιληφθούν τις συσχετίσεις µεταξύ σηµείων που βρίσκονται σε περιοχές ίσης ή παρεµφερούς πυκνότητας. Η συµβολή αυτής της διατριβής στο πεδίο της οµαδοποίησης δεδοµένων είναι η εισαγωγή ενός αλγορίθµου που συνδυάζει τις δύο αυτές έννοιες όχι δηµιουργώντας µία νέα έννοια που τις ενοποιεί σε µία, αλλά επιλέγοντας της έννοια που εξυπηρετεί το εκάστοτε βήµα του αλγορίθµου. Συγκεκριµένα, χρησιµοποιεί την πυκνότητα προκειµένου να εντοπίσει τις περιοχές αυξηµένης πυκνότητας και συνεπώς τις οµάδες ή τουλάχιστον µέρη αυτών. Αντιθέτως, θέλοντας να εντοπιστούν οι πλησιέστερες οµάδες αξιοποιείται η έννοια της απόστασης. Ωστόσο, η συµβολή µίας µεθόδου εξαρτάται από την δυνατότητα να «προσφέρει» και σε άλλα επιστηµονικά πεδία. Η οµαδοποίηση δεδοµένων έχει βρει πρόσφορο πεδίο εφαρµογής στην ιατρική, συγκεκριµένα στη βιοϊατρική, στην προσωποποιηµένη ιατρική και στην επεξεργασία ιατρικής εικόνας. Αναλυτικότερα, η οµαδοποίηση δεδοµένων αξιοποιείται στη βιοϊατρική και στην προσωποποιηµένη ιατρική µε στόχο να εντοπίσει συσχετίσεις µεταξύ γονιδίων, ασθενειών και ϕαρµακευτικών ουσιών. Ειδικότερα στην περίπτωση του καρκίνου και συγκεκριµένα του καρκίνου του µαστού, η περιπλοκότητα των συσχετίσεων που τυχόν υπάρχουν έχουν τέτοιο επίπεδο περιπλοκότητας ώστε η ανάδειξη αυτών να εµφανίζει ακόµα πολύ µεγάλα περιθώρια βελτίωσης. Συνεπώς, η εφαρµογή της οµαδοποίησης σε προβλήµατα των χώρων αυτών αποτελεί µία πρόκληση για τους νέους αλγορίθµους οµαδοποίησης και η παρούσα διατριβή µελετά την εφαρµογή της οµαδοποίησης σε προβλήµατα του καρκίνου του µαστού, µελετώντας τη δυναµική του νέου αλγορίθµου που εισάγεται σε αυτή. Για την περίπτωση της βιοϊατρικής, ερευνάται η συµβολή του αλγορίθµου στη οµαδοποίηση συσχετίσεων γονιδίων µε ϐάση την συνέκφραση και τη διαφορική τους έκφραση. Στόχος αυτής της µελέτης είναι ο προσδιορισµός µονοπατιών γονιδίων που να περιγράφουν τα στάδια του καρκίνου του µαστού. Τα αποτελέσµατα της εργασίας στο συγκεκριµένο πρόβληµα δικαιολογούν την επιλογή αυτή καθώς πολλά από τα µονοπάτια που προσδιορίστηκαν επιβεβαιώνονται από την υπάρχουσα βιβλιογραφία. The value of a scientific field is directly interwoven with its contribution to the rest of the scientific community and the society in general. Data clustering constitutes such a field with applications in biomedicine, finances etc. However, data clustering does not cease to evolve and new algorithms are presented regularly. The algorithms originate from developing already existing algorithms and addressing specific problems as well. Data clustering is comprised on a large number of algorithms, most of which can be separated in groups based on their major characteristic and the way the clusters are perceived. The notions of distance and density are probably the most important in data clustering. On the one side, algorithms based on distance determine whether the points of a dataset belong to the same cluster based on their distances. On the other side, algorithms based on density usually do not process the point separately, but investigate the areas of the dataset. In this way, they determine areas of high density which describe clusters or at least parts of those. Although data clustering is comprised by more groups of algorithms based on Fuzzy Logic, Gaussian distribution and similarities, those algorithms can be integrated in one of the main groups based on distance or density. Finally, it must be mentioned that algorithms combining those notions have also be proposed. Those combine the notions of distance and density in a single measure used in order to create the clusters. Though, by considering distance as the base criterion for clustering points, algorithms arise that compare all points of the dataset indirectly or not. This leads to an increased computational cost. On the other side, algorithms based on density present a weakness to comprehend the relationships between points in areas of similar density. The contribution of this thesis in the field of data clustering is the introduction of an algorithm which combines those two notions by selecting the notion which better serves each algorithm step. Hence, it avoids combining the notions into one and therefore potentially restricting the capabilities of each the density and distance. More precisely, it uses the density in order to determine areas of high density and hence the clusters or at least parts of those. Conversely, in order to determine the closest clusters the notion of distance is utilized. Nevertheless, the contribution of an algorithm depends on the possibility to contribute to other scientific fields as well. Data clustering has been successfully applied in medicine and more specifically in biomedicine, in personalized medicine and medical image processing. In more detail, data clustering is employed in biomedicine and personalized medicine in an attempt to detect interactions between genes, diseases and pharmaceutics. Especially for the case of cancer and even more specifically in the case of breast cancer, the complexity of the interactions that may exist is such that their detection has significant improvement levels. Therefore, applying data clustering to problems of the above mentioned fields presents a challenge for new clustering algorithms and this thesis examines the application of clustering algorithms on problems related to breast cancer. This is achieved by investigating the potential of the algorithm proposed in the thesis. The clustering algorithm was applied on interactions between genes based on their co-expression and their differential expression. This study aims to determine gene pathways describing the stages of breast cancer. The results of this work on this problem justify its usage as many of the pathways determined are confirmed by the existing literature. 2021-12-17T12:16:12Z 2021-12-17T12:16:12Z 2021-11-29 http://hdl.handle.net/10889/15687 gr application/pdf