Impact of pre-processing methods on lesion image feature extraction in PET

The fast-growing rate in technological advances in programming, data science and especially in Machine Learning algorithms, have brought birth to a new field of study in medical physics called radiomics. Its aim is to extract meaningful quantitative information from medical images using mathematical...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Βανταράκης, Σωτήριος
Άλλοι συγγραφείς: Vantarakis, Sotirios
Γλώσσα:English
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16402
id nemertes-10889-16402
record_format dspace
institution UPatras
collection Nemertes
language English
topic Radiomics
PET radiomics
Preprocessing
Medical image analysis
Ακτινομική
Ανάλυση ιατρικής εικόνας
Προεπεξεργασία
spellingShingle Radiomics
PET radiomics
Preprocessing
Medical image analysis
Ακτινομική
Ανάλυση ιατρικής εικόνας
Προεπεξεργασία
Βανταράκης, Σωτήριος
Impact of pre-processing methods on lesion image feature extraction in PET
description The fast-growing rate in technological advances in programming, data science and especially in Machine Learning algorithms, have brought birth to a new field of study in medical physics called radiomics. Its aim is to extract meaningful quantitative information from medical images using mathematical tools in order to improve decision support, especially in oncological imaging. In this dissertation a monoparametric review of a PET radiomics pipeline in Non-small Cell Lung Cancer (NSCLC) patients is performed. A pilot data set comprised of 15 adenocarcinoma and 18 squamous-cell carcinoma patients has been utilized. PET images of patients were acquired from the General University Hospital of Patras. This thesis examined the effect of absolute discretization with fixed bin width, for two different bin widths in the extracted feature values. This is evaluated using two approaches, (i) a statistical analysis one (utilizing IMB SPSS v27), comprised of repeatability and discrimination ability of lesion sub-type and (ii) a machine learning one. Regarding the radiomics process, the LIFEx freeware was used. In LIFEx the previously delignated tumor segments were imported, then the appropriate pre-processing parameters were set and the selected features were extracted. The spatial resampling was set to a constant value (3x3x3 mm) for every image data set to make volumetric 3-dimensional data isotropic and absolute discretization was utilized for 0.635 and 0.313 bin width. According to evaluation approach (i), the repeatability of feature values was evaluated utilizing the Intraclass Correlation Coefficient (ICC) index (Two-Way Mixed-Effects model, Consistency). Utilizing an ICC threshold of 0.90 resulted in almost 40% of features obtaining excellent repeatability, while the median ICC is 0.889 for all radiomic extracted features. To assess features discriminating ability the Shapiro-Wilk normality test was first utilized to determine the features’ distribution for each bin size (22 features have normal and 27 non-normal distribution). Then, depending on each features’ distribution a Mann-Whitney U test or an independent t-test for 95% confidence interval was employed to check the feature values ability to differentiate between the two cancer subtypes. These hypothesis tests indicated that GLRLM SRE for 0.635 bin width could differentiate between cancer subtypes. Furthermore, the extracted feature values were used as input for a monoparametric machine learning classification task. The software used for this classification task was Orange Data Mining v3.32. Three different classifiers were used to create the machine learning models, namely Logistic Regression, Random Forest, and Support-Vector Machine. Each monoparametric model’s performance for each feature was assessed using the area under curve value (AUC) of the ROC curve of the model. Machine learning highlighted more features capable of cancer subtype differentiation, while the highest AUC value obtained was 0.878 for the Logistic Regression model, for the NGLDM Busyness feature, for the large bin width. As a result of all the above three methods, the appropriate bin width for this specific PET radiomics study can be indicated as the 0.6 bin width. Lastly, two features that demonstrated both high ICC and AUC values (SUV Kurtosis and SUV Excess Kurtosis) can be suggested for further research as imaging biomarkers.
author2 Vantarakis, Sotirios
author_facet Vantarakis, Sotirios
Βανταράκης, Σωτήριος
author Βανταράκης, Σωτήριος
author_sort Βανταράκης, Σωτήριος
title Impact of pre-processing methods on lesion image feature extraction in PET
title_short Impact of pre-processing methods on lesion image feature extraction in PET
title_full Impact of pre-processing methods on lesion image feature extraction in PET
title_fullStr Impact of pre-processing methods on lesion image feature extraction in PET
title_full_unstemmed Impact of pre-processing methods on lesion image feature extraction in PET
title_sort impact of pre-processing methods on lesion image feature extraction in pet
publishDate 2022
url http://hdl.handle.net/10889/16402
work_keys_str_mv AT bantarakēssōtērios impactofpreprocessingmethodsonlesionimagefeatureextractioninpet
AT bantarakēssōtērios epidrasēmethodōnproepexergasiasstēnexagōgēcharaktēristikōneikonasalloiōseōnstēntomographiapozitroniakēsekpompēs
_version_ 1771297187099049984
spelling nemertes-10889-164022022-09-05T09:41:16Z Impact of pre-processing methods on lesion image feature extraction in PET Επίδραση μεθόδων προεπεξεργασίας στην εξαγωγή χαρακτηριστικών εικόνας αλλοιώσεων στην τομογραφία ποζιτρονιακής εκπομπής Βανταράκης, Σωτήριος Vantarakis, Sotirios Radiomics PET radiomics Preprocessing Medical image analysis Ακτινομική Ανάλυση ιατρικής εικόνας Προεπεξεργασία The fast-growing rate in technological advances in programming, data science and especially in Machine Learning algorithms, have brought birth to a new field of study in medical physics called radiomics. Its aim is to extract meaningful quantitative information from medical images using mathematical tools in order to improve decision support, especially in oncological imaging. In this dissertation a monoparametric review of a PET radiomics pipeline in Non-small Cell Lung Cancer (NSCLC) patients is performed. A pilot data set comprised of 15 adenocarcinoma and 18 squamous-cell carcinoma patients has been utilized. PET images of patients were acquired from the General University Hospital of Patras. This thesis examined the effect of absolute discretization with fixed bin width, for two different bin widths in the extracted feature values. This is evaluated using two approaches, (i) a statistical analysis one (utilizing IMB SPSS v27), comprised of repeatability and discrimination ability of lesion sub-type and (ii) a machine learning one. Regarding the radiomics process, the LIFEx freeware was used. In LIFEx the previously delignated tumor segments were imported, then the appropriate pre-processing parameters were set and the selected features were extracted. The spatial resampling was set to a constant value (3x3x3 mm) for every image data set to make volumetric 3-dimensional data isotropic and absolute discretization was utilized for 0.635 and 0.313 bin width. According to evaluation approach (i), the repeatability of feature values was evaluated utilizing the Intraclass Correlation Coefficient (ICC) index (Two-Way Mixed-Effects model, Consistency). Utilizing an ICC threshold of 0.90 resulted in almost 40% of features obtaining excellent repeatability, while the median ICC is 0.889 for all radiomic extracted features. To assess features discriminating ability the Shapiro-Wilk normality test was first utilized to determine the features’ distribution for each bin size (22 features have normal and 27 non-normal distribution). Then, depending on each features’ distribution a Mann-Whitney U test or an independent t-test for 95% confidence interval was employed to check the feature values ability to differentiate between the two cancer subtypes. These hypothesis tests indicated that GLRLM SRE for 0.635 bin width could differentiate between cancer subtypes. Furthermore, the extracted feature values were used as input for a monoparametric machine learning classification task. The software used for this classification task was Orange Data Mining v3.32. Three different classifiers were used to create the machine learning models, namely Logistic Regression, Random Forest, and Support-Vector Machine. Each monoparametric model’s performance for each feature was assessed using the area under curve value (AUC) of the ROC curve of the model. Machine learning highlighted more features capable of cancer subtype differentiation, while the highest AUC value obtained was 0.878 for the Logistic Regression model, for the NGLDM Busyness feature, for the large bin width. As a result of all the above three methods, the appropriate bin width for this specific PET radiomics study can be indicated as the 0.6 bin width. Lastly, two features that demonstrated both high ICC and AUC values (SUV Kurtosis and SUV Excess Kurtosis) can be suggested for further research as imaging biomarkers. Οι γρήγοροι ρυθμοί τεχνολογικής ανάπτυξης στους τομείς του προγραμματισμού, της επιστήμη των δεδομένων και ειδικότερα στην μηχανική εκμάθηση, οδήγησαν στην δημιουργία ενός νέου τομέα προς διερεύνηση στην ιατρική φυσική που ονομάζεται ακτινομική. Στόχος της ακτινομικής είναι η εξαγωγή χρήσιμης ποσοτικοποιημένης πληροφορίας από ιατρικές εικόνες, χρησιμοποιώντας μαθηματικά εργαλία με σκοπό την βελτιστοποίηση της υποβοηθούμενης λήψης αποφάσεων, ειδικότερα στην απεικόνιση καρκίνου. Σε αυτήν την διπλωματική εργασία διεξάγεται μια μονοπαραμετρική ανάλυση μιας ακτινομικής μελέτης Τομογραφίας εκπομπής ποζιτρονίων σε μη-μικροκυταρικό καρκίνο του πνεύμονα. Ένα πιλοτικό σύνολο δεδομένων το οποίο αποτελείται από 15 ασθενείς με αδενοκαρκίνομα και 18 με καρκίνο του πλακώδους ιστού χρησιμοποιήθηκε. Οι εικόνες της τομογραφίας εκπομπής ποζιτρονίων που χρησιμοποιήθηκαν, είναι από ασθενείς του Γενικού Πανεπιστημιακού Νοσοκομείου Πατρών. Στην παρούσα διπλωματική εργασία, μελετήθηκε η επίδραση της απόλυτης διακριτοποίησης της έντασης, με δοχεία σταθερού μεγέθους, για δύο διαφορετικά μεγέθη δοχείων στα εξαγόμενα χαρακτηριστικά. Αυτή η επίδραση αξιολογείται χρησιμοποιώντας δύο προσεγγίσεις, (i) με στατιστική ανάλυση, η οποία αποτελείται από την επαναληψημότητα και την ικανότητα διάκρισης των τύπων καρκίνου των αλλοιώσεων, και και με μεθόδους μηχανικής εκμάθησης. Όσον αναφορά την ακτινομική διαδικασία, το λογισμικό ανοιχτού κώδικα LIFEx χρησιμοποιήθηκε. Στο LIFEx τα προηγουμένως οριοθετημένα τμήματα του όγκου εισήχθησαν, έπειτα οι κατάλληλοι παράμετροι προεπεξεργασίας τέθηκαν και τα χαρακτηριστικά που επιλέχθηκαν εξάχθηκαν. Η χωρική επαναδειγματοληψία ρυθμίστηκε σε σταθερή τιμή (3x3x3 mm) για όλες τις εικόνες του συνόλου δεδομένων ώστε τα τρισδιάστατα ογκομετρικά δεδομένα να γίνουν ισοτροπικά και η απόλυτη διακρητοποίηση της έντασης χρησιμοποιήθηκε για 0,635 και 0,313 μεγέθη δοχείου αντίστοιχα. Σύμφωνα με την (i) μέθοδο αξιολόγησης (χρησιμοποιώντας το IBM SPSS v27) η επαναληψημότητα των χαρακτηριστικών αξιολογήθηκε χρησιμοποιώντας τον δείκτη Intraclass Correlation Coefficient (ICC) (Two-Way Mixed-Effects model, Consistency). Χρησιμοποιώντας ως κατώφλι για το ICC την τιμή 0,90, είχε ως αποτέλεσμα ότι για περίπου το 40% των χαρακτηριστικών παρατηρήθηκε ιδανική επαναληψημότητα, με τον διάμεσο να είναι 0,889 για το σύνολο των εξαγόμενων χαρακτηριστικών. Για να αξιολογηθεί η διακριτική ικανότητα των χαρακτηριστικών χρησιμοποιήθηκε το Shapiro-Wilk normality test ώστε να καθοριστεί η κατανομή των χαρακτηριστικών για κάθε μέγεθος δοχείου (22 χαρακτηριστικά παρουσίασαν κανονική κατανομή και 27 μη-κανονική κατανομή). Έπειτα, ανάλογα με την κατανομή του κάθε χαρακτηριστικού πραγματοποιήθηκε ένα Mann-Whitney U test ή ένα independent t-test με διάστημα εμπιστοσύνης 95%, ώστε να ελεγχθεί η ικανότητα των χαρακτηριστικών να ξεχωρίζει μεταξύ των δύο τύπων καρκίνου. Αυτοί οι έλεγχοι υπόθεσης ανέδειξαν ότι το χαρακτηριστικό GLRLM SRE για μέγεθος δοχείου 0,635 είναι χρήσιμο για τον διαχωρισμό των τύπων καρκίνου. Ακόμη, τα εξαγόμενα χαρακτηριστικά χρησιμοποιήθηκαν ως είσοδος σε μια μονοπαραμετρική διεργασία ταξινόμησης μηχανικής εκμάθησης. Το λογισμικό που χρησιμοποιήθηκε για την ταξινόμηση είναι το Orange Data Mining v3.30. Τρεις διαφορετικοί ταξινομητές χρησιμοποιήθηκαν για να δημιουργηθούν μοντέλα μηχανικής εκμάθησης, αυτοί είναι ο Logistic Regression, ο Random Forest και ο Support-Vector Machine. Η επίδοση του κάθε μονοπαραμετρικού μοντέλου εκτιμήθηκε χρησιμοποιώντας την τιμή του εμβαδού κάτω από την καμπύλη (Area Under Curve or AUC) της καμπύλης ROC του μοντέλου. Η υψηλότερη τιμή AUC ήταν 0,878 για το μοντέλο του Logistic Regression, για το χαρακτηριστικό NGLDM Busyness, για το μεγαλύτερο μέγεθος δοχείου. Ως αποτέλεσμα όλων των τριών παραπάνω μεθόδων το κατάλληλο μέγεθος δοχείου για την συγκεκριμένη ακτινομική μελέτη τομογραφίας εκπομπής ποζιτρονίων φαίνεται να είναι για μέγεθος δοχείου 0,6. Τέλος δύο χαρακτηριστικά τα οποία παρουσίασαν υψηλή τιμή δεικτών ICC και AUC (SUV Kurtosis και SUV Excess Kurtosis) μπορούν να προταθούν για επιπλέον έρευνα ως βιοδείκτες απεικόνισης . 2022-07-07T07:11:49Z 2022-07-07T07:11:49Z 2022-06-22 http://hdl.handle.net/10889/16402 en application/pdf