Περίληψη: | Η μεταγραφική αλληλούχιση που εφαρμόζεται σε μεμονωμένα κύτταρα (scRNA-seq) γίνεται ολοένα και περισσότερο μια δοκιμή επιλογής σε πολλά πεδία βιολογικής και βιοϊατρικής έρευνας. Οι επιστημονικοί στόχοι συχνά περιστρέφονται γύρω από την ανακάλυψη ή τον χαρακτηρισμό των τύπων ή των υπο-τύπων των κυττάρων και συνεπώς η λήψη επακριβών ομοιοτήτων κυττάρου-κυττάρου από τα δεδομένα scRNA-seq είναι ένα κρίσιμο βήμα σε πολλές μελέτες. Ενώ γίνονται ταχείες εξελίξεις στην ανάπτυξη εργαλείων για την ανάλυση δεδομένων scRNA-seq, υπάρχουν λίγες προσεγγίσεις που αντιμετωπίζουν ρητά αυτή την προσπάθεια. Επιπλέον, η αφθονία και ο τύπος θορύβου που υπάρχουν στα σύνολα δεδομένων scRNA-seq υποδηλώνουν ότι η εφαρμογή των γενικών μεθόδων ή των μεθόδων που αναπτύσσονται για τα μαζικά δεδομένα RNA-seq είναι πιθανώς μη βέλτιστη. Στην παρούσα εργασία, παρουσιάζεται το RAFSIL, μια προσέγγιση βασισμένη στον αλγόριθμο Random Forest με την οποία γίνεται η εκμάθηση των ομοιοτήτων μεταξύ κυττάρων από τα δεδομένα scRNA-seq. Το RAFSIL εφαρμόζει μια διαδικασία σε δύο βήματα, όπου η κατασκευή χαρακτηριστικών που είναι προσαρμοσμένη στα δεδομένα scRNA-seq ακολουθείται από την εκμάθηση ομοιότητας. Επιπλέον, παρουσιάζεται το SIMLR, μια προσέγγιση που βασίζεται στην πολλαπλή μάθηση του πυρήνα που μαθαίνει απευθείας τις ομοιότητες μεταξύ των μεμονωμένων κυττάρων,
ενώ πραγματοποιείται μια σύγκριση των παραπάνω μεθόδων, η οποία τελικά οδηγεί στο συμπέρασμα ότι η μέθοδος RAFSIL έχει καλύτερα αποτελέσματα.
|