Περίληψη: | Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ.) είτε βιολογικά δεδομένα χρήζουν επεξεργασίας, καθώς και αποθήκευσης καταλαμβάνοντας τον λιγότερο δυνατό αποθηκευτικό χώρο.
Η παρούσα διπλωματική διατριβή εστιάζει στη κατηγορία βιολογικών δεδομένων και ειδικότερα στην μελέτη τεχνικών συμπίεσης για την αποδοτικότερη αποθήκευση των εν λόγω δεδομένων. Ειδικότερα μελετάμε την σταθερότητα αλγορίθμων συμπίεσης σε βιολογικές ακολουθίες DNA που αποθηκεύονται σε ανεστραμμένα ευρετήρια δύο επιπέδων.
Οι αλγόριθμοι συμπίεσης μας επιτρέπουν την αποδοτική αποθήκευση των ακολουθιών εξοικονομώντας χώρο, σε συνδυασμό με τις δομές των ανεστραμμένων αρχείων, πετυχαίνουμε την καλύτερη εξοικονόμηση χώρου καθώς και αποδοτικότερη αναζήτηση μιας εγγραφής σε αρχείο. Θα ασχοληθούμε κυρίως με τον τρόπο κατάλληλης αποθήκευσης των βεβαρυμμένων αλληλουχιών. Η ιδιαιτερότητα των βεβαρυμμένων συμβολοσειρών εμφανίζεται στο γεγονός ότι σε κάποια σημεία αντί να εμφανίζεται ένα συγκεκριμένο γράμμα από το αλφάβητο, υπάρχει η δυνατότητα εμφάνισης όλων των γραμμάτων της αλφαβήτου με βάση κάποια πιθανότητα το καθένα.
Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά, καθώς μας επιτρέπουν να βγάλουμε συμπεράσματα και να κατηγοριοποιήσουμε τις τεχνικές συμπίεσης με βάση την σταθερότητα της απόδοσης που παρουσιάζουν.
|