Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ....
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/12944 |
id |
nemertes-10889-12944 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-129442022-09-05T20:50:36Z Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες Applying compression algorithms to two level inverted indexes for biological sequences Λόσι, Τζεσιάνα Μακρής, Χρήστος Σιούτας, Σπύρος Χατζηλυγερούδης, Ιωάννης Losi, Tzesiana Aλγόριθμοι συμπίεσης Aνεστραμμένα ευρετήρια Bιολογικά δεδομένα Compression algorithms Inverted indexes Biological data Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ.) είτε βιολογικά δεδομένα χρήζουν επεξεργασίας, καθώς και αποθήκευσης καταλαμβάνοντας τον λιγότερο δυνατό αποθηκευτικό χώρο. Η παρούσα διπλωματική διατριβή εστιάζει στη κατηγορία βιολογικών δεδομένων και ειδικότερα στην μελέτη τεχνικών συμπίεσης για την αποδοτικότερη αποθήκευση των εν λόγω δεδομένων. Ειδικότερα μελετάμε την σταθερότητα αλγορίθμων συμπίεσης σε βιολογικές ακολουθίες DNA που αποθηκεύονται σε ανεστραμμένα ευρετήρια δύο επιπέδων. Οι αλγόριθμοι συμπίεσης μας επιτρέπουν την αποδοτική αποθήκευση των ακολουθιών εξοικονομώντας χώρο, σε συνδυασμό με τις δομές των ανεστραμμένων αρχείων, πετυχαίνουμε την καλύτερη εξοικονόμηση χώρου καθώς και αποδοτικότερη αναζήτηση μιας εγγραφής σε αρχείο. Θα ασχοληθούμε κυρίως με τον τρόπο κατάλληλης αποθήκευσης των βεβαρυμμένων αλληλουχιών. Η ιδιαιτερότητα των βεβαρυμμένων συμβολοσειρών εμφανίζεται στο γεγονός ότι σε κάποια σημεία αντί να εμφανίζεται ένα συγκεκριμένο γράμμα από το αλφάβητο, υπάρχει η δυνατότητα εμφάνισης όλων των γραμμάτων της αλφαβήτου με βάση κάποια πιθανότητα το καθένα. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά, καθώς μας επιτρέπουν να βγάλουμε συμπεράσματα και να κατηγοριοποιήσουμε τις τεχνικές συμπίεσης με βάση την σταθερότητα της απόδοσης που παρουσιάζουν. Due to the rapid evolution of technology, the data nowadays is being produced at a fast pace. A major challenge for computer science is managing, storing and processing of ever-increasing data volumes. Web data (texts, images, etc.) or biological data needs processing as well as storage occupying the least possible storage space. This thesis focuses on the biological data and the study of compression techniques for more efficient storage of such data. In particular, we study the stability of compression algorithms in biological DNA sequences stored in two-level inverted indexes. Compression algorithms allow us to efficiently store sequences by reducing space demand, combined with inverted file structures, achieving less space need as well as more efficient search for a file record. We will mainly deal with how to properly store the weighted sequences. Weighted sequences are strings that in some places instead of a certain letter of the alphabet, it is possible to display all letters of the alphabet based on a certain probability for each letter. The experimental results are encouraging, as they allow us to draw conclusions and categorize the compression techniques based on their performance stability. 2020-01-14T16:41:27Z 2020-01-14T16:41:27Z 2019-10-10 Thesis http://hdl.handle.net/10889/12944 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Aλγόριθμοι συμπίεσης Aνεστραμμένα ευρετήρια Bιολογικά δεδομένα Compression algorithms Inverted indexes Biological data |
spellingShingle |
Aλγόριθμοι συμπίεσης Aνεστραμμένα ευρετήρια Bιολογικά δεδομένα Compression algorithms Inverted indexes Biological data Λόσι, Τζεσιάνα Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
description |
Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ.) είτε βιολογικά δεδομένα χρήζουν επεξεργασίας, καθώς και αποθήκευσης καταλαμβάνοντας τον λιγότερο δυνατό αποθηκευτικό χώρο.
Η παρούσα διπλωματική διατριβή εστιάζει στη κατηγορία βιολογικών δεδομένων και ειδικότερα στην μελέτη τεχνικών συμπίεσης για την αποδοτικότερη αποθήκευση των εν λόγω δεδομένων. Ειδικότερα μελετάμε την σταθερότητα αλγορίθμων συμπίεσης σε βιολογικές ακολουθίες DNA που αποθηκεύονται σε ανεστραμμένα ευρετήρια δύο επιπέδων.
Οι αλγόριθμοι συμπίεσης μας επιτρέπουν την αποδοτική αποθήκευση των ακολουθιών εξοικονομώντας χώρο, σε συνδυασμό με τις δομές των ανεστραμμένων αρχείων, πετυχαίνουμε την καλύτερη εξοικονόμηση χώρου καθώς και αποδοτικότερη αναζήτηση μιας εγγραφής σε αρχείο. Θα ασχοληθούμε κυρίως με τον τρόπο κατάλληλης αποθήκευσης των βεβαρυμμένων αλληλουχιών. Η ιδιαιτερότητα των βεβαρυμμένων συμβολοσειρών εμφανίζεται στο γεγονός ότι σε κάποια σημεία αντί να εμφανίζεται ένα συγκεκριμένο γράμμα από το αλφάβητο, υπάρχει η δυνατότητα εμφάνισης όλων των γραμμάτων της αλφαβήτου με βάση κάποια πιθανότητα το καθένα.
Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά, καθώς μας επιτρέπουν να βγάλουμε συμπεράσματα και να κατηγοριοποιήσουμε τις τεχνικές συμπίεσης με βάση την σταθερότητα της απόδοσης που παρουσιάζουν. |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Λόσι, Τζεσιάνα |
format |
Thesis |
author |
Λόσι, Τζεσιάνα |
author_sort |
Λόσι, Τζεσιάνα |
title |
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
title_short |
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
title_full |
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
title_fullStr |
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
title_full_unstemmed |
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
title_sort |
εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/12944 |
work_keys_str_mv |
AT lositzesiana epharmogesalgorithmōnsympiesēsseanestrammenaeuretēriadyoepipedōngiabiologikesakolouthies AT lositzesiana applyingcompressionalgorithmstotwolevelinvertedindexesforbiologicalsequences |
_version_ |
1771297298491375616 |