Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες

Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ....

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λόσι, Τζεσιάνα
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12944
id nemertes-10889-12944
record_format dspace
spelling nemertes-10889-129442022-09-05T20:50:36Z Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες Applying compression algorithms to two level inverted indexes for biological sequences Λόσι, Τζεσιάνα Μακρής, Χρήστος Σιούτας, Σπύρος Χατζηλυγερούδης, Ιωάννης Losi, Tzesiana Aλγόριθμοι συμπίεσης Aνεστραμμένα ευρετήρια Bιολογικά δεδομένα Compression algorithms Inverted indexes Biological data Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ.) είτε βιολογικά δεδομένα χρήζουν επεξεργασίας, καθώς και αποθήκευσης καταλαμβάνοντας τον λιγότερο δυνατό αποθηκευτικό χώρο. Η παρούσα διπλωματική διατριβή εστιάζει στη κατηγορία βιολογικών δεδομένων και ειδικότερα στην μελέτη τεχνικών συμπίεσης για την αποδοτικότερη αποθήκευση των εν λόγω δεδομένων. Ειδικότερα μελετάμε την σταθερότητα αλγορίθμων συμπίεσης σε βιολογικές ακολουθίες DNA που αποθηκεύονται σε ανεστραμμένα ευρετήρια δύο επιπέδων. Οι αλγόριθμοι συμπίεσης μας επιτρέπουν την αποδοτική αποθήκευση των ακολουθιών εξοικονομώντας χώρο, σε συνδυασμό με τις δομές των ανεστραμμένων αρχείων, πετυχαίνουμε την καλύτερη εξοικονόμηση χώρου καθώς και αποδοτικότερη αναζήτηση μιας εγγραφής σε αρχείο. Θα ασχοληθούμε κυρίως με τον τρόπο κατάλληλης αποθήκευσης των βεβαρυμμένων αλληλουχιών. Η ιδιαιτερότητα των βεβαρυμμένων συμβολοσειρών εμφανίζεται στο γεγονός ότι σε κάποια σημεία αντί να εμφανίζεται ένα συγκεκριμένο γράμμα από το αλφάβητο, υπάρχει η δυνατότητα εμφάνισης όλων των γραμμάτων της αλφαβήτου με βάση κάποια πιθανότητα το καθένα. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά, καθώς μας επιτρέπουν να βγάλουμε συμπεράσματα και να κατηγοριοποιήσουμε τις τεχνικές συμπίεσης με βάση την σταθερότητα της απόδοσης που παρουσιάζουν. Due to the rapid evolution of technology, the data nowadays is being produced at a fast pace. A major challenge for computer science is managing, storing and processing of ever-increasing data volumes. Web data (texts, images, etc.) or biological data needs processing as well as storage occupying the least possible storage space. This thesis focuses on the biological data and the study of compression techniques for more efficient storage of such data. In particular, we study the stability of compression algorithms in biological DNA sequences stored in two-level inverted indexes. Compression algorithms allow us to efficiently store sequences by reducing space demand, combined with inverted file structures, achieving less space need as well as more efficient search for a file record. We will mainly deal with how to properly store the weighted sequences. Weighted sequences are strings that in some places instead of a certain letter of the alphabet, it is possible to display all letters of the alphabet based on a certain probability for each letter. The experimental results are encouraging, as they allow us to draw conclusions and categorize the compression techniques based on their performance stability. 2020-01-14T16:41:27Z 2020-01-14T16:41:27Z 2019-10-10 Thesis http://hdl.handle.net/10889/12944 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Aλγόριθμοι συμπίεσης
Aνεστραμμένα ευρετήρια
Bιολογικά δεδομένα
Compression algorithms
Inverted indexes
Biological data
spellingShingle Aλγόριθμοι συμπίεσης
Aνεστραμμένα ευρετήρια
Bιολογικά δεδομένα
Compression algorithms
Inverted indexes
Biological data
Λόσι, Τζεσιάνα
Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
description Χάρη στην ραγδαία εξέλιξη της τεχνολογίας τα δεδομένα στις μέρες μας παράγονται με ταχύτατους ρυθμούς. Μια σημαντική πρόκληση για την επιστήμη των υπολογιστών είναι η διαχείριση, αποθήκευση και επεξεργασία του συνεχώς αυξανόμενου όγκου δεδομένων. Δεδομένα του παγκόσμιου ιστού (κείμενα, εικόνες κ.λπ.) είτε βιολογικά δεδομένα χρήζουν επεξεργασίας, καθώς και αποθήκευσης καταλαμβάνοντας τον λιγότερο δυνατό αποθηκευτικό χώρο. Η παρούσα διπλωματική διατριβή εστιάζει στη κατηγορία βιολογικών δεδομένων και ειδικότερα στην μελέτη τεχνικών συμπίεσης για την αποδοτικότερη αποθήκευση των εν λόγω δεδομένων. Ειδικότερα μελετάμε την σταθερότητα αλγορίθμων συμπίεσης σε βιολογικές ακολουθίες DNA που αποθηκεύονται σε ανεστραμμένα ευρετήρια δύο επιπέδων. Οι αλγόριθμοι συμπίεσης μας επιτρέπουν την αποδοτική αποθήκευση των ακολουθιών εξοικονομώντας χώρο, σε συνδυασμό με τις δομές των ανεστραμμένων αρχείων, πετυχαίνουμε την καλύτερη εξοικονόμηση χώρου καθώς και αποδοτικότερη αναζήτηση μιας εγγραφής σε αρχείο. Θα ασχοληθούμε κυρίως με τον τρόπο κατάλληλης αποθήκευσης των βεβαρυμμένων αλληλουχιών. Η ιδιαιτερότητα των βεβαρυμμένων συμβολοσειρών εμφανίζεται στο γεγονός ότι σε κάποια σημεία αντί να εμφανίζεται ένα συγκεκριμένο γράμμα από το αλφάβητο, υπάρχει η δυνατότητα εμφάνισης όλων των γραμμάτων της αλφαβήτου με βάση κάποια πιθανότητα το καθένα. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά, καθώς μας επιτρέπουν να βγάλουμε συμπεράσματα και να κατηγοριοποιήσουμε τις τεχνικές συμπίεσης με βάση την σταθερότητα της απόδοσης που παρουσιάζουν.
author2 Μακρής, Χρήστος
author_facet Μακρής, Χρήστος
Λόσι, Τζεσιάνα
format Thesis
author Λόσι, Τζεσιάνα
author_sort Λόσι, Τζεσιάνα
title Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
title_short Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
title_full Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
title_fullStr Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
title_full_unstemmed Εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
title_sort εφαρμογές αλγορίθμων συμπίεσης σε ανεστραμμένα ευρετήρια δύο επιπέδων για βιολογικές ακολουθίες
publishDate 2020
url http://hdl.handle.net/10889/12944
work_keys_str_mv AT lositzesiana epharmogesalgorithmōnsympiesēsseanestrammenaeuretēriadyoepipedōngiabiologikesakolouthies
AT lositzesiana applyingcompressionalgorithmstotwolevelinvertedindexesforbiologicalsequences
_version_ 1771297298491375616