Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων

Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κε...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τόκης, Θεόδωρος
Άλλοι συγγραφείς: Μακρής, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2017
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/10109
id nemertes-10889-10109
record_format dspace
spelling nemertes-10889-101092022-09-05T20:21:06Z Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων Handling weighted sequences employing inverted files and suffix trees Τόκης, Θεόδωρος Μακρής, Χρήστος Τσακαλίδης, Αθανάσιος Γαροφαλάκης, Ιωάννης Tokis, Theodoros Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων. Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς επαναληπτικότητας των εµπλεκόµενων κειµένων. In this Master Thesis, we address the problem of handling weighted sequences. This is by taking advantage of the inverted files machinery and targeting at text processing applications, where the involved documents cannot be separated into words (such as texts representing biological sequences) or word separation is difficult and involves extra linguistic knowledge (texts in Asian languages). The proposed techniques combine classic straightforward n-gram indexing, with the recently proposed two-level n-gram inverted file technique. The final outcomes are new data structures for n-gram indexing, whichperform better in terms of space consumption to the existing ones. Our experimental results are encouraging and depict that these techniques can surely handle n-gram indexes more space efficiently than already existing methods. Actually they have excellent space consumption properties, while they perform efficiently for all types of data (even if they do not seem to be that highly repetitive) taking advantage of the inherent repetitiveness of the involved text. 2017-02-13T07:43:56Z 2017-02-13T07:43:56Z 2016-09-08 Thesis http://hdl.handle.net/10889/10109 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Ανεστραµµένα αρχεία
Δοµές ευρετηρίου
n-gram Ευρετηρίαση
Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων
Ανάλυση ακολουθίας και συναρµολόγηση
Ακολουθίες µε βάρη
Σταθµισµένο δέντρο επιθεµάτων
Searching and browsing
Web information filtering and retrieval
Text mining
Indexing structures
Inverted files
n-gram Indexing
Sequence analysis and assembly
Weighted sequences
Weighted suffix trees
006.312
spellingShingle Ανεστραµµένα αρχεία
Δοµές ευρετηρίου
n-gram Ευρετηρίαση
Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων
Ανάλυση ακολουθίας και συναρµολόγηση
Ακολουθίες µε βάρη
Σταθµισµένο δέντρο επιθεµάτων
Searching and browsing
Web information filtering and retrieval
Text mining
Indexing structures
Inverted files
n-gram Indexing
Sequence analysis and assembly
Weighted sequences
Weighted suffix trees
006.312
Τόκης, Θεόδωρος
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
description Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων. Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς επαναληπτικότητας των εµπλεκόµενων κειµένων.
author2 Μακρής, Χρήστος
author_facet Μακρής, Χρήστος
Τόκης, Θεόδωρος
format Thesis
author Τόκης, Θεόδωρος
author_sort Τόκης, Θεόδωρος
title Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_short Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_full Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_fullStr Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_full_unstemmed Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_sort χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
publishDate 2017
url http://hdl.handle.net/10889/10109
work_keys_str_mv AT tokēstheodōros cheirismosbebarēmenōnakolouthiōnmechrēsēanestrammenōnarcheiōnkaidentrōnepithematōn
AT tokēstheodōros handlingweightedsequencesemployinginvertedfilesandsuffixtrees
_version_ 1771297346213117952