Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κε...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2017
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/10109 |
id |
nemertes-10889-10109 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-101092022-09-05T20:21:06Z Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων Handling weighted sequences employing inverted files and suffix trees Τόκης, Θεόδωρος Μακρής, Χρήστος Τσακαλίδης, Αθανάσιος Γαροφαλάκης, Ιωάννης Tokis, Theodoros Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων. Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς επαναληπτικότητας των εµπλεκόµενων κειµένων. In this Master Thesis, we address the problem of handling weighted sequences. This is by taking advantage of the inverted files machinery and targeting at text processing applications, where the involved documents cannot be separated into words (such as texts representing biological sequences) or word separation is difficult and involves extra linguistic knowledge (texts in Asian languages). The proposed techniques combine classic straightforward n-gram indexing, with the recently proposed two-level n-gram inverted file technique. The final outcomes are new data structures for n-gram indexing, whichperform better in terms of space consumption to the existing ones. Our experimental results are encouraging and depict that these techniques can surely handle n-gram indexes more space efficiently than already existing methods. Actually they have excellent space consumption properties, while they perform efficiently for all types of data (even if they do not seem to be that highly repetitive) taking advantage of the inherent repetitiveness of the involved text. 2017-02-13T07:43:56Z 2017-02-13T07:43:56Z 2016-09-08 Thesis http://hdl.handle.net/10889/10109 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 |
spellingShingle |
Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 Τόκης, Θεόδωρος Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
description |
Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων.
Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς
επαναληπτικότητας των εµπλεκόµενων κειµένων. |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Τόκης, Θεόδωρος |
format |
Thesis |
author |
Τόκης, Θεόδωρος |
author_sort |
Τόκης, Θεόδωρος |
title |
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
title_short |
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
title_full |
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
title_fullStr |
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
title_full_unstemmed |
Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
title_sort |
χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων |
publishDate |
2017 |
url |
http://hdl.handle.net/10889/10109 |
work_keys_str_mv |
AT tokēstheodōros cheirismosbebarēmenōnakolouthiōnmechrēsēanestrammenōnarcheiōnkaidentrōnepithematōn AT tokēstheodōros handlingweightedsequencesemployinginvertedfilesandsuffixtrees |
_version_ |
1771297346213117952 |