Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων

Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κε...

Full description

Bibliographic Details
Main Author:	Τόκης, Θεόδωρος
Other Authors:	Μακρής, Χρήστος
Format:	Thesis
Language:	Greek
Published:	2017
Subjects:	Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312
Online Access:	http://hdl.handle.net/10889/10109

id	nemertes-10889-10109
record_format	dspace
spelling	nemertes-10889-101092022-09-05T20:21:06Z Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων Handling weighted sequences employing inverted files and suffix trees Τόκης, Θεόδωρος Μακρής, Χρήστος Τσακαλίδης, Αθανάσιος Γαροφαλάκης, Ιωάννης Tokis, Theodoros Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων. Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς επαναληπτικότητας των εµπλεκόµενων κειµένων. In this Master Thesis, we address the problem of handling weighted sequences. This is by taking advantage of the inverted files machinery and targeting at text processing applications, where the involved documents cannot be separated into words (such as texts representing biological sequences) or word separation is difficult and involves extra linguistic knowledge (texts in Asian languages). The proposed techniques combine classic straightforward n-gram indexing, with the recently proposed two-level n-gram inverted file technique. The final outcomes are new data structures for n-gram indexing, whichperform better in terms of space consumption to the existing ones. Our experimental results are encouraging and depict that these techniques can surely handle n-gram indexes more space efficiently than already existing methods. Actually they have excellent space consumption properties, while they perform efficiently for all types of data (even if they do not seem to be that highly repetitive) taking advantage of the inherent repetitiveness of the involved text. 2017-02-13T07:43:56Z 2017-02-13T07:43:56Z 2016-09-08 Thesis http://hdl.handle.net/10889/10109 gr 0 application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312
spellingShingle	Ανεστραµµένα αρχεία Δοµές ευρετηρίου n-gram Ευρετηρίαση Επεξεργασία και βελτιστοποίηση βιολογικών δεδοµένων Ανάλυση ακολουθίας και συναρµολόγηση Ακολουθίες µε βάρη Σταθµισµένο δέντρο επιθεµάτων Searching and browsing Web information filtering and retrieval Text mining Indexing structures Inverted files n-gram Indexing Sequence analysis and assembly Weighted sequences Weighted suffix trees 006.312 Τόκης, Θεόδωρος Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
description	Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων. Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς επαναληπτικότητας των εµπλεκόµενων κειµένων.
author2	Μακρής, Χρήστος
author_facet	Μακρής, Χρήστος Τόκης, Θεόδωρος
format	Thesis
author	Τόκης, Θεόδωρος
author_sort	Τόκης, Θεόδωρος
title	Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_short	Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_full	Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_fullStr	Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_full_unstemmed	Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
title_sort	χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων
publishDate	2017
url	http://hdl.handle.net/10889/10109
work_keys_str_mv	AT tokēstheodōros cheirismosbebarēmenōnakolouthiōnmechrēsēanestrammenōnarcheiōnkaidentrōnepithematōn AT tokēstheodōros handlingweightedsequencesemployinginvertedfilesandsuffixtrees
_version_	1771297346213117952

Χειρισµός βεβαρηµένων ακολουθιών µε χρήση ανεστραµµένων αρχείων και δέντρων επιθεµάτων

Similar Items