Περίληψη: | Σκοπός της παρούσας διπλωµατικής διατριβής είναι η αντιµετώπιση του προβλήµατος του χειρισµού βεβαρηµένων ακολουθιών µε εκµετάλλευση του µηχανισµού των ανεστραµµένων αρχείων, στοχεύοντας σε εφαρµογές επεξεργασίας κειµένου όπου τα έγγραφα που εµπλέκονται δεν µπορούν να διαχωριστούν σε λέξεις (όπως κείµενα που αντιπροσωπεύουν βιολογικές ακολουθίες) ή ο διαχωρισµός των λέξεων είναι δύσκολος και περιλαµβάνει επιπλέον γλωσσικές γνώσεις (όπως κείµενα σε ασιατικές γλώσσες). Οι προτεινόµενες τεχνικές συνδυάζουν την κλασική απλή n-gram ευρετηρίαση, µαζί µε την πρόσφατα προτεινόµενη τεχνική δύο επιπέδων n-gram ανεστραµµένων αρχείων.
Τα τελικά αποτελέσµατα είναι νέες δοµές δεδοµένων για την n-gram ευρετηρίαση, που έχουν καλύτερες επιδόσεις από την άποψη της κατανάλωσης χώρου σε σχέση µε τις ήδη υπάρχουσες. Τα πειραµατικά αποτελέσµατα είναι ενθαρρυντικά και απεικονίζουν ότι οι τεχνικές αυτές µπορούν σίγουρα να χειριστούν n-gram ευρετήρια περισσότερο αποτελεσµατικά σε σχέση µε το χώρο από τις υπάρχουσες µεθόδους. Στην πραγµατικότητα έχουν εξαιρετικές ιδιότητες κατανάλωσης χώρου, ενώ εκτελούνται αποτελεσµατικά για όλους τους τύπους αρχείων δεδοµένων (ακόµη και αν δεν φαίνεται να είναι ιδιαίτερα επαναλαµβανόµενα), λαµβάνοντας µε άλλα λόγια πλεονέκτηµα της εγγενούς
επαναληπτικότητας των εµπλεκόµενων κειµένων.
|