Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i

Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ντεϊμεντέ, Σοφία
Άλλοι συγγραφείς: Χριστοδουλάκης, Δημήτριος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2007
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/544
Περιγραφή
Περίληψη:Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματα κειμένων μπορούν να διακριθούν ως προς το περιεχόμενο τους σε ειδικευμένα και γενικά. Διαφόρων τύπων διάλεκτοι όπως γεωγραφικές ή κοινωνικές καθώς και ιδιωματισμοί δεν θα πρέπει να συμπεριλαμβάνονται σε αυτά γιατί αποκλίνουν από τη γενική χρήση της γλώσσας. Η χρήση των σωμάτων κειμένων γίνεται σε διάφορους τομείς της Γλωσσολογίας όπως η Βασική έρευνα, η Λεξικογραφία, η Επεξεργασία της φυσικής γλώσσας, η επεξεργασία φωνής και προφορικού λόγου και σκοπός της είναι να προσφέρει στον ερευνητή ή στον οποιοδήποτε ενδιαφερόμενο την πληροφορία που χρειάζεται για τη γλωσσολογική του έρευνα. Εκτός από θεωρητική έρευνα όμως τα σώματα κειμένων μπορούν να αποτελέσουν τη βάση για τη δημιουργία λεξικών και για την υλοποίηση τυπικών γραμματικών. Στη σημερινή εποχή που αποτελεί γενική διαπίστωση ότι η τεχνολογία δίνει τεράστιες δυνατότητες όσον αφορά την αποθήκευση μεγάλου όγκου πληροφορίας και την γρήγορη ανάκτηση δεδομένων, καθώς και η εκθετική αύξηση της χρήσης του Διαδικτύου, έχουν κάνει δυνατή τη δημιουργία ηλεκτρονικών σωμάτων κειμένων που εκμεταλλεύονται τις προαναφερθείσες δυνατότητες, Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η υλοποίηση μιας δομής αποθήκευσης σωμάτων κειμένων στην σχεσιακή βάση δεδομένων Oracle 9i, χρησιμοποιώντας την τεχνολογία Oracle Text. Η τεχνολογία αυτή προσφέρει δυνατότητα αναζήτησης σε όλους τους τύπους δεδομένων, υψηλή απόδοση, γρήγορες ταχύτητες και ανώτερη ποιότητα αναζήτησης και συνδυάζεται με όλες τις δυνατότητες και τα πλεονεκτήματα που μας παρέχει η βάση δεδομένων Oracle 9ί. Το παρόν σώμα κειμένων βασίζεται στο αντίστοιχο ευρωπαϊκό σώμα κειμένων με την ονομασία Tractor Corpus (TELRI Research Archive of Computational Tools and Resource) το οποίο καλύπτει την πλειοψηφία των ευρωπαϊκών γλωσσών, ανάμεσα σ' αυτές και την ελληνική και έχει εμπλουτιστεί και με σύγχρονα κείμενα, τα οποία έχουν προέλθει από ποικίλες πηγές (βιβλία, εφημερίδες, περιοδικά, διαδίκτυο κα) και καλύπτουν αρκετά θέματα της τρέχουσας ειδησεογραφία και όχι μόνο. Η σχεσιακή βάση δεδομένων περιέχει όλο τα κείμενα τα οποία είναι αποθηκευμένα στους πίνακες της και αποτέλεσμα αυτού είναι να μην υπάρχει υλικό σε εξωτερικά αρχεία. Αυτό συμβαίνει γιατί οι σύγχρονες 8Δ δίνουν την δυνατότητα αποθήκευσης μεγάλου όγκου δεδομένων χωρίς να επηρεαστεί η ταχύτητα απόκρισης τους. Στα πλαίσια της διπλωματικής έχει υλοποιηθεί διαχειριστική εφαρμογή, μέσω της οποίας ο διαχειριστής του συστήματος μπορεί να αποθηκεύσει τα αρχεία κειμένου στη βάση και να προχωρήσει στην λεκτική ανάλυση των κειμένων, την ανεύρεση δηλαδή των δομικών τους μονάδων-προτάσεων. Επιπλέον, μπορεί μέσω της εφαρμογής εξαγωγής λέξεων κλειδιών να παράγει για κάθε κείμενο τις λέξεις κλειδιά ώστε να τις εμφανίσει αργότερα στη διαδικτυακή εφαρμογή σαν επιπρόσθετη πληροφορία. Ακόμα έχουν υλοποιηθεί οι απαραίτητες ιστοσελίδες που αποτελούν τη διεπαφή χρήστη, για την αναζήτηση όρων στο σώμα κειμένων και την άντληση του υλικού ανάλογα με τις ανάγκες του. Όσον αφορά στην αναζήτηση το σύστημα επιτρέπει στον χρήστη απλές αναζητήσεις όπως το να αναζητήσει από μια έως τρεις λέξεις με τους τελεστές ΟΚ (διάζευξη) ή ΑΝD (σύζευξη) ανάμεσα τους αλλά και σύνθετες αναζητήσεις όπου ο χρήστης μπορεί να επιλέξει τη μέγιστη απόσταση μέσα σε κάθε πρόταση κειμένου μεταξύ των λέξεων που αναζητά. Το σύστημα εκτελεί το εκάστοτε ερώτημα κάθε φορά και επιστρέφει τα αποτελέσματα, επιστρέφει δηλαδή προτάσεις από τα κείμενα στις οποίες εμπεριέχονται οι λέξεις αναζήτησης και ικανοποιούνται τα κριτήρια αναζήτησης που έχουν τεθεί. Τέλος, ο χρήστης μπορεί ακόμα να δει επιπλέον πληροφορίες σχετικές με το κείμενο από το οποίο προήλθε ο όρος ή οι όροι που αναζήτησε όπως τον συγγραφέα, τον εκδότη, τις λέξεις κλειδιά, το μέσο δημοσίευσης, την ημερομηνία έκδοσης κ.α.