Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i

Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ντεϊμεντέ, Σοφία
Άλλοι συγγραφείς: Χριστοδουλάκης, Δημήτριος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2007
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/544
id nemertes-10889-544
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic 005.756
spellingShingle 005.756
Ντεϊμεντέ, Σοφία
Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
description Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματα κειμένων μπορούν να διακριθούν ως προς το περιεχόμενο τους σε ειδικευμένα και γενικά. Διαφόρων τύπων διάλεκτοι όπως γεωγραφικές ή κοινωνικές καθώς και ιδιωματισμοί δεν θα πρέπει να συμπεριλαμβάνονται σε αυτά γιατί αποκλίνουν από τη γενική χρήση της γλώσσας. Η χρήση των σωμάτων κειμένων γίνεται σε διάφορους τομείς της Γλωσσολογίας όπως η Βασική έρευνα, η Λεξικογραφία, η Επεξεργασία της φυσικής γλώσσας, η επεξεργασία φωνής και προφορικού λόγου και σκοπός της είναι να προσφέρει στον ερευνητή ή στον οποιοδήποτε ενδιαφερόμενο την πληροφορία που χρειάζεται για τη γλωσσολογική του έρευνα. Εκτός από θεωρητική έρευνα όμως τα σώματα κειμένων μπορούν να αποτελέσουν τη βάση για τη δημιουργία λεξικών και για την υλοποίηση τυπικών γραμματικών. Στη σημερινή εποχή που αποτελεί γενική διαπίστωση ότι η τεχνολογία δίνει τεράστιες δυνατότητες όσον αφορά την αποθήκευση μεγάλου όγκου πληροφορίας και την γρήγορη ανάκτηση δεδομένων, καθώς και η εκθετική αύξηση της χρήσης του Διαδικτύου, έχουν κάνει δυνατή τη δημιουργία ηλεκτρονικών σωμάτων κειμένων που εκμεταλλεύονται τις προαναφερθείσες δυνατότητες, Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η υλοποίηση μιας δομής αποθήκευσης σωμάτων κειμένων στην σχεσιακή βάση δεδομένων Oracle 9i, χρησιμοποιώντας την τεχνολογία Oracle Text. Η τεχνολογία αυτή προσφέρει δυνατότητα αναζήτησης σε όλους τους τύπους δεδομένων, υψηλή απόδοση, γρήγορες ταχύτητες και ανώτερη ποιότητα αναζήτησης και συνδυάζεται με όλες τις δυνατότητες και τα πλεονεκτήματα που μας παρέχει η βάση δεδομένων Oracle 9ί. Το παρόν σώμα κειμένων βασίζεται στο αντίστοιχο ευρωπαϊκό σώμα κειμένων με την ονομασία Tractor Corpus (TELRI Research Archive of Computational Tools and Resource) το οποίο καλύπτει την πλειοψηφία των ευρωπαϊκών γλωσσών, ανάμεσα σ' αυτές και την ελληνική και έχει εμπλουτιστεί και με σύγχρονα κείμενα, τα οποία έχουν προέλθει από ποικίλες πηγές (βιβλία, εφημερίδες, περιοδικά, διαδίκτυο κα) και καλύπτουν αρκετά θέματα της τρέχουσας ειδησεογραφία και όχι μόνο. Η σχεσιακή βάση δεδομένων περιέχει όλο τα κείμενα τα οποία είναι αποθηκευμένα στους πίνακες της και αποτέλεσμα αυτού είναι να μην υπάρχει υλικό σε εξωτερικά αρχεία. Αυτό συμβαίνει γιατί οι σύγχρονες 8Δ δίνουν την δυνατότητα αποθήκευσης μεγάλου όγκου δεδομένων χωρίς να επηρεαστεί η ταχύτητα απόκρισης τους. Στα πλαίσια της διπλωματικής έχει υλοποιηθεί διαχειριστική εφαρμογή, μέσω της οποίας ο διαχειριστής του συστήματος μπορεί να αποθηκεύσει τα αρχεία κειμένου στη βάση και να προχωρήσει στην λεκτική ανάλυση των κειμένων, την ανεύρεση δηλαδή των δομικών τους μονάδων-προτάσεων. Επιπλέον, μπορεί μέσω της εφαρμογής εξαγωγής λέξεων κλειδιών να παράγει για κάθε κείμενο τις λέξεις κλειδιά ώστε να τις εμφανίσει αργότερα στη διαδικτυακή εφαρμογή σαν επιπρόσθετη πληροφορία. Ακόμα έχουν υλοποιηθεί οι απαραίτητες ιστοσελίδες που αποτελούν τη διεπαφή χρήστη, για την αναζήτηση όρων στο σώμα κειμένων και την άντληση του υλικού ανάλογα με τις ανάγκες του. Όσον αφορά στην αναζήτηση το σύστημα επιτρέπει στον χρήστη απλές αναζητήσεις όπως το να αναζητήσει από μια έως τρεις λέξεις με τους τελεστές ΟΚ (διάζευξη) ή ΑΝD (σύζευξη) ανάμεσα τους αλλά και σύνθετες αναζητήσεις όπου ο χρήστης μπορεί να επιλέξει τη μέγιστη απόσταση μέσα σε κάθε πρόταση κειμένου μεταξύ των λέξεων που αναζητά. Το σύστημα εκτελεί το εκάστοτε ερώτημα κάθε φορά και επιστρέφει τα αποτελέσματα, επιστρέφει δηλαδή προτάσεις από τα κείμενα στις οποίες εμπεριέχονται οι λέξεις αναζήτησης και ικανοποιούνται τα κριτήρια αναζήτησης που έχουν τεθεί. Τέλος, ο χρήστης μπορεί ακόμα να δει επιπλέον πληροφορίες σχετικές με το κείμενο από το οποίο προήλθε ο όρος ή οι όροι που αναζήτησε όπως τον συγγραφέα, τον εκδότη, τις λέξεις κλειδιά, το μέσο δημοσίευσης, την ημερομηνία έκδοσης κ.α.
author2 Χριστοδουλάκης, Δημήτριος
author_facet Χριστοδουλάκης, Δημήτριος
Ντεϊμεντέ, Σοφία
format Thesis
author Ντεϊμεντέ, Σοφία
author_sort Ντεϊμεντέ, Σοφία
title Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
title_short Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
title_full Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
title_fullStr Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
title_full_unstemmed Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i
title_sort υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση oracle 9i
publishDate 2007
url http://nemertes.lis.upatras.gr/jspui/handle/10889/544
work_keys_str_mv AT nteïmentesophia ylopoiēsēdomēsapothēkeusēssōmatōnseschesiakēbasēoracle9i
_version_ 1771297226358784000
spelling nemertes-10889-5442022-09-05T13:56:13Z Υλοποίηση δομής αποθήκευσης σωμάτων σε σχεσιακή βάση Oracle 9i Ντεϊμεντέ, Σοφία Χριστοδουλάκης, Δημήτριος Χριστοδουλάκης, Δημήτριος Λυκοθανάσης, Αθανάσιος Μπούρας, Χρήστος Deimede, Sofia 005.756 Ως σώμα κειμένου (corpus) μπορούμε να ορίσουμε ένα δομημένο σύνολο οπό κείμενα. Το σώμα κειμένων μπορεί να περιλαμβάνει αντιπροσωπευτικά κείμενα μιας γλώσσας ή ορισμένου υποσυνόλου της. Μπορεί ακόμα να περιλαμβάνει κείμενα από μια γλώσσα (μονόγλωσσα) ή από περισσότερες γλώσσες (πολύγλωσσα). Τα σώματα κειμένων μπορούν να διακριθούν ως προς το περιεχόμενο τους σε ειδικευμένα και γενικά. Διαφόρων τύπων διάλεκτοι όπως γεωγραφικές ή κοινωνικές καθώς και ιδιωματισμοί δεν θα πρέπει να συμπεριλαμβάνονται σε αυτά γιατί αποκλίνουν από τη γενική χρήση της γλώσσας. Η χρήση των σωμάτων κειμένων γίνεται σε διάφορους τομείς της Γλωσσολογίας όπως η Βασική έρευνα, η Λεξικογραφία, η Επεξεργασία της φυσικής γλώσσας, η επεξεργασία φωνής και προφορικού λόγου και σκοπός της είναι να προσφέρει στον ερευνητή ή στον οποιοδήποτε ενδιαφερόμενο την πληροφορία που χρειάζεται για τη γλωσσολογική του έρευνα. Εκτός από θεωρητική έρευνα όμως τα σώματα κειμένων μπορούν να αποτελέσουν τη βάση για τη δημιουργία λεξικών και για την υλοποίηση τυπικών γραμματικών. Στη σημερινή εποχή που αποτελεί γενική διαπίστωση ότι η τεχνολογία δίνει τεράστιες δυνατότητες όσον αφορά την αποθήκευση μεγάλου όγκου πληροφορίας και την γρήγορη ανάκτηση δεδομένων, καθώς και η εκθετική αύξηση της χρήσης του Διαδικτύου, έχουν κάνει δυνατή τη δημιουργία ηλεκτρονικών σωμάτων κειμένων που εκμεταλλεύονται τις προαναφερθείσες δυνατότητες, Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η υλοποίηση μιας δομής αποθήκευσης σωμάτων κειμένων στην σχεσιακή βάση δεδομένων Oracle 9i, χρησιμοποιώντας την τεχνολογία Oracle Text. Η τεχνολογία αυτή προσφέρει δυνατότητα αναζήτησης σε όλους τους τύπους δεδομένων, υψηλή απόδοση, γρήγορες ταχύτητες και ανώτερη ποιότητα αναζήτησης και συνδυάζεται με όλες τις δυνατότητες και τα πλεονεκτήματα που μας παρέχει η βάση δεδομένων Oracle 9ί. Το παρόν σώμα κειμένων βασίζεται στο αντίστοιχο ευρωπαϊκό σώμα κειμένων με την ονομασία Tractor Corpus (TELRI Research Archive of Computational Tools and Resource) το οποίο καλύπτει την πλειοψηφία των ευρωπαϊκών γλωσσών, ανάμεσα σ' αυτές και την ελληνική και έχει εμπλουτιστεί και με σύγχρονα κείμενα, τα οποία έχουν προέλθει από ποικίλες πηγές (βιβλία, εφημερίδες, περιοδικά, διαδίκτυο κα) και καλύπτουν αρκετά θέματα της τρέχουσας ειδησεογραφία και όχι μόνο. Η σχεσιακή βάση δεδομένων περιέχει όλο τα κείμενα τα οποία είναι αποθηκευμένα στους πίνακες της και αποτέλεσμα αυτού είναι να μην υπάρχει υλικό σε εξωτερικά αρχεία. Αυτό συμβαίνει γιατί οι σύγχρονες 8Δ δίνουν την δυνατότητα αποθήκευσης μεγάλου όγκου δεδομένων χωρίς να επηρεαστεί η ταχύτητα απόκρισης τους. Στα πλαίσια της διπλωματικής έχει υλοποιηθεί διαχειριστική εφαρμογή, μέσω της οποίας ο διαχειριστής του συστήματος μπορεί να αποθηκεύσει τα αρχεία κειμένου στη βάση και να προχωρήσει στην λεκτική ανάλυση των κειμένων, την ανεύρεση δηλαδή των δομικών τους μονάδων-προτάσεων. Επιπλέον, μπορεί μέσω της εφαρμογής εξαγωγής λέξεων κλειδιών να παράγει για κάθε κείμενο τις λέξεις κλειδιά ώστε να τις εμφανίσει αργότερα στη διαδικτυακή εφαρμογή σαν επιπρόσθετη πληροφορία. Ακόμα έχουν υλοποιηθεί οι απαραίτητες ιστοσελίδες που αποτελούν τη διεπαφή χρήστη, για την αναζήτηση όρων στο σώμα κειμένων και την άντληση του υλικού ανάλογα με τις ανάγκες του. Όσον αφορά στην αναζήτηση το σύστημα επιτρέπει στον χρήστη απλές αναζητήσεις όπως το να αναζητήσει από μια έως τρεις λέξεις με τους τελεστές ΟΚ (διάζευξη) ή ΑΝD (σύζευξη) ανάμεσα τους αλλά και σύνθετες αναζητήσεις όπου ο χρήστης μπορεί να επιλέξει τη μέγιστη απόσταση μέσα σε κάθε πρόταση κειμένου μεταξύ των λέξεων που αναζητά. Το σύστημα εκτελεί το εκάστοτε ερώτημα κάθε φορά και επιστρέφει τα αποτελέσματα, επιστρέφει δηλαδή προτάσεις από τα κείμενα στις οποίες εμπεριέχονται οι λέξεις αναζήτησης και ικανοποιούνται τα κριτήρια αναζήτησης που έχουν τεθεί. Τέλος, ο χρήστης μπορεί ακόμα να δει επιπλέον πληροφορίες σχετικές με το κείμενο από το οποίο προήλθε ο όρος ή οι όροι που αναζήτησε όπως τον συγγραφέα, τον εκδότη, τις λέξεις κλειδιά, το μέσο δημοσίευσης, την ημερομηνία έκδοσης κ.α. - 2007-10-09T08:03:20Z 2007-10-09T08:03:20Z 2006-09 2007-10-09T08:03:20Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/544 gr Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. application/pdf