Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας

Η παρούσα διατριβή έχει ως σκοπό της, πρώτον, την ανάκτηση συντακτικής πληροφορίας (αναγνώριση συμπληρωμάτων ρημάτων, ανάκτηση πλαισίων υποκατηγοριοποίησης (ΠΥ) ρημάτων, αναγνώριση των ορίων και του είδους των προτάσεων) αυτόματα μέσα από ελληνικά και αγγλικά σώματα κειμένων με την χρήση ποικίλων κα...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κερμανίδου, Κάτια Λήδα
Άλλοι συγγραφείς: Νικόλαος Φακωτάκης
Γλώσσα:Greek
Έκδοση: 2007
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/311
id nemertes-10889-311
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία φυσικής γλώσσας
Συμπληρώματα ρημάτων
Πλαίσια υποκατηγοριοποίησης ρημάτων
Μηχανική μάθηση
Συντακτική ανάλυση
Μονόπλευρη δειγματοληψία
Ανάπτυξη ελληνικής γραμματικής
Natural language processing
Verb complements
Verb subcategorization frames
Machine learning
Syntactic processing
One-sided sampling
Modern Greek grammar development
410.285
spellingShingle Επεξεργασία φυσικής γλώσσας
Συμπληρώματα ρημάτων
Πλαίσια υποκατηγοριοποίησης ρημάτων
Μηχανική μάθηση
Συντακτική ανάλυση
Μονόπλευρη δειγματοληψία
Ανάπτυξη ελληνικής γραμματικής
Natural language processing
Verb complements
Verb subcategorization frames
Machine learning
Syntactic processing
One-sided sampling
Modern Greek grammar development
410.285
Κερμανίδου, Κάτια Λήδα
Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
description Η παρούσα διατριβή έχει ως σκοπό της, πρώτον, την ανάκτηση συντακτικής πληροφορίας (αναγνώριση συμπληρωμάτων ρημάτων, ανάκτηση πλαισίων υποκατηγοριοποίησης (ΠΥ) ρημάτων, αναγνώριση των ορίων και του είδους των προτάσεων) αυτόματα μέσα από ελληνικά και αγγλικά σώματα κειμένων με την χρήση ποικίλων και καινοτόμων τεχνικών μηχανικής μάθησης και, δεύτερον, την θεωρητική περιγραφή της ελληνικής σύνταξης μέσω τυπικών γλωσσολογικών φορμαλισμών, όπως η γραμματική Ενοποίησης και η γραμματική Φραστικής Δομής Οδηγούμενη από τον Κύριο Όρο. Η διατριβή κινήθηκε πάνω στους εξής καινοτόμους άξονες: 1. Η προεπεξεργασία των σωμάτων κειμένων βασίστηκε σε ελάχιστους γλωσσολογικούς πόρους για να είναι δυνατή η μεταφορά των μεθόδων σε γλώσσες φτωχές σε υποδομή. 2. Η αντιμετώπιση του θορύβου που υπεισέρχεται στα δεδομένα εξ αιτίας της χρήσης ελάχιστων πόρων πραγματοποιείται με Μονόπλευρη Δειγματοληψία. Εντοπίζονται αυτόματα παραδείγματα δεδομένων που δεν προσφέρουν στην μάθηση και αφαιρούνται. Τα τελικά δεδομένα είναι πιο καθαρά και η απόδοση της μάθησης βελτιώνεται πολύ. 3. Αποδεικνύεται η χρησιμότητα της εξαχθείσας πληροφορίας. Η χρησιμότητα των συμπληρωμάτων φαίνεται από την αύξηση της απόδοσης της διαδικασίας ανάκτησης ΠΥ με την χρήση τους. Η χρησιμότητα των εξαγόμενων ΠΥ φαίνεται από την αύξηση της απόδοσης ενός ρηχού συντακτικού αναλυτή με την χρήση τους. 4. Οι μέθοδοι εφαρμόζονται και στα Αγγλικά και στα Ελληνικά για να φανεί η μεταφερσιμότητά τους σε διαφορετικές γλώσσες και για να πραγματοποιηθεί μια ενδιαφέρουσα σχετική σύγκριση ανάμεσα στις δύο γλώσσες. Τα αποτελέσματα είναι πολύ ενθαρρυντικά, συγκρίσιμα με, και σε πολλές περιπτώσεις καλύτερα από, προσεγγίσεις που χρησιμοποιούν εξελιγμένα εργαλεία προεπεξεργασίας.
author2 Νικόλαος Φακωτάκης
author_facet Νικόλαος Φακωτάκης
Κερμανίδου, Κάτια Λήδα
author Κερμανίδου, Κάτια Λήδα
author_sort Κερμανίδου, Κάτια Λήδα
title Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
title_short Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
title_full Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
title_fullStr Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
title_full_unstemmed Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
title_sort αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας
publishDate 2007
url http://nemertes.lis.upatras.gr/jspui/handle/10889/311
work_keys_str_mv AT kermanidoukatialēda automatēmathēsēsyntaktikōnexartēseōnkaianaptyxēgrammatikōntēsellēnikēsglōssas
AT kermanidoukatialēda learningofsyntacticdependenciesanddevelopmentofmoderngreekgrammars
_version_ 1771297128449048576
spelling nemertes-10889-3112022-09-05T04:59:31Z Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας Learning of syntactic dependencies and development of modern Greek grammars Κερμανίδου, Κάτια Λήδα Νικόλαος Φακωτάκης Μακιός, Βασίλειος Κοκκινάκης, Γεώργιος Σγάρμπας, Κυριάκος Αβούρης, Νικόλαος Χριστοδουλάκης, Δημήτρης Καλαμπούκης, Θεόδωρος Δερματάς, Ευάγγελος Kermanidis, Katia Lida Επεξεργασία φυσικής γλώσσας Συμπληρώματα ρημάτων Πλαίσια υποκατηγοριοποίησης ρημάτων Μηχανική μάθηση Συντακτική ανάλυση Μονόπλευρη δειγματοληψία Ανάπτυξη ελληνικής γραμματικής Natural language processing Verb complements Verb subcategorization frames Machine learning Syntactic processing One-sided sampling Modern Greek grammar development 410.285 Η παρούσα διατριβή έχει ως σκοπό της, πρώτον, την ανάκτηση συντακτικής πληροφορίας (αναγνώριση συμπληρωμάτων ρημάτων, ανάκτηση πλαισίων υποκατηγοριοποίησης (ΠΥ) ρημάτων, αναγνώριση των ορίων και του είδους των προτάσεων) αυτόματα μέσα από ελληνικά και αγγλικά σώματα κειμένων με την χρήση ποικίλων και καινοτόμων τεχνικών μηχανικής μάθησης και, δεύτερον, την θεωρητική περιγραφή της ελληνικής σύνταξης μέσω τυπικών γλωσσολογικών φορμαλισμών, όπως η γραμματική Ενοποίησης και η γραμματική Φραστικής Δομής Οδηγούμενη από τον Κύριο Όρο. Η διατριβή κινήθηκε πάνω στους εξής καινοτόμους άξονες: 1. Η προεπεξεργασία των σωμάτων κειμένων βασίστηκε σε ελάχιστους γλωσσολογικούς πόρους για να είναι δυνατή η μεταφορά των μεθόδων σε γλώσσες φτωχές σε υποδομή. 2. Η αντιμετώπιση του θορύβου που υπεισέρχεται στα δεδομένα εξ αιτίας της χρήσης ελάχιστων πόρων πραγματοποιείται με Μονόπλευρη Δειγματοληψία. Εντοπίζονται αυτόματα παραδείγματα δεδομένων που δεν προσφέρουν στην μάθηση και αφαιρούνται. Τα τελικά δεδομένα είναι πιο καθαρά και η απόδοση της μάθησης βελτιώνεται πολύ. 3. Αποδεικνύεται η χρησιμότητα της εξαχθείσας πληροφορίας. Η χρησιμότητα των συμπληρωμάτων φαίνεται από την αύξηση της απόδοσης της διαδικασίας ανάκτησης ΠΥ με την χρήση τους. Η χρησιμότητα των εξαγόμενων ΠΥ φαίνεται από την αύξηση της απόδοσης ενός ρηχού συντακτικού αναλυτή με την χρήση τους. 4. Οι μέθοδοι εφαρμόζονται και στα Αγγλικά και στα Ελληνικά για να φανεί η μεταφερσιμότητά τους σε διαφορετικές γλώσσες και για να πραγματοποιηθεί μια ενδιαφέρουσα σχετική σύγκριση ανάμεσα στις δύο γλώσσες. Τα αποτελέσματα είναι πολύ ενθαρρυντικά, συγκρίσιμα με, και σε πολλές περιπτώσεις καλύτερα από, προσεγγίσεις που χρησιμοποιούν εξελιγμένα εργαλεία προεπεξεργασίας. The thesis aims firstly at the acquisition of syntactic information (detection of verb complements, acquisition of verb subcategorization frames (SF), detection of the boundaries and the semantic type of clauses) automatically from Modern Greek and English text corpora with the use of various state-of-the-art and novel machine learning techniques, and, secondly, at the theoretical description of the Greek syntax through formal grammatical theories like Unification Grammar and Head-driven Phrase Structure Grammar. The thesis has been based on the following novel axes: 1. Corpus pre-processing has been limited to the use of minimum linguistic resources to ensure the portability of the presented methodologies to languages that are poorly equipped with resources. 2. Due to the low pre-processing level, a significant amount of noise appears in the data, which is dealt with One-sided Sampling. Examples that do not contribute to the learning process are detected and removed. The final data set is clean and learning performance improves significantly. 3. The importance of the acquired information is proven. The importance of complements is shown by the improvement in the performance of the SF acquisition process after the incorporation of complement information. The importance of the acquired SF lexicon is shown by its incorporation in a shallow syntactic parser and the increase of the performance of the latter. 4. The methods are applied on Modern Greek and on English to show their portability across different languages and to allow for an interesting rough comparison between the two languages. The results are very satisfactory, comparable to, and in some cases better than, approaches utilizing sophisticated resources for pre-processing. 2007-06-25T07:14:40Z 2007-06-25T07:14:40Z 2005-03-22 2007-06-25T07:14:40Z http://nemertes.lis.upatras.gr/jspui/handle/10889/311 gr Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. application/pdf