Σώματα κειμένων και εφαρμογές

Τα Σώματα Κειμένων (ΣΚ) αποτελούν έναν από τους κυριότερους γλωσσικούς πόρους για την αυτοματοποιημένη επεξεργασία φυσικού λόγου. Το παρόν κεφάλαιο θα περιέχει βασικές έννοιες για α) την κατάρτιση και β) την αξιοποίηση των ΣΚ. Αρχικά, αφού αναδειχθεί η ποιοτική διαφορά ανάμεσα σε επισημειωμένα και μ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριοι συγγραφείς: Tantos, Alexandros, Τάντος, Αλέξανδρος
Μορφή: 7
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://localhost:8080/jspui/handle/11419/2210
Περιγραφή
Περίληψη:Τα Σώματα Κειμένων (ΣΚ) αποτελούν έναν από τους κυριότερους γλωσσικούς πόρους για την αυτοματοποιημένη επεξεργασία φυσικού λόγου. Το παρόν κεφάλαιο θα περιέχει βασικές έννοιες για α) την κατάρτιση και β) την αξιοποίηση των ΣΚ. Αρχικά, αφού αναδειχθεί η ποιοτική διαφορά ανάμεσα σε επισημειωμένα και μη επισημειωμένα ΣΚ, θα αναλυθούν τα βασικά κριτήρια επιλογής και ταξινόμησης των ΣΚ για στοχευμένη και πιο αποτελεσματική γλωσσολογική ή μη επεξεργασία των κειμενικών δεδομένων. Η κατάρτιση ενός ΣΚ αποτελεί μια δύσκολη υπόθεση και προϋποθέτει την τήρηση διαφόρων βασικών κριτηρίων επιλογής των κειμένων, προκειμένου το γλωσσικό δείγμα που θα συλλεχθεί να είναι αντιπροσωπευτικό της γλωσσικής ποικιλίας που φιλοδοξεί να εκπροσωπεί. Θα παρουσιαστούν τα είδη ΣΚ και οι πρακτικές αξιοποίησής τους μέσα από τη χρήση παραδειγμάτων. Επιπλέον, ο αναγνώστης θα εξοικειωθεί με τη γλώσσα σήμανσης XML που αποτελεί την κυρίαρχη γλώσσα σήμανση για την πλειονότητα των επισημειωμένων ΣΚ σημέρα. Στο τελευταίο μέρος του κεφαλαίου, θα παρουσιαστούν οι βασικές αρχές της θεωρίας πιθανοτήτων που είναι απαραίτητες για μια σειρά εφαρμογών στην υπολογιστική γλωσσολογία. Σε αυτή την κατεύθυνση και ως παράδειγμα για την ανάλυση κατηγορικών μεταβλητών που αφορούν τα γλωσσικά δεδομένα, θα λειτουργήσουν η διατύπωση και ο έλεγχος υποθέσεων. Εκεί, περιγράφεται βήμα προς βήμα η διαδικασία ελέγχου υποθέσεων πάνω σε ΣΚ στη βάση ενός απτού παραδείγματος. Ο ελέγχος υποθέσεων αποτελεί ένα απαραίτητο καθημερινό εργαλείο για την επεξεργασία γλωσσικών δεδομένων για τον υπολογιστικό γλωσσολόγο και όχι μόνο.