Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό

Η παρούσα διδακτορική διατριβή αποτελεί μια διεπιστημονική προσπάθεια συγκερασμού των πεδίων της Κοινωνιογλωσσολογίας και της Επιστήμης των Υπολογιστών (και πιο συγκεριμένα της Εξόρυξης και Επεξεργασίας Κειμένου). Ο σκοπός αυτής της έρευνας ήταν η ανάδειξη των κοινωνιογλωσσικών δεικτών που σχετίζοντ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σιμάκη, Βασιλική
Άλλοι συγγραφείς: Μεγαλοοικονόμου, Βασίλειος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9422
id nemertes-10889-9422
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Υπολογιστική γλωσσολογία
Εξόρυξη κειμένου
Κοινωνιογλωσσολογία
Αυτόματη επεξεργασία κειμένου
Computational linguistics
Text mining
Sociolinguistics
Text processing
006.35
spellingShingle Υπολογιστική γλωσσολογία
Εξόρυξη κειμένου
Κοινωνιογλωσσολογία
Αυτόματη επεξεργασία κειμένου
Computational linguistics
Text mining
Sociolinguistics
Text processing
006.35
Σιμάκη, Βασιλική
Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
description Η παρούσα διδακτορική διατριβή αποτελεί μια διεπιστημονική προσπάθεια συγκερασμού των πεδίων της Κοινωνιογλωσσολογίας και της Επιστήμης των Υπολογιστών (και πιο συγκεριμένα της Εξόρυξης και Επεξεργασίας Κειμένου). Ο σκοπός αυτής της έρευνας ήταν η ανάδειξη των κοινωνιογλωσσικών δεικτών που σχετίζονται με το φύλο και την ηλικία του συγγραφέα σε ένα σώμα αγγλικών κειμένων από μέσα κοινωνικής δικτύωσης, η αναζήτηση αυτών των δεικτών με αυτόματο τρόπο, η επιβεβαίωση ή μη της ύπαρξής τους στο κείμενο και ο βαθμός πληροφοριακότητας και διαφοροποίησης που προσφέρει το κάθε χαρακτηριστικό ως προς την κοινωνιογλωσσική μεταβλητή η οποία εξετάζεται σε κάθε περίπτωση. Ένας δεύτερος στόχος αυτής της έρευνας ήταν η ανάδειξη νέας κοινωνιογλωσσικής γνώσης που προκύπτει από χαρακτηριστικά που προέκυψαν από αυτόματες τεχνικές επεξεργασίας κειμένου, και αφορούν κυρίως στατιστικά γλωσσικά χαρακτηριστικά. Αυτά τα στοιχεία εξετάστηκαν, και νέοι κοινωνιογλωσσικοί δείκτες ανιχνεύτηκαν πέραν των όσων δεικτών έχει συνοψίσει η βιβλιογραφική επισκόπηση των θεωρητικών κι εμπειρικών μελετών. Τέλος, η παρούσα έρευνα υλοποιήθηκε σε δεδομένα από ένα σχετικά πρόσφατο κειμενικό είδος: κείμενα που αντλήθηκαν από τα μέσα κοινωνικής δικτύωσης του Παγκόσμιου Ιστού (social media text). Αυτή είναι μια παράμετρος που θα εξετάστηκε παράλληλα με την κοινωνιογλωσσική μελέτη, καθώς αυτό το κειμενικό είδος επιτρέπει να εμφανίζονται κοινωνιογλωσσικά χαρακτηριστικά που προδίδουν το φύλο και την ηλικία του συγγραφέα φέροντας έντονα στοιχεία προφορικότητας. Η έρευνα αυτή αποτέλεσε μια πρωτότυπη προσπάθεια, καθώς ο συνδυασμός των δύο διαφορετικών επιστημών κατ'αυτόν τον τρόπο και σε αυτή την έκταση δεν έχει ακολουθηθεί στο παρελθόν. Η ύπαρξη ενός πεδίου “υπολογιστικής κοινωνιογλωσσολογίας” και η συστηματική ενασχόληση με αυτό είναι κάτι το καινοτόμο, που ξεφεύγει από τις υπάρχουσες θεωρητικές, ποσοτικές και υπολογιστικές προσεγγίσεις, οδηγώντας σε νέα αποτελέσματα, νέα συμπερασματα και νέα πληροφορία.
author2 Μεγαλοοικονόμου, Βασίλειος
author_facet Μεγαλοοικονόμου, Βασίλειος
Σιμάκη, Βασιλική
format Thesis
author Σιμάκη, Βασιλική
author_sort Σιμάκη, Βασιλική
title Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
title_short Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
title_full Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
title_fullStr Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
title_full_unstemmed Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό
title_sort κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον παγκόσμιο ιστό
publishDate 2016
url http://hdl.handle.net/10889/9422
work_keys_str_mv AT simakēbasilikē koinōnioglōssikēmeletēdedomenōnkeimenouapotonpankosmioisto
AT simakēbasilikē sociolinguisticresearchonwebtextualdata
_version_ 1771297288868593664
spelling nemertes-10889-94222022-09-05T20:33:45Z Κοινωνιογλωσσική μελέτη δεδομένων κειμένου από τον Παγκόσμιο Ιστό Sociolinguistic research on web textual data Σιμάκη, Βασιλική Μεγαλοοικονόμου, Βασίλειος Μεγαλοοικονόμου, Βασίλειος Γαλλόπουλος, Ευστράτιος Κονδύλη, Μαριάννα Φακωτάκης, Νικόλαος Παυλίδης, Γεώργιος Παπαζαχαρίου, Δημήτριος Σγάρμπας, Κυριάκος Simaki, Vasiliki Υπολογιστική γλωσσολογία Εξόρυξη κειμένου Κοινωνιογλωσσολογία Αυτόματη επεξεργασία κειμένου Computational linguistics Text mining Sociolinguistics Text processing 006.35 Η παρούσα διδακτορική διατριβή αποτελεί μια διεπιστημονική προσπάθεια συγκερασμού των πεδίων της Κοινωνιογλωσσολογίας και της Επιστήμης των Υπολογιστών (και πιο συγκεριμένα της Εξόρυξης και Επεξεργασίας Κειμένου). Ο σκοπός αυτής της έρευνας ήταν η ανάδειξη των κοινωνιογλωσσικών δεικτών που σχετίζονται με το φύλο και την ηλικία του συγγραφέα σε ένα σώμα αγγλικών κειμένων από μέσα κοινωνικής δικτύωσης, η αναζήτηση αυτών των δεικτών με αυτόματο τρόπο, η επιβεβαίωση ή μη της ύπαρξής τους στο κείμενο και ο βαθμός πληροφοριακότητας και διαφοροποίησης που προσφέρει το κάθε χαρακτηριστικό ως προς την κοινωνιογλωσσική μεταβλητή η οποία εξετάζεται σε κάθε περίπτωση. Ένας δεύτερος στόχος αυτής της έρευνας ήταν η ανάδειξη νέας κοινωνιογλωσσικής γνώσης που προκύπτει από χαρακτηριστικά που προέκυψαν από αυτόματες τεχνικές επεξεργασίας κειμένου, και αφορούν κυρίως στατιστικά γλωσσικά χαρακτηριστικά. Αυτά τα στοιχεία εξετάστηκαν, και νέοι κοινωνιογλωσσικοί δείκτες ανιχνεύτηκαν πέραν των όσων δεικτών έχει συνοψίσει η βιβλιογραφική επισκόπηση των θεωρητικών κι εμπειρικών μελετών. Τέλος, η παρούσα έρευνα υλοποιήθηκε σε δεδομένα από ένα σχετικά πρόσφατο κειμενικό είδος: κείμενα που αντλήθηκαν από τα μέσα κοινωνικής δικτύωσης του Παγκόσμιου Ιστού (social media text). Αυτή είναι μια παράμετρος που θα εξετάστηκε παράλληλα με την κοινωνιογλωσσική μελέτη, καθώς αυτό το κειμενικό είδος επιτρέπει να εμφανίζονται κοινωνιογλωσσικά χαρακτηριστικά που προδίδουν το φύλο και την ηλικία του συγγραφέα φέροντας έντονα στοιχεία προφορικότητας. Η έρευνα αυτή αποτέλεσε μια πρωτότυπη προσπάθεια, καθώς ο συνδυασμός των δύο διαφορετικών επιστημών κατ'αυτόν τον τρόπο και σε αυτή την έκταση δεν έχει ακολουθηθεί στο παρελθόν. Η ύπαρξη ενός πεδίου “υπολογιστικής κοινωνιογλωσσολογίας” και η συστηματική ενασχόληση με αυτό είναι κάτι το καινοτόμο, που ξεφεύγει από τις υπάρχουσες θεωρητικές, ποσοτικές και υπολογιστικές προσεγγίσεις, οδηγώντας σε νέα αποτελέσματα, νέα συμπερασματα και νέα πληροφορία. The present doctoral dissertation was an interdisciplinary effort combining Sociolinguistic and Computer Science (and more specifically Text Mining and Processing). The goal of this research is the detection of sociolinguistic markers related to gender and age of social media users, after their online text (english), their automated calculation, the confirmation of not of their existence in a social media corpus, and the grade of informativivity and differentiation of every feature to the sociolinguistic variable examined in any case. A second goal of the current work was the discovery of new sociolinguistic knowledge after the text processing features, which are mostly statistical linguistic characteristics. These features are examined and it is investigated if they have identified new sociolinguistic indices apart the markers that standard theories highlight. Finally, the present research implemented data from a recent text type: texts derived from web social media (social media text). This parameter has been examined alongside the sociolinguistic study, because the selected text type allows the presence of the sociolinguistic features that underly the author’s gender and age, due to its strong orality elements. The present research has been an original effort, given that the fusion of such different sciences in that depth has not been realized in past. The existence of a “computational sociolinguistics” field and the systematic study with it, is something novel, out of the existing theoretical, quantitative, computational approaches, and leads to the discovery of new findings, new conclusions, and new knowledge. 2016-06-21T13:47:04Z 2016-06-21T13:47:04Z 2015-12-11 Thesis http://hdl.handle.net/10889/9422 gr Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. 0 application/pdf