Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο

Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων π...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αραβαντινού, Χριστίνα
Άλλοι συγγραφείς: Μεγαλοοικονόμου, Βασίλειος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2015
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/8745
id nemertes-10889-8745
record_format dspace
spelling nemertes-10889-87452022-09-05T20:13:30Z Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο Αραβαντινού, Χριστίνα Μεγαλοοικονόμου, Βασίλειος Μεγαλοοικονόμου, Βασίλειος Μακρής, Χρήστος Παυλίδης, Γεώργιος Aravantinou, Christina Εξόρυξη δεδομένων Κατηγοριοποίηση κειμένου Αναγνώριση φύλου Εξαγωγή χαρακτηριστικών Data mining Document classification Gender identification Feature extraction 005.74 Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων που πρέπει να αντιμετωπιστούν. Η συσσώρευση παρόμοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώμη του για διάφορα θέματα ή περιγράφει στιγμιότυπα από τη ζωή του δημιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα μέσω των tweets, των δημοσιευμάτων σε ιστολόγια (blogs) και των αναρτήσεων στο Facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς μπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί βάσει δημογραφικών χαρακτηριστικών, όπως το φύλο ή η ηλικία. Άμεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έμμεσες πληροφορίες που μπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειμένων του χρήστη, αποτελούν σημαντικά δεδομένα που μπορούν να χρησιμοποιηθούν για την ανίχνευση του φύλου του συγγραφέα. Πιο συγκεκριμένα, η αναγνώριση του φύλου ενός χρήστη από δεδομένα κειμένου, μπορεί να αναχθεί σε ένα πρόβλημα κατηγοριοποίησης κειμένου. Το κείμενο υφίσταται επεξεργασία και στη συνέχεια, με τη χρήση μηχανικής μάθησης, εντοπίζεται το φύλο. Ειδικότερα, μέσω στατιστικής και γλωσσολογικής ανάλυσης των κειμένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εμφάνισης λέξεων, μέρη του λόγου, μήκος λέξεων, χαρακτηριστικά που συνδέονται με το περιεχόμενο κ.τ.λ.), τα οποία στη συνέχεια χρησιμοποιούνται για να γίνει η αναγνώριση του φύλου. Στην παρούσα διπλωματική εργασία σκοπός είναι η μελέτη και η ανάπτυξη ενός συστήματος κατηγοριοποίησης κειμένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, βάσει του φύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασμών χαρακτηριστικών και κατηγοριοποιητών στoν εντοπισμό του φύλου. The rapid growth of social media in recent years creates important research tasks. The collection and management of the huge information available, based on topic, author, age or gender are some examples of the problems that need to be addressed. The gathering of such information from the digital traces of the users, when they express their opinions on different subjects or they describe moments of their lives, creates trends, which expand through tweets, blog posts and Facebook statuses. An interesting aspect is to classify all the available information, according to demographic characteristics, such as gender or age. The direct clues provided by the users about themselves, along with the indirect information that can come of the linguistic analysis of their texts, are useful elements that can be used for the identification of the authors’ gender. More specifically, the detection of the users’ gender from textual data can be faced as a document classification problem. The document is processed and then, machine learning techniques are applied, in order to detect the gender. The features used for the gender identification can be extracted from statistical and linguistic analysis of the document. In the present thesis, we aim to develop an automatic system for the classification of web blog and social media posts, according to their authors’ gender. We study the performance of different combinations of features and classifiers for the identification of the gender. 2015-08-24T08:29:07Z 2015-08-24T08:29:07Z 2015-05-15 Thesis http://hdl.handle.net/10889/8745 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Εξόρυξη δεδομένων
Κατηγοριοποίηση κειμένου
Αναγνώριση φύλου
Εξαγωγή χαρακτηριστικών
Data mining
Document classification
Gender identification
Feature extraction
005.74
spellingShingle Εξόρυξη δεδομένων
Κατηγοριοποίηση κειμένου
Αναγνώριση φύλου
Εξαγωγή χαρακτηριστικών
Data mining
Document classification
Gender identification
Feature extraction
005.74
Αραβαντινού, Χριστίνα
Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
description Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων που πρέπει να αντιμετωπιστούν. Η συσσώρευση παρόμοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώμη του για διάφορα θέματα ή περιγράφει στιγμιότυπα από τη ζωή του δημιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα μέσω των tweets, των δημοσιευμάτων σε ιστολόγια (blogs) και των αναρτήσεων στο Facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς μπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί βάσει δημογραφικών χαρακτηριστικών, όπως το φύλο ή η ηλικία. Άμεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έμμεσες πληροφορίες που μπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειμένων του χρήστη, αποτελούν σημαντικά δεδομένα που μπορούν να χρησιμοποιηθούν για την ανίχνευση του φύλου του συγγραφέα. Πιο συγκεκριμένα, η αναγνώριση του φύλου ενός χρήστη από δεδομένα κειμένου, μπορεί να αναχθεί σε ένα πρόβλημα κατηγοριοποίησης κειμένου. Το κείμενο υφίσταται επεξεργασία και στη συνέχεια, με τη χρήση μηχανικής μάθησης, εντοπίζεται το φύλο. Ειδικότερα, μέσω στατιστικής και γλωσσολογικής ανάλυσης των κειμένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εμφάνισης λέξεων, μέρη του λόγου, μήκος λέξεων, χαρακτηριστικά που συνδέονται με το περιεχόμενο κ.τ.λ.), τα οποία στη συνέχεια χρησιμοποιούνται για να γίνει η αναγνώριση του φύλου. Στην παρούσα διπλωματική εργασία σκοπός είναι η μελέτη και η ανάπτυξη ενός συστήματος κατηγοριοποίησης κειμένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, βάσει του φύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασμών χαρακτηριστικών και κατηγοριοποιητών στoν εντοπισμό του φύλου.
author2 Μεγαλοοικονόμου, Βασίλειος
author_facet Μεγαλοοικονόμου, Βασίλειος
Αραβαντινού, Χριστίνα
format Thesis
author Αραβαντινού, Χριστίνα
author_sort Αραβαντινού, Χριστίνα
title Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
title_short Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
title_full Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
title_fullStr Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
title_full_unstemmed Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
title_sort ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο
publishDate 2015
url http://hdl.handle.net/10889/8745
work_keys_str_mv AT arabantinouchristina anaptyxēmethodōnautomatēskatēgoriopoiēsēskeimenōnprosanatolismenōnstophylo
_version_ 1771297340379889664