Ανάπτυξη μεθόδων αυτόματης αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκοσμίου ιστού

Είναι γεγονός ότι ολοένα και περισσότεροι άνθρωποι επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό προκειμένου να εκτελέσουν ένα ευρύ φάσμα δραστηριοτήτων το οποίο προσφέρεται μέσα από αυτόν. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, καθώς επίσης και το σύνολο των ποικίλων δ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαλαγκονιάρη, Διονυσία
Άλλοι συγγραφείς: Παυλίδης, Γεώργιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2014
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/8157
Περιγραφή
Περίληψη:Είναι γεγονός ότι ολοένα και περισσότεροι άνθρωποι επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό προκειμένου να εκτελέσουν ένα ευρύ φάσμα δραστηριοτήτων το οποίο προσφέρεται μέσα από αυτόν. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, καθώς επίσης και το σύνολο των ποικίλων δραστηριοτήτων που μπορούν να εκτελεστούν μέσω των ιστοσελίδων. Όμως, έχει παρατηρηθεί ότι τα τελευταία χρόνια πέρα από πηγή πληροφόρησης, ο Παγκόσμιος Ιστός αποτελεί και ένα σημαντικότατο μέσο έκφρασης για τους ανθρώπους αλλά και επικοινωνίας μεταξύ τους. Εκατομμύρια χρηστών του Παγκόσμιου Ιστού χρησιμοποιούν καθημερινά εφαρμογές του διαδικτύου μέσω των οποίων αλληλεπιδρούν. Κάθε ένας λοιπόν από αυτούς τους χρήστες μπορεί ελεύθερα να εκφράσει την άποψή του πάνω σε διάφορα ζητήματα που τον απασχολούν, να σχολιάσει της απόψεις των άλλων χρηστών αλλά και να επικοινωνήσει με αυτούς. Σύμφωνα με τα παραπάνω λοιπόν, οι χρήστες του διαδικτύου μπορούν να επιλέξουν ανάμεσα σε πολλά μέσα που είναι διαθέσιμα όπως ιστολόγια, φόρουμ, ιστότοπους και μέσα κοινωνικής δικτύωσης προκειμένου να επικοινωνούν. Αρκετό ερευνητικό ενδιαφέρον παρουσιάζει η συλλογή, ανάλυση και αξιολόγηση δεδομένων από τον Παγκόσμιο Ιστό που έχουν παραχθεί από χρήστες. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει ο συσχετισμός του χρήστη με το κείμενο που έχει παράξει, και η αναγνώριση κάποιων κοινωνικών χαρακτηριστικών του, όπως για παράδειγμα, αν ο χρήστης του κειμένου χ είναι άνδρας ή γυναίκα. Μια τέτοια αναγνώριση είναι δυνατή με τον εντοπισμό αντιπροσωπευτικών γνωρισμάτων ανδρικής ή γυναικείας γραφής και λόγου σε κειμενικά δεδομένα χρηστών. Η μελέτη λοιπόν των χαρακτηριστικών του περιεχομένου το οποίο έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης πληροφορίας (text mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή για ένα προϊόν. Ως αποτέλεσμα λοιπόν, της συνεχώς αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου δεδομένων που έχουν παραχθεί από χρήστες (User Generated Content - UGC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Συγκεκριμένα, το πεδίο UGC ([1],[2]) ασχολείται με την αναγνώριση και εξόρυξη web περιεχομένου που έχει παραχθεί από τους χρήστες. Σε αυτό το σημείο είναι σημαντικό να αναφέρουμε ότι οι παραπάνω μελέτες που αναφέραμε είναι αρκετά χρήσιμες στην ανάπτυξη ερευνητικών αλλά και εμπορικών εφαρμογών. Στόχος της προτεινόμενης διπλωματικής εργασίας είναι η μελέτη δεδομένων κειμένου τα οποία θα αντλήσουμε από τον Παγκόσμιο Ιστό, εστιάζοντας στα διαφοροποιητικά χαρακτηριστικά που θα εντοπιστούν τα οποία στη συνέχεια θα βοηθήσουν στην υλοποίηση του συστήματος το οποίο θα μπορεί με όσο το δυνατόν μεγαλύτερο ποσοστό ακρίβειας να εντοπίζει το φύλο του χρήστη που έχει δημιουργήσει κείμενο στον Παγκόσμιο Ιστό. Μια τέτοια προσπάθεια είναι ιδιαίτερα ενδιαφέρουσα και σημαντική, καθώς καλείται να συμβάλλει στην ερευνητική δραστηριότητα σε αυτό το σχετικά νέο πεδίο ([3], [4]). Η αναγνώριση του φύλου ενός χρήστη, χωρίς σε καμία περίπτωση να θίγεται η ανωνυμία του και τα προσωπικά του δεδομένα, βασίζεται μόνο σε κειμενικά του δεδομένα μπορεί να αποτελέσει ένα ιδιαίτερο εργαλείο με πολλές εφαρμογές. Μια σημαντική εφαρμογή αυτού εργαλείου μπορεί να αποτελέσει και η στοχευμένη διαφήμιση. Στα πλαίσια της προτεινόμενης διπλωματικής θα ακολουθηθούν τα παρακάτω βήματα. Αρχικά θα μελετηθεί η απαραίτητη βιβλιογραφία, η οποία θα μας παρέχει την απαραίτητη θεωρητική γνώση των επιστημονικών πεδίων που αφορούν στην έρευνά μας, αλλά και τις υπάρχουσες μεθοδολογίες και τεχνικές. Στη συνέχεια θα προχωρήσουμε με τη συλλογή των δεδομένων που θα χρησιμοποιήσουμε κατά τη διάρκεια της εργασίας μας. Από τα κειμενικά δεδομένα που θα συλλέξουμε αλλά και τη βιβλιογραφική επισκόπηση θα προκύψει και η αναγνώριση και η εξαγωγή των χαρακτηριστικών που θα μας βοηθήσουν στην ανίχνευση του γυναικείου/ανδρικού λόγου σε ένα δοκιμαστικό σύνολο δεδομένων. Το επόμενο βήμα θα αποτελεί η ανάπτυξη μετρικών κατηγοριοποίησης κειμένων χρήστη ανάλογα με το φύλο του. Τελειώνοντας, θα αξιολογηθεί αυτή η προσπάθεια κατηγοριοποίησης, ώστε να υλοποιηθεί κατάλληλο σύστημα αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκόσμιου Ιστού.