Μέθοδοι αυτόματης αναγνώρισης περιεχομένου που παράγεται από χρήστες (User Generated Content) στον Παγκόσμιο ιστό

Εκατομμύρια ανθρώπων επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό για ένα ευρύ σύνολο δραστηριοτήτων. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, όπως επίσης και το σύνολο των διαφορετικών δραστηριοτήτων που μπορούν να εκτελεστούν μέσω ιστοσελίδων και υπηρεσιών του διαδικτύ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λάμπος, Βασίλειος
Άλλοι συγγραφείς: Χριστοδουλάκης, Δημήτριος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2013
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/5974
Περιγραφή
Περίληψη:Εκατομμύρια ανθρώπων επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό για ένα ευρύ σύνολο δραστηριοτήτων. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, όπως επίσης και το σύνολο των διαφορετικών δραστηριοτήτων που μπορούν να εκτελεστούν μέσω ιστοσελίδων και υπηρεσιών του διαδικτύου. Οι χρήστες του Παγκόσμιου Ιστού καθημερινά συμμετέχουν σε διάφορες ψηφιακές δραστηριότητες, οριοθετώντας με αυτόν τον τρόπο τη ψηφιακή τους «ζωή». Κάθε χρήστης μπορεί να στείλει μήνυμα με το ηλεκτρονικό ταχυδρομείο, να επικοινωνήσει και να δημιουργήσει σχέσεις με άλλους χρήστες του Παγκόσμιου Ιστού, να επισκεφτεί ιστότοπους για να ικανοποιήσει τις ενημερωτικές του ανάγκες ή να διατηρεί ένα προσωπικό προφίλ σε έναν ή περισσότερους ιστότοπους κοινωνικής δικτύωσης. Παράλληλα, όλο και περισσότεροι χρήστες του Παγκόσμιου Ιστού χρησιμοποιούν τα ηλεκτρονικά καταστήματα για τις αγορές τους, επιτυγχάνοντας την απευθείας σύνδεση της έρευνας αγοράς με την αγορά προϊόντων ή υπηρεσιών, ενώ ο σχολιασμός και οι απόψεις άλλων χρηστών για προϊόντα και υπηρεσίες αποτελεί άλλο ένα αναμφισβήτητο πλεονέκτημα των ηλεκτρονικών καταστημάτων. Αποτέλεσμα της αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου των κειμενικών δεδομένων που έχουν παραχθεί από χρήστες (user generated text content - UGTC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Οι δικτυακές κοινότητες αυξάνονται συνεχώς σε μέγεθος και αριθμό, ενώ ταυτόχρονα οι ιστότοποι και οι υπηρεσίες του Παγκόσμιου Ιστού προσφέρουν όλο και περισσότερες δυνατότητες στους χρήστες τους για να δημιουργήσουν, να συντηρήσουν και να δημοσιοποιήσουν περιεχόμενο κειμένου που έχει παραχθεί από τους ίδιους. Αποτέλεσμα της αλληλεπίδρασης των χρηστών αλλά και χρηστών και ιστοσελίδων, είναι ότι ένα αρκετά μεγάλο μέρος της διαδικτυακής πληροφορίας με το οποίο έρχεται σε επαφή ο μέσος χρήστης καθημερινά, έχει παραχθεί από άλλους χρήστες και όχι από τους δημιουργούς του ιστοτόπου. Η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης άποψης (opinion mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή ένα προϊόν. Μελέτες, όπως οι παραπάνω, είναι ιδιαίτερα χρήσιμες στην ανάπτυξη σύγχρονων εμπορικών εφαρμογών, που θα προσφέρουν στον καταναλωτή δυνατότητα πληρέστερης ενημέρωσης για τις συναλλαγές που πρόκειται να πραγματοποιήσει. Άλλες περιπτώσεις αφορούν στην ανάλυση των γλωσσολογικών χαρακτηριστικών των κειμενικών δεδομένων που έχουν συνταχθεί από χρήστες. Επίσης, η μελέτη των χαρακτηριστικών του περιεχομένου που έχει παραχθεί από χρήστες του Παγκόσμιου Ιστού είναι ιδιαίτερα σημαντική στη μελέτη του social web, καθώς είναι δυνατόν να προκύψουν χρήσιμα συμπεράσματα τόσο για την εξέλιξή του στο χώρο και στο χρόνο, όσο και για την περαιτέρω εξέλιξη του, προσφέροντας στους χρήστες νέες δυνατότητες μέσα από σύγχρονες εφαρμογές που θα αναπτυχθούν. Σε κάθε περίπτωση, το περιεχόμενο των ιστοσελίδων του Παγκόσμιου Ιστού μπορεί θεωρητικά να κατηγοριοποιηθεί σε δυο κατηγορίες: στα δεδομένα των δημιουργών των ιστοσελίδων και στα δεδομένα που προέκυψαν από τους χρήστες των ιστοσελίδων κατά την αλληλεπίδρασή τους με αυτές. Στόχος της παρούσας μελέτης είναι να μελετήσει το κατά πόσο είναι εφικτή και με ποιόν τρόπο η αυτόματη αναγνώριση ύπαρξης ή μη περιεχομένου κειμένου του Παγκόσμιου Ιστού που έχει παραχθεί από χρήστες. Στα πλαίσια της παρούσας μεταπτυχιακής εργασίας θα εντοπιστούν χαρακτηριστικά, τα οποία θα επιτρέψουν τον αυτόματο εντοπισμό των κειμενικών δεδομένων χρηστών σε μια ιστοσελίδα. Γενικά σε μια ιστοσελίδα υπάρχουν τρεις πηγές πληροφοριών, οι οποίες μπορούν να χρησιμοποιηθούν κατά τη διαδικασία προσδιορσμού του user generated content (UGC): το περιεχόμενο της ιστοσελίδας, το περιβάλλον εμφάνισής της (συνδεσιμότητα με άλλες σελίδες και anchor text) και η δομή της, η οποία περιγράφεται από τα html tags (πχ ο τίτλος της σελίδας, οι λέξεις που παρουσιάζονται με bold κλπ). Η προτεινόμενη μεθοδολογία συνίσταται στην εφαρμογή τεχνικών ανάλυσης της ιστοσελίδας που σκοπό έχουν τον καθορισμό ενός συνόλου χαρακτηριστικών γνωρισμάτων της (features). Το σύνολο των γνωρισμάτων αυτών αποτελείται από τρία επιμέρους είδη χαρακτηριστικών γνωρισμάτων, τα γλωσσολογικά χαρακτηριστικά γνωρίσματα (textual features), τα χαρακτηριστικά γνωρίσματα δομής της ιστοσελίδας (Html tags), και τα χαρακτηριστικά γνωρίσματα απεικόνισης ή εμφάνισης της ιστοσελίδας (Visual and Visually Central Features). Από τα καθορισμένα χαρακτηριστικά θα επιλεγούν πειραματικά εκείνα, τα οποία θα συμμετάσχουν αποδοτικότερα στον αλγόριθμο προσδιορισμού για την ύπαρξη user generated text content σε μια ιστοσελίδα. Η αξιολόγηση των αποτελεσμάτων της προτεινόμενης μεθόδου θα πραγματοποιηθεί βάσει ενός συνόλου δεδομένων ελέγχου. Τα δεδομένα ελέγχου αποτελούνται από μια συλλογή ιστοσελίδων, για τις οποίες έχει γίνει έλεγχος για το αν περιέχουν user generated text content. Η διαδικασία αξιολόγησης συνίσταται στην σύγκριση των αποτελεσμάτων του αλγορίθμου που προτείνουμε με τα αποτελέσματα που έχουν παραχθεί από την επεξεργασία του συνόλου δεδομένων ελέγχου. Τα συμπεράσματα που θα προκύψουν μπορούν να χρησιμοποιηθούν για την περεταίρω βελτίωση του αλγορίθμου προσδιορισμού ύπαρξης user generated text content, καθώς και για την αξιοποίηση τους σε τεχνικές ανάλυσης και επεξεργασίας του user generated text content από ιστοσελίδες του Παγκόσμιου Ιστού.