Προσωποποιημένη προβολή περιεχομένου του διαδικτύου σε desktop εφαρμογή με τεχνικές ανάκτησης δεδομένων, προεπεξεργασίας κειμένου, αυτόματης κατηγοριοποίησης και εξαγωγής περίληψης

Με την πραγματικότητα των υπέρογκων και ολοένα αυξανόμενων πηγών κειμένου στο διαδίκτυο, καθίστανται αναγκαία η ύπαρξη μηχανισμών οι οποίοι βοηθούν τους χρήστες ώστε να λάβουν γρήγορες απαντήσεις στα ερωτήματά τους. Η παρουσίαση προσωποποιημένου, συνοψισμένου και προκατηγοριοποιημένου περιεχομένου σ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Τσόγκας, Βασίλειος
Άλλοι συγγραφείς: Μπούρας, Χρήστος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2009
Θέματα:
Διαθέσιμο Online:http://nemertes.lis.upatras.gr/jspui/handle/10889/1609
Περιγραφή
Περίληψη:Με την πραγματικότητα των υπέρογκων και ολοένα αυξανόμενων πηγών κειμένου στο διαδίκτυο, καθίστανται αναγκαία η ύπαρξη μηχανισμών οι οποίοι βοηθούν τους χρήστες ώστε να λάβουν γρήγορες απαντήσεις στα ερωτήματά τους. Η παρουσίαση προσωποποιημένου, συνοψισμένου και προκατηγοριοποιημένου περιεχομένου στους χρήστες, κρίνεται απαραίτητη σύμφωνα με τις επιταγές της συνδυαστικής έκρηξης της πληροφορίας που είναι ορατή σε κάθε "γωνία" του διαδικτύου. Ζητούνται άμεσες και αποτελεσματικές λύσεις ώστε να "τιθασευτεί" αυτό το χάος πληροφορίας που υπάρχει στον παγκόσμιο ιστό, λύσεις που είναι εφικτές μόνο μέσα από ανάλυση των προβλημάτων και εφαρμογή σύγχρονων μαθηματικών και υπολογιστικών μεθόδων για την αντιμετώπισή τους. Στα πλαίσια της παρούσας εργασίας, δημιουργήθηκε ένας ολοκληρωμένος μηχανισμός ο οποίος μπορεί αυτόματα να αναλύει κείμενα του διαδικτύου προκειμένου να εξάγει λέξεις-κλειδιά. Μέσα από αυτή την ανάλυση προκύπτουν οι σημαντικότερες προτάσεις του κειμένου που το χαρακτηρίζουν και οι οποίες μπορούν, αν συνενωθούν, να αποτελέσουν μια σύντομη περίληψη του κειμένου. Ο μηχανισμός αξιοποιεί γνώσεις για την κατηγορία του κειμένου καθώς και για τις προτιμήσεις που παρουσιάζουν οι χρήστες του προκειμένου να βελτιώσει και να φιλτράρει τα αποτελέσματα που παρουσιάζονται. Το σύστημα που κατασκευάστηκε έχει τα εξής βασικά υποσυστήματα: μηχανισμός ανάκτησης δεδομένων και εξαγωγής χρήσιμου κειμένου από τον παγκόσμιο ιστό, μηχανισμός εξαγωγής λέξεων-κλειδιών από το πηγαίο κείμενο, μηχανισμός κατηγοριοποίησης κειμένου, ο οποίος μπορεί να συμμετάσχει στη διαδικασία εξαγωγής περίληψης και να ενδυναμώσει τα αποτελέσματά της, μηχανισμοί προσωποποίησης περιεχομένου στο χρήστη και φυσικά, μηχανισμός εξαγωγής περίληψης. Οι παραπάνω μηχανισμοί είναι ενσωματωμένοι σε ένα σύστημα αποδελτίωσης, το PeRSSonal, το οποίο χρησιμοποιείται για την ανάκτηση / προεπεξεργασία / κατηγοριοποίηση / προσωποποίηση και περίληψη άρθρων από ειδησεογραφικούς τόπους του διαδικτύου. Σκοπός της παρούσας εργασίας είναι η ενίσχυση των υπαρχόντων διαδικασιών του μηχανισμού με καλύτερες και αποτελεσματικότερες μεθόδους και αλγορίθμους, καθώς και η δημιουργία μιας desktop εφαρμογής που θα αξιοποιεί στο έπακρο τις δυνατότητες παρουσίασης του συστήματος μέσω του κλασικού client-server μοντέλου. Πιο συγκεκριμένα, αναβαθμίζονται όλα τα στάδια λειτουργίας του μηχανισμού. Έτσι, το στάδιο ανάκτησης δεδομένων από τον ιστό ενισχύεται με έναν νέο, πιο αποτελεσματικό crawler. Ο αλγόριθμος που υλοποιείται σε αυτό το στάδιο λαμβάνει υπ' όψιν του, μεταξύ άλλων, και τον ρυθμό μεταβολής των RSS Feeds που αναλύει προκειμένου να αποφανθεί αν θα επισκεφθεί τη σελίδα του νέου. Αποφεύγονται έτσι άσκοπες εκτελέσεις της διαδικασίας του crawling και ουσιαστικά εξοικονομούνται πόροι του συστήματος. Παράλληλα, οι αλγόριθμοι αναγνώρισης και εξαγωγής χρήσιμου κειμένου έχουν ενισχυθεί και βελτιστοποιηθεί ώστε να εκτελούνται ταχύτερα και να επιστρέφουν με υψηλότερη ακρίβεια το περιεχόμενο που ανταποκρίνεται στο ωφέλιμο κείμενο μιας ιστοσελίδας. Η διαδικασία προεπεξεργασίας του κειμένου και εξαγωγής των λέξεων-κλειδιών από αυτό, έχει επίσης βελτιωθεί σημαντικά. Οι αλγόριθμοι πλέον δέχονται ρύθμιση μέσω παραμέτρων που μεταβάλλονται ανάλογα με το κείμενο και την πηγή του. Επιπλέον, το σύστημα μπορεί να αναγνωρίσει κείμενα όλων των βασικών γλωσσών με μια αρθρωτή (modular) αρχιτεκτονική. Παράλληλα, η διαδικασία εύρεσης λέξεων-κλειδιών έχει ενισχυθεί με την δυνατότητα εξαγωγής των ουσιαστικών του κειμένου, που συνήθως φέρουν το μεγαλύτερο ποσοστό ``νοήματος'' μιας πρότασης, και γενικότερα δυνατότητα αναγνώρισης των μερών του λόγου των προτάσεων. Ακολουθώντας, βρίσκονται οι μηχανισμοί κατηγοριοποίησης κειμένου και εξαγωγής της περίληψης αυτού οι οποίοι επίσης έχουν ενισχυθεί και παρουσιάζουν καλύτερα αποτελέσματα σε σχέση με την αρχική έκδοση του συστήματος. Η διαδικασία περίληψης έχει βελτιωθεί σημαντικά με τεχνικές που αξιοποιούν τη γνώση του συστήματος τόσο για το ίδιο το κείμενο όσο και για τον χρήστη που ζητάει την περίληψη. Η διαδικασία κατηγοριοποίησης επίσης επωφελείται από την περίληψη του κειμένου αξιοποιώντας τη, ως μικρότερη και συνοπτικότερη έκδοση του αρχικού κειμένου, προκειμένου να αποφανθεί σε περιπτώσεις που δεν είναι εντελώς ξεκάθαρο σε ποια κατηγορία ανήκει το κείμενο. Η διαδικασία ολοκληρώνεται με την προσωποποιημένη παρουσίαση των αποτελεσμάτων στη μεριά του χρήστη. Ο αλγόριθμος προσωποποίησης λαμβάνει υπ' όψιν του πολλές παραμέτρους, μεταξύ των οποίων το ιστορικό περιήγησης, οι χρόνοι που μένει ο χρήστης σε κάποιο άρθρο και οι επιλογές του στην εφαρμογή για να παράγει το προφίλ του. Ο αλγόριθμος προσωποποίησης που προτείνεται ουσιαστικά ``μαθαίνει'' από τις επιλογές του χρήστη και προσαρμόζεται στις πραγματικές προτιμήσεις του με το πέρασμα του χρόνου. Έτσι το σύστημα μπορεί να ανταποκρίνεται στις διαρκώς μεταβαλλόμενες προτιμήσεις των χρηστών. Στην τελική φάση της ροής της πληροφορίας, τα αποτελέσματα επιστρέφονται στην εφαρμογή που τρέχει ο χρήστης στην επιφάνεια εργασίας του και που αποτελεί μέρος της παρούσας εργασίας. Ο σκοπός της client-side εφαρμογής είναι να αξιοποιήσει και να παρουσιάσει την πληροφορία που εκτιμάται ότι ενδιαφέρει τον χρήστη, μορφοποιώντας την κατάλληλα ώστε να είναι πραγματικά χρήσιμη και ευανάγνωστη. Σκοπός δεν είναι να ``πλημμυριστεί'' ο χρήστης με ακόμη περισσότερη πληροφορία από αυτή που μπορεί να βρει μόνος του στο διαδίκτυο, αλλά να φιλτραριστεί αυτή ώστε να αντιπροσωπεύει πραγματικά τα ενδιαφέροντα του χρήστη. Η εφαρμογή που αναπτύχθηκε στηρίζεται σε standard πρωτόκολλα τόσο μετάδοσης όσο και μορφοποίησης της πληροφορίας και είναι εύκολα παραμετροποιήσιμη από τον χρήστη, ενώ παράλληλα προσφέρει πλήθος λειτουργιών που την καθιστούν ικανή να αντικαταστήσει τις κοινές μεθόδους καθημερινής ενημέρωσης που χρησιμοποιούν οι χρήστες του διαδικτύου.