Περίληψη: | Το Resource Description Framework (RDF) αποτελεί ένα πλαίσιο περιγραφής
πόρων ως μεταδεδομένα για το σημασιολογικό ιστό. Ο σκοπός του σημασιολογικού
ιστού είναι η εξέλιξη και επέκταση του υπάρχοντος παγκόσμιου ιστού, έτσι ώστε οι
χρήστες του να μπορούν ευκολότερα να αντλούν συνδυασμένη την παρεχόμενη
πληροφορία. Ο σημερινός ιστός είναι προσανατολισμένος στον άνθρωπο. Για τη
διευκόλυνση σύνθετων αναζητήσεων και σύνθεσης επιμέρους πληροφοριών, ο ιστός
αλλάζει προσανατολισμό, έτσι ώστε να μπορεί να ερμηνεύεται από μηχανές και να
απαλλάσσει το χρήστη από τον επιπλέον φόρτο. Η πιο φιλόδοξη μορφή
ενσωμάτωσης κατάλληλων μεταδεδομένων στον παγκόσμιο ιστό είναι με την
περιγραφή των δεδομένων με RDF triples αποθηκευμένων ως XML. Το πλαίσιο RDF
περιγράφει πόρους, ορισμένους με Uniform Resource Identifiers (URI’s) ή literals με
τη μορφή υποκείμενου-κατηγορήματος-αντικειμένου. Για την ορθή περιγραφή των
πόρων ενθαρρύνεται από το W3C η χρήση υπαρχόντων λεξιλογίων και σχημάτων ,
που περιγράφουν κλάσεις και ιδιότητες.
Στην παρούσα εργασία γίνεται υλοποίηση ενός δημοσιογραφικού RDF portal.
Για τη δημιουργία RDF/XML, έχουν χρησιμοποιηθεί τα λεξιλόγια και σχήματα που
συνιστούνται από το W3C καθώς και των DCMI και PRISM. Επίσης χρησιμοποιείται
για την περιγραφή typed literals to XML σχήμα του W3C και ένα σχήμα του portal. Η
δημιουργία των μεταδεδομένων γίνεται αυτόματα από το portal με τη χρήση των
στοιχείων που συμπληρώνονται στις φόρμες δημοσίευσης άρθρων και δημιουργίας
λογαριασμών. Για τον περιορισμό του χώρου αποθήκευσης τα μεταδεδομένα δεν
αποθηκεύονται αλλά δημιουργούνται όταν ζητηθούν. Στην υλοποίηση έχει δοθεί
έμφαση στην ασφάλεια κατά τη δημιουργία λογαριασμών χρήστη με captcha και
κωδικό ενεργοποίησης με hashing. Για τη διευκόλυνση του έργου του αρθρογράφου,
έχει εισαχθεί και επεκταθεί ο TinyMCE Rich Text Editor, o οποίος επιτρέπει τη
μορφοποίηση του κειμένου αλλά και την εισαγωγή εικόνων και media. Ο editor
παράγει αυτόματα HTML κώδικα από το εμπλουτισμένο κείμενο. Οι δυνατότητες του
editor επεκτάθηκαν κυρίως με τη δυνατότητα για upload εικόνων και media και με
την αλλαγή κωδικοποίησης για συμβατότητα με τα πρότυπα της HTML5. Για
επιπλέον συμβατότητα με την HTML5 εισάγονται από το portal στα άρθρα ετικέτες
σημασιολογικής δομής. Εκτός από τα άρθρα που δημιουργούνται με τη χρήση του
Editor, δημοσιοποιούνται και άρθρα από εξωτερικές πηγές. Στη διαδικασία που είναι
αυτόματη και επαναλαμβανόμενη, γίνεται επεξεργασία και αποθήκευση μέρους των
δεδομένων των εξωτερικών άρθρων.
Στον αναγνώστη του portal παρουσιάζεται ένα πρωτοσέλιδο και σελίδες ανά
κατηγορία με τα πρόσφατα άρθρα. Στο portal υπάρχει ενσωματωμένη μηχανή
αναζήτησης των άρθρων, με πεδία για φιλτράρισμα χρονικά, κατηγορίας,
αρθρογράφου-πηγής αλλά και λέξεων κλειδιών. Οι λέξεις κλειδιά προκύπτουν από
την περιγραφή του άρθρου στη φόρμα δημιουργίας ή αυτόματα. Όταν τα άρθρα
προέρχονται από εξωτερικές πηγές, η διαδικασία είναι υποχρεωτικά αυτόματη. Για
την αυτόματη ανεύρεση των λέξεων κλειδιών από ένα άρθρο χρησιμοποιείται η
συχνότητα της λέξης στο άρθρο, με τη βαρύτητα που δίνεται από την HTML για τη
λέξη (τίτλος, έντονη γραφή), κανονικοποιημένη για το μέγεθος του άρθρου και η
συχνότητα του λήμματος της λέξης σε ένα σύνολο άρθρων που ανανεώνεται. Για την
ανάκτηση των άρθρων χρησιμοποιείται η τεχνική των inverted files για όλες τις
λέξεις κλειδιά. Για τη μείωση του όγκου των δεδομένων και την επιτάχυνση
απάντησης ερωτημάτων, αφαιρούνται από την περιγραφή λέξεις που παρουσιάζουν
μεγάλη συχνότητα και μικρή αξία ανάκτησης πληροφορίας “stop words”. Η επιλογή
μιας αντιπροσωπευτικής λίστας με stop words πραγματοποιήθηκε με τη χρήση ενός
σώματος κειμένων από άρθρα εφημερίδων, τη μέτρηση της συχνότητας των λέξεων
και τη σύγκριση τους με τη λίστα stop words της Google. Επίσης για τον περιορισμό
του όγκου των δεδομένων αλλά και την ορθότερη απάντηση των ερωτημάτων, το
portal κάνει stemming στις λέξεις κλειδιά, παράγοντας όρους που μοιάζουν με τα
λήμματα των λέξεων. Για to stemming έγινε χρήση της διατριβής του Γεώργιου Νταή
του Πανεπιστημίου της Στοκχόλμης που βασίζεται στη Γραμματική της
Νεοελληνικής Γραμματικής του Μανώλη Τριανταφυλλίδη. Η επιστροφή των άρθρων
στα ερωτήματα που περιλαμβάνουν λέξεις κλειδιά γίνεται με κατάταξη εγγύτητας
των λέξεων κλειδιών του άρθρου με εκείνο του ερωτήματος. Γίνεται χρήση της
συχνότητας των λέξεων κλειδιών και της συχνότητας που έχουν οι ίδιες λέξεις σε ένα
σύνολο άρθρων που ανανεώνεται. Για την αναζήτηση γίνεται χρήση θησαυρού
συνώνυμων λέξεων.
|