Τεχνικές βελτιστοποίησης μηχανισμών αναζήτησης στο σημασιολογικό ιστό, με χρήση χαρακτηριστικών αρχείων υπερκειμένου

Σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη εφαρμογής, η οποία επιτρέπει το σημασιολογικό εμπλουτισμό εικόνων, οι οποίες είναι αναρτημένες στον Παγκόσμιο Ιστό. Αρχικά στην εργασία παρουσιάζεται η δομή και ο όγκος της πληροφορίας όπως είναι οργανωμένη στον Παγκόσμιο Ιστό και η ανάγκη, από το π...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Παντελής, Νικόλαος
Άλλοι συγγραφείς: Λυκοθανάσης, Σπυρίδων
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2016
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/9508
Περιγραφή
Περίληψη:Σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη εφαρμογής, η οποία επιτρέπει το σημασιολογικό εμπλουτισμό εικόνων, οι οποίες είναι αναρτημένες στον Παγκόσμιο Ιστό. Αρχικά στην εργασία παρουσιάζεται η δομή και ο όγκος της πληροφορίας όπως είναι οργανωμένη στον Παγκόσμιο Ιστό και η ανάγκη, από το πρώτο διάστημα ύπαρξής του, για συστήματα αναζήτησής σε αυτόν (μηχανές αναζήτησης, κατάλογοι ιστοσελίδων κ.α.). Έπειτα αναλύονται κάποιοι επιμέρους μηχανισμοί αυτών των συστημάτων. Επίσης, αναφέρεται η εξόρυξη δεδομένων ιστού και εμβαθύνουμε στην υποκατηγορία της, την εξόρυξη περιεχομένου ιστού. Στη συνέχεια, παρουσιάζεται η εφαρμογή της αναγνώρισης ονοματικών οντοτήτων, όπου συναντάται η μηχανική μάθηση και περιγράφεται περίπτωση εφαρμογής του σε κείμενα τα οποία συνοδεύουν εικόνες, τα οποία έχουν αντληθεί από τον Παγκόσμιο Ιστό. Στο επόμενο κεφάλαιο δίνεται ο ορισμός του Σημασιολογικού Ιστού, αναδεικνύεται η σημασία του, παρουσιάζεται η αρχιτεκτονική του και οι διάφορες τεχνολογίες, οι οποίες έχουν αναπτυχθεί στην κατεύθυνση αυτή (xml, rdf ,rdfs, OWL, SPARQL), εφαρμογές του (DBPEDIA) και τα σημασιολογικά χαρακτηριστικά της HTML. Το κεφάλαιο που ακολουθεί αφιερώνεται στην προστασία των ψηφιακών δικαιωμάτων και ιδίως στην τεχνολογία της υδατοσήμανσης των εικόνων, στα είδη της και τα χαρακτηριστικά της. Έπειτα, δίνεται η περιγραφή του συστήματος το οποίο αναπτύχθηκε (κατά το ένα μέρος στη γλώσσα C# και κατά το άλλο με PHP). Το σύστημα λαμβάνει ως είσοδο έναν υπερσύνδεσμο ρίζα και ξεκινώντας από αυτόν δημιουργεί ένα μεγαλύτερο σύνολο υπερσυνδέσμων, που βρίσκονται στο υποδέντρο κάτω από τον αρχικό υπερσύνδεσμο. Από αυτό το σύνολο εξάγονται οι υπερσύνδεσμοι των εικόνων και τα κείμενα τα οποία βρίσκονται «κοντά» σε αυτές, με τη χρήση HTML parser. Ως προς τις εικόνες, υπάρχει η δυνατότητα ελέγχου ύπαρξης υδατογραφήματος και εξαγωγή του αποτελέσματος σε XML αρχείο. Για την ανάλυση των κειμένων χρησιμοποιείται αναγνωριστής ονοματικών οντοτήτων, ο οποίος επιτρέπει τον χαρακτηρισμό των προσώπων, οργανισμών και τοποθεσιών που βρέθηκαν στο κείμενο. Τα δεδομένα αυτά αποθηκεύονται σε βάση δεδομένων. Τέλος, υλοποιήθηκε μια διεπαφή χρήστη, όπου παρουσιάζονται οι εικόνες που είναι αποθηκευμένες στη βάση δεδομένων και είναι αντιστοιχισμένες με ονοματική οντότητα προσώπου. Ο χρήστης καλείται να επιβεβαιώσει ή όχι, το αν συμβαδίζει/ουν το/τα πρόσωπο/α της εικόνας με το/τα πρόσωπο/α που βρέθηκαν στο αντίστοιχο κείμενο. Η συνολική διαδικασία οδηγεί στη δημιουργία μιας βάσης δεδομένων, στην οποία έχουν αποθηκευτεί σύνδεσμοι προς εικόνες και σημασιολογικός χαρακτηρισμός τους ως προς τα πρόσωπα που απεικονίζονται σε αυτές.