Περίληψη: | Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη
αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε
ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες
λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής
δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας.
Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών
ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία
ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι
ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση
των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα
μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα
στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου.
Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ
ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου
και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται
στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους
των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να
αποτελούν κόμβους της ταξονομίας).
Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν
αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι
θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin
(Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα
καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα,
τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια
να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων.
|