| Περίληψη: | Στο κεφάλαιο αυτό θα μελετήσουμε τους αλγορίθμους φιλτραρίσματος βάσει περιεχομένου (Content-based filtering). Θα περιγράψουμε το μοντέλο διανυσματικού χώρου (vector space model), καθώς και την τεχνική Term Frequency Inverse Document Frequency (TF-IDF) που σταθμίζει τη σημαντικότητα ενός χαρακτηριστικού στο προφίλ ενός χρήστη. Επίσης, θα γίνει αναφορά στα συστήματα συστάσεων με τη χρήση δέντρων απόφασης (decision trees) και του κατηγοριοποιητή Bayes, ο οποίος αποτελεί ένα πιθανοκρατικό μοντέλο πρόβλεψης. Στη συνέχεια, θα δοθεί μια αναλυτική περιγραφή των βασικών μεθόδων (Gini index, Entropy, και χ2-statistic) κατάταξης των χαρακτηριστικών του προφίλ ενός χρήστη βάσει της σημαντικότητάς τους για τον αλγόριθμο δέντρου απόφασης.
|