Περίληψη: | Τα Συστήματα Προτάσεων αποτελούν την λύση στο πρόβλημα του καταιγισμού πληροφοριών που κάθε χρήστης αντιμετωπίζει καθημερινά κατά την αλληλεπίδραση του με οποιαδήποτε ηλεκτρονική πλατφόρμα. Ο στόχος τους είναι να παρέχουν αυτόματα στο χρήστη τη δυνατότητα να εντοπίσει προϊόντα που τον ενδιαφέρουν γρήγορα και αποτελεσματικά. Οι προτάσεις που πραγματοποιούν, βασίζονται στην ανάλυση της προηγούμενης συμπεριφοράς των χρηστών σε ότι αφορά την αξιολόγηση προϊόντων καθώς και στον προσδιορισμό ομοιοτήτων μεταξύ των διαφορετικών χρηστών ή και προϊόντων του συστήματος, έτσι ώστε να παρέχουν μια πρόβλεψη για το ποια προϊόντα θα θεωρήσει ο εκάστοτε χρήστης ενδιαφέροντα. Λόγω της ευρείας εφαρμογή τους, αποτελούν αντικείμενο που απασχολεί ενεργά την ερευνητική κοινότητα. Η παρούσα διπλωματική εργασία πραγματεύεται τα Συστήματα Προτάσεων Ταινιών, εστιάζοντας σε δύο από τις πιο γνωστές τεχνικές φιλτραρίσματος, Collaborative filtering και Content Based filtering.
Η τεχνική του Collaborative filtering υλοποιείται μέσω δύο διαφορετικών προσεγγίσεων. Η πρώτη προσέγγιση προτείνει ένα επιβλεπόμενο πιθανοτικό Bayesian μοντέλο, το οποίο πραγματοποιεί προτάσεις στο χρήστη υπολογίζοντας την πιθανότητα να δώσει μια συγκεκριμένη βαθμολογία σε κάποια ταινία, λαμβάνοντας υπόψη τη βαθμολογία που έχουν δώσει οι άλλοι χρήστες του συστήματος στην συγκεκριμένη ταινία ή τις βαθμολογίες που έχει δώσει ο χρήστης σε άλλες ταινίες που έχει παρακολουθήσει. Η δεύτερη προσέγγιση ανήκει στην κατηγορία της μη επιβλεπόμενης μάθησης και πραγματοποιεί K-Means συσταδοποίηση των χρηστών αναλόγως με τις προτιμήσεις που έχουν εκφράσει μέσω των βαθμολογιών τους στα διαφορετικά είδη ταινίας του συστήματος. Οι ανωτέρω δύο προσεγγίσεις συγκρίνονται μεταξύ τους καθώς και με μία βασικό μέθοδο πρόβλεψης βαθμολογιών, γνωστή ως Weighted Sum, η οποία βασίζεται στον υπολογισμό ομοιότητας, μέσω ομοιότητας συνημιτόνου και ευκλείδειας απόστασης μεταξύ των χρηστών και των ταινιών. Η τεχνική Content Based filtering επικεντρώνεται στην ανακάλυψη ομοιοτήτων μεταξύ των υποθέσεων των ταινιών και υλοποιείται μέσω τεχνικών K-Means συσταδοποίησης. Η πρώτη προσέγγιση συσταδοποιεί τις ταινίες χρησιμοποιώντας το TF-IDF σχήμα για τη στάθμιση των όρων των υποθέσεων των ταινιών. Η δεύτερη προσέγγιση συσταδοποιεί τις ταινίες αναλόγως με την ομοιότητα των υποθέσεών τους που έχει προκύψει κατόπιν εφαρμογής του αλγορίθμου BM25.
Η αξιολόγηση των μεθόδων που εξετάζονται, πραγματοποιείται μέσω της μετρικής της ακρίβειας ή πιστότητας (accuracy). Διαπιστώνεται πως η πιθανοτική προσέγγιση Collaborative filtering κατά Bayes υπερτερεί σημαντικά έναντι της τεχνικής συσταδοποίησης των χρηστών καθώς και της βασικής μεθόδου weighted sum. Σχετικά με το Content Based filtering, παρατηρείται πως τις πιο ακριβείς προβλέψεις παρέχει η συσταδοποίηση μέσω του σχήματος TF-IDF.
Λέξεις-Κλειδιά: Collaborative filtering, Content Based filtering, ομοιότητα, Bayes, K-Means, TF-IDF, BM25
|