Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών
Τα Συστήματα Προτάσεων αποτελούν την λύση στο πρόβλημα του καταιγισμού πληροφοριών που κάθε χρήστης αντιμετωπίζει καθημερινά κατά την αλληλεπίδραση του με οποιαδήποτε ηλεκτρονική πλατφόρμα. Ο στόχος τους είναι να παρέχουν αυτόματα στο χρήστη τη δυνατότητα να εντοπίσει προϊόντα που τον ενδιαφέρουν γρ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2020
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/13141 |
id |
nemertes-10889-13141 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Συστήματα προτάσεων Collaborative filtering Content based filtering Recommendation systems |
spellingShingle |
Συστήματα προτάσεων Collaborative filtering Content based filtering Recommendation systems Ηλιοπούλου, Κωνσταντίνα Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
description |
Τα Συστήματα Προτάσεων αποτελούν την λύση στο πρόβλημα του καταιγισμού πληροφοριών που κάθε χρήστης αντιμετωπίζει καθημερινά κατά την αλληλεπίδραση του με οποιαδήποτε ηλεκτρονική πλατφόρμα. Ο στόχος τους είναι να παρέχουν αυτόματα στο χρήστη τη δυνατότητα να εντοπίσει προϊόντα που τον ενδιαφέρουν γρήγορα και αποτελεσματικά. Οι προτάσεις που πραγματοποιούν, βασίζονται στην ανάλυση της προηγούμενης συμπεριφοράς των χρηστών σε ότι αφορά την αξιολόγηση προϊόντων καθώς και στον προσδιορισμό ομοιοτήτων μεταξύ των διαφορετικών χρηστών ή και προϊόντων του συστήματος, έτσι ώστε να παρέχουν μια πρόβλεψη για το ποια προϊόντα θα θεωρήσει ο εκάστοτε χρήστης ενδιαφέροντα. Λόγω της ευρείας εφαρμογή τους, αποτελούν αντικείμενο που απασχολεί ενεργά την ερευνητική κοινότητα. Η παρούσα διπλωματική εργασία πραγματεύεται τα Συστήματα Προτάσεων Ταινιών, εστιάζοντας σε δύο από τις πιο γνωστές τεχνικές φιλτραρίσματος, Collaborative filtering και Content Based filtering.
Η τεχνική του Collaborative filtering υλοποιείται μέσω δύο διαφορετικών προσεγγίσεων. Η πρώτη προσέγγιση προτείνει ένα επιβλεπόμενο πιθανοτικό Bayesian μοντέλο, το οποίο πραγματοποιεί προτάσεις στο χρήστη υπολογίζοντας την πιθανότητα να δώσει μια συγκεκριμένη βαθμολογία σε κάποια ταινία, λαμβάνοντας υπόψη τη βαθμολογία που έχουν δώσει οι άλλοι χρήστες του συστήματος στην συγκεκριμένη ταινία ή τις βαθμολογίες που έχει δώσει ο χρήστης σε άλλες ταινίες που έχει παρακολουθήσει. Η δεύτερη προσέγγιση ανήκει στην κατηγορία της μη επιβλεπόμενης μάθησης και πραγματοποιεί K-Means συσταδοποίηση των χρηστών αναλόγως με τις προτιμήσεις που έχουν εκφράσει μέσω των βαθμολογιών τους στα διαφορετικά είδη ταινίας του συστήματος. Οι ανωτέρω δύο προσεγγίσεις συγκρίνονται μεταξύ τους καθώς και με μία βασικό μέθοδο πρόβλεψης βαθμολογιών, γνωστή ως Weighted Sum, η οποία βασίζεται στον υπολογισμό ομοιότητας, μέσω ομοιότητας συνημιτόνου και ευκλείδειας απόστασης μεταξύ των χρηστών και των ταινιών. Η τεχνική Content Based filtering επικεντρώνεται στην ανακάλυψη ομοιοτήτων μεταξύ των υποθέσεων των ταινιών και υλοποιείται μέσω τεχνικών K-Means συσταδοποίησης. Η πρώτη προσέγγιση συσταδοποιεί τις ταινίες χρησιμοποιώντας το TF-IDF σχήμα για τη στάθμιση των όρων των υποθέσεων των ταινιών. Η δεύτερη προσέγγιση συσταδοποιεί τις ταινίες αναλόγως με την ομοιότητα των υποθέσεών τους που έχει προκύψει κατόπιν εφαρμογής του αλγορίθμου BM25.
Η αξιολόγηση των μεθόδων που εξετάζονται, πραγματοποιείται μέσω της μετρικής της ακρίβειας ή πιστότητας (accuracy). Διαπιστώνεται πως η πιθανοτική προσέγγιση Collaborative filtering κατά Bayes υπερτερεί σημαντικά έναντι της τεχνικής συσταδοποίησης των χρηστών καθώς και της βασικής μεθόδου weighted sum. Σχετικά με το Content Based filtering, παρατηρείται πως τις πιο ακριβείς προβλέψεις παρέχει η συσταδοποίηση μέσω του σχήματος TF-IDF.
Λέξεις-Κλειδιά: Collaborative filtering, Content Based filtering, ομοιότητα, Bayes, K-Means, TF-IDF, BM25 |
author2 |
Μακρής, Χρήστος |
author_facet |
Μακρής, Χρήστος Ηλιοπούλου, Κωνσταντίνα |
format |
Thesis |
author |
Ηλιοπούλου, Κωνσταντίνα |
author_sort |
Ηλιοπούλου, Κωνσταντίνα |
title |
Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
title_short |
Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
title_full |
Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
title_fullStr |
Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
title_full_unstemmed |
Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
title_sort |
τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών |
publishDate |
2020 |
url |
http://hdl.handle.net/10889/13141 |
work_keys_str_mv |
AT ēliopouloukōnstantina technikesexoryxēsdedomenōnkaiepharmogētōnsystēmatōnprotaseōnmeskopotēnaxiologēsētainiōn AT ēliopouloukōnstantina dataminingtechniquesandrecommendationsystemsapplicationformovieevaluation |
_version_ |
1771297130937319424 |
spelling |
nemertes-10889-131412022-09-05T04:59:28Z Τεχνικές εξόρυξης δεδομένων και εφαρμογή των συστημάτων προτάσεων με σκοπό την αξιολόγηση ταινιών Data mining techniques and recommendation systems application for movie evaluation Ηλιοπούλου, Κωνσταντίνα Μακρής, Χρήστος Χατζηλυγερούδης, Ιωάννης Iliopoulou, Konstantina Συστήματα προτάσεων Collaborative filtering Content based filtering Recommendation systems Τα Συστήματα Προτάσεων αποτελούν την λύση στο πρόβλημα του καταιγισμού πληροφοριών που κάθε χρήστης αντιμετωπίζει καθημερινά κατά την αλληλεπίδραση του με οποιαδήποτε ηλεκτρονική πλατφόρμα. Ο στόχος τους είναι να παρέχουν αυτόματα στο χρήστη τη δυνατότητα να εντοπίσει προϊόντα που τον ενδιαφέρουν γρήγορα και αποτελεσματικά. Οι προτάσεις που πραγματοποιούν, βασίζονται στην ανάλυση της προηγούμενης συμπεριφοράς των χρηστών σε ότι αφορά την αξιολόγηση προϊόντων καθώς και στον προσδιορισμό ομοιοτήτων μεταξύ των διαφορετικών χρηστών ή και προϊόντων του συστήματος, έτσι ώστε να παρέχουν μια πρόβλεψη για το ποια προϊόντα θα θεωρήσει ο εκάστοτε χρήστης ενδιαφέροντα. Λόγω της ευρείας εφαρμογή τους, αποτελούν αντικείμενο που απασχολεί ενεργά την ερευνητική κοινότητα. Η παρούσα διπλωματική εργασία πραγματεύεται τα Συστήματα Προτάσεων Ταινιών, εστιάζοντας σε δύο από τις πιο γνωστές τεχνικές φιλτραρίσματος, Collaborative filtering και Content Based filtering. Η τεχνική του Collaborative filtering υλοποιείται μέσω δύο διαφορετικών προσεγγίσεων. Η πρώτη προσέγγιση προτείνει ένα επιβλεπόμενο πιθανοτικό Bayesian μοντέλο, το οποίο πραγματοποιεί προτάσεις στο χρήστη υπολογίζοντας την πιθανότητα να δώσει μια συγκεκριμένη βαθμολογία σε κάποια ταινία, λαμβάνοντας υπόψη τη βαθμολογία που έχουν δώσει οι άλλοι χρήστες του συστήματος στην συγκεκριμένη ταινία ή τις βαθμολογίες που έχει δώσει ο χρήστης σε άλλες ταινίες που έχει παρακολουθήσει. Η δεύτερη προσέγγιση ανήκει στην κατηγορία της μη επιβλεπόμενης μάθησης και πραγματοποιεί K-Means συσταδοποίηση των χρηστών αναλόγως με τις προτιμήσεις που έχουν εκφράσει μέσω των βαθμολογιών τους στα διαφορετικά είδη ταινίας του συστήματος. Οι ανωτέρω δύο προσεγγίσεις συγκρίνονται μεταξύ τους καθώς και με μία βασικό μέθοδο πρόβλεψης βαθμολογιών, γνωστή ως Weighted Sum, η οποία βασίζεται στον υπολογισμό ομοιότητας, μέσω ομοιότητας συνημιτόνου και ευκλείδειας απόστασης μεταξύ των χρηστών και των ταινιών. Η τεχνική Content Based filtering επικεντρώνεται στην ανακάλυψη ομοιοτήτων μεταξύ των υποθέσεων των ταινιών και υλοποιείται μέσω τεχνικών K-Means συσταδοποίησης. Η πρώτη προσέγγιση συσταδοποιεί τις ταινίες χρησιμοποιώντας το TF-IDF σχήμα για τη στάθμιση των όρων των υποθέσεων των ταινιών. Η δεύτερη προσέγγιση συσταδοποιεί τις ταινίες αναλόγως με την ομοιότητα των υποθέσεών τους που έχει προκύψει κατόπιν εφαρμογής του αλγορίθμου BM25. Η αξιολόγηση των μεθόδων που εξετάζονται, πραγματοποιείται μέσω της μετρικής της ακρίβειας ή πιστότητας (accuracy). Διαπιστώνεται πως η πιθανοτική προσέγγιση Collaborative filtering κατά Bayes υπερτερεί σημαντικά έναντι της τεχνικής συσταδοποίησης των χρηστών καθώς και της βασικής μεθόδου weighted sum. Σχετικά με το Content Based filtering, παρατηρείται πως τις πιο ακριβείς προβλέψεις παρέχει η συσταδοποίηση μέσω του σχήματος TF-IDF. Λέξεις-Κλειδιά: Collaborative filtering, Content Based filtering, ομοιότητα, Bayes, K-Means, TF-IDF, BM25 Recommendation Systems constitute the solution for the flood of information each user has to face daily during their interaction with any online platform. They aim to provide the user with the ability to find products that interest them, in an automatic, fast and efficient way. Their recommendations are based on the analysis of previous user behavior in respect to evaluation of products as well as on the recognition of similarity between different users and products, in order to render a prediction of which products a user will consider as interesting. Due to their wide-ranging scope of application, the research community takes an active interest in the field. The present diploma thesis addresses the subject of Movie Recommendation Systems, focusing on two of the most well-known filtering techniques, Collaborative Filtering and Content Based Filtering. Specifically, Collaborative Filtering is implemented through two different approaches. The first approach proposes a supervised probabilistic Bayesian model that forms recommendations based on the estimation of the probability that a user gives a specific rating to some movie, while taking into consideration the rating given to that movie by the rest of the users, or the rating the user gave to other movies, he/she has watched. The second approach is an unsupervised learning technique that forms clusters of users, using the K-Means algorithm, based on their preference of different movies genres, as it is expressed through their ratings. Both of the above approaches are compared to each other as well as to a basic method known as Weighted Sum, that makes predictions, based on the cosine similarity and the euclidean distance between users and between movies. Content Based Filtering is implemented through K-Means clustering techniques that focus on identifying the similarity between movie plots. The first approach clusters movies according to the TF-IDF weighting scheme, applying weights to the terms of movies’ plots. The second approach identifies similarity between movie plots utilizing the BM25 algorithm. The efficiency of the above methods is calculated through the Accuracy metric. This study concludes that the probabilistic Bayesian Collaborative filtering approach significantly outperforms the user clustering technique as well as the basic weighted sum method. Regarding the Content Based filtering technique, the best results derived from the clustering through the TF-IDF scheme. Key-words: Collaborative filtering, Content Based filtering, similarity, Bayes, K-Means, TF-IDF, BM25 2020-02-06T21:23:50Z 2020-02-06T21:23:50Z 2019-11-05 Thesis http://hdl.handle.net/10889/13141 gr 0 application/pdf |