Έρευνα και ανάπτυξη συστήματος για την ανίχνευση μεροληψίας σε συστήματα συστάσεων

Τα συστήματα συστάσεων εντοπίζονται πλέον παντού στον κόσμο του διαδικτύου, καθορίζοντας απλές καθημερινές μας συνήθειες όπως την μουσική που θα ακούσουμε, τα προϊόντα που θα αγοράσουμε, τα βιβλία που θα διαβάσουμε και καταλήγουν να επηρεάζουν έμμεσα το τι σκεφτόμαστε και πως δρούμε ως πολίτες στην...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καψάλης, Ρωμανός
Άλλοι συγγραφείς: Kapsalis, Romanos
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15929
Περιγραφή
Περίληψη:Τα συστήματα συστάσεων εντοπίζονται πλέον παντού στον κόσμο του διαδικτύου, καθορίζοντας απλές καθημερινές μας συνήθειες όπως την μουσική που θα ακούσουμε, τα προϊόντα που θα αγοράσουμε, τα βιβλία που θα διαβάσουμε και καταλήγουν να επηρεάζουν έμμεσα το τι σκεφτόμαστε και πως δρούμε ως πολίτες στην κοινωνία. Καθίσταται επομένως επιτακτική η ανάγκη ελέγχου αυτών των συστημάτων και η εύρεση της όποιας μεροληψίας εισάγουν. Το πιο γνωστό και σοβαρό είδος μεροληψίας είναι η μεροληψία δημοφιλίας (popularity bias). Σε αυτή την διπλωματική εργασία αναφέρονται τα σημαντικότερα ζητήματα μεροληψίας και δικαιοσύνης που εντοπίζονται στην μηχανική μάθηση γενικότερα και στα συστήματα συστάσεων ειδικότερα. Στα πλαίσια αυτής της διπλωματικής εργασίας έχει αναπτυχθεί μια εφαρμογή η οποία επιτρέπει στους χρήστες να δημιουργήσουν ένα σύστημα συστάσεων, χρησιμοποιώντας ένα σύνολο δεδομένων της επιθυμίας τους, και ακολούθως να ελέγξουν εάν έχει εισαχθεί κάποια μεροληψία και να την μετριάσουν με χρήση ενός εκ των τεσσάρων αλγορίθμων που προσφέρονται: FAR, PFAR, FA*IR και Calibrated recommendations. Με την εφαρμογή αυτή υλοποιήθηκαν πειράματα για τον εντοπισμό της μεροληψίας με χρήση τεσσάρων συνόλων δεδομένων, εκ των οποίων το ένα πραγματικό. Στη συνέχεια, γίνεται η αξιολόγηση των αποτελεσμάτων μέσω τριών διαφορετικών τύπων αναλύσεων: ανάλυση υπερπαραμέτρων των αλγορίθμων, σύγκριση αλγορίθμων και συνόλων δεδομένων και ανάλυση cut-off. Σε όλες τις αναλύσεις που πραγματοποιήθηκαν εξετάστηκε επίσης ο ρόλος των χαρακτηριστικών των δεδομένων, όπως η αραιότητα του μητρώου χρηστών αξιολογήσεων, ο λόγος αξιολογήσεων προς χρήστες, αξιολογήσεων προς αντικείμενα, χρηστών προς αντικείμενα και ο χώρος των αξιολογήσεων, δίνοντας ιδιαίτερη έμφαση στην αραιότητα των δεδομένων. Τέλος, γίνεται ο μετριασμός της μεροληψίας που εντοπίστηκε, με σύγκριση τριών διαφορετικών αλγορίθμων. Από την ανάλυση που πραγματοποιήθηκε διαπιστώθηκε ότι σε όλα τα σύνολα δεδομένων, τα χαρακτηριστικά των δεδομένων επηρεάζουν έως έναν βαθμό την μεροληψία που εισάγεται. Παράλληλα, οι υπερπαράμετροι των αλγορίθμων παίζουν πολύ μεγάλο ρόλο στην ρύθμιση της μεροληψίας πέρα από την ρύθμιση την ακρίβειας. Μια ακόμη διαπίστωση που προέκυψε από την έρευνά μας είναι ότι οι post-processing αλγόριθμοι μετριασμού της μεροληψίας μπορούν να βελτιώσουν το αντιστάθμισμα μεροληψίας-ακρίβειας, ωστόσο έχουν και σημαντικούς περιορισμούς. Εν κατακλείδι, οι δημιουργοί των συστημάτων είναι αναγκαίο αφενός να έχουν επίγνωση της μεροληψίας που εισάγεται, καθώς και των αιτιών της, και αφετέρου θα πρέπει να φροντίζουν να βρίσκουν ένα αντιστάθμισμα ανάμεσα στην ακρίβεια και την μεροληψία. Αυτό μπορεί να συμβεί είτε με την κατάλληλη ρύθμιση των υπερπαραμέτρων είτε με τον μετριασμό της μεροληψίας. H εφαρμογή που αναπτύχθηκε στα πλαίσια αυτής της διπλωματικής εργασίας συμβάλλει σημαντικά προς αυτή την κατεύθυνση.