Περίληψη: | Τα μέσα κοινωνικής δικτύωσης επιτρέπουν στους χρήστες να επεξεργάζονται και να μαθαίνουν πολύ γρήγορα επιθυμητές γι' αυτούς πληροφορίες. Αυτό όμως δίνει τη δυνατότητα σε κακόβουλους να δρούν και να αποπροσανατολίζουν τους υπόλοιπους χρήστες μέσω αναρτήσεων ή μηνυμάτων. Αναφέρεται ότι στα μεγαλύτερα μέσα κοινωνικής δικτύωσης, όπως το Facebook και το Twitter, το 1 στα 200 μηνύματα και η 1 στις 20 δημοσιεύσεις αντίστοιχα, έχουν κακόβουλο σκοπό. Οι κακόβουλοι αυτοί χρήστες αναφέρονται πιο συγκεκριμένα ως spammers και οι αναρτήσεις (ή τα μηνύματά) τους ως spams. Έτσι, προκύπτει η ανάγκη για εντοπισμό του κακόβουλου περιεχομένου μέσω της συγκέντρωσης και της ανάλυσης μεγάλου όγκου δεδομένων. Στόχος της διπλωματικής είναι να εντοπίσει spam περιεχόμενο στις δημοσιεύσεις των χρηστών του Twitter με μη χειροκίνητο τρόπο. Αρχικά, γίνεται η συλλογή των δεδομένων και η εξαγωγή κάποιων χαρακτηριστικών από αυτά. Η επιλογή συγκεκριμένων χαρακτηριστικών γίνεται λόγω του μεγάλου όγκου χαρακτηριστικών των δεδομένων. Στη συνέχεια ακολουθεί η προσπάθεια ταξινόμησης των δημοσιεύσεων (σε κακόβουλες ή μη-κακόβουλες) η οποία βασίζεται σε αλγορίθμους μηχανικής μάθησης. Για την υλοποίηση όλων των προηγουμένων χρησιμοποιήθηκαν γνωστές βιβλιοθήκες και εργαλεία.
|