Περίληψη: | Ο μεγάλος όγκος πληροφοριών και ειδήσεων που παράγονται από τα μέσα κοινωνικής δικτύωσης και από τα μέσα μαζικής ενημέρωσης έχει οδηγήσει την επιστήμη στην εύρεση μεθόδων ώστε να μετριάσουν το πρόβλημα της παραπληροφόρησης και των κακόβουλων ειδήσεων, που στόχο έχουν να διαστρεβλώνουν τις απόψεις της κοινωνίας. Η εκτίμηση για το αν μία πληροφορία ή είδηση είναι κακόβουλη προϋποθέτει σχολαστική μελέτη γύρω από το συγκεκριμένο θέμα. Η ανάγκη για αυτοματοποίηση της διαδικασίας οδήγησε στην ανάπτυξη μεθόδων και αλγορίθμων, που στόχο έχουν την επεξεργασία των δεδομένων κειμένων, την εξόρυξη πληροφοριών και την κατηγοριοποίησή τους. Στην παρούσα διπλωματική εργασία έχουμε συλλέξει δεδομένα από διάφορα άρθρα, που έχουν δημοσιευτεί στο διαδίκτυο, όπως επίσης και ειδήσεις από την πλατφόρμα του Twitter, που αναφέρονται στην πανδημία COVID-19. Με την χρήση αλγορίθμων μηχανικής μάθησης προσπαθούμε να κατηγοριοποιήσουμε τα δεδομένα μας σε μία από τις δύο ομάδες, δηλαδή προσπαθούμε να δούμε αν ανήκουν στην ομάδα των αληθών ειδήσεων ή στην ομάδα των ψευδών ειδήσεων. Ειδικότερα, χρησιμοποιούνται οι αλγόριθμοι της λογιστικής παλινδρόμησης, του πολυωνυμικού Naïve Bayes και δύο μοντέλων βαθιάς μηχανικής μάθησης (μοντέλο LSTM και μοντέλο BI-LSTM). Η προεπεξεργασία και η εφαρμογή των αλγορίθμων πραγματοποιήθηκε με την βοήθεια των βιβλιοθηκών sklearn και TensorFlow της Python.
|