Ανίχνευση fake news με τεχνικές μηχανικής μάθησης

Η εξέλιξη της τεχνολογίας και του διαδικτύου αύξησε την ευκολία πρόσβασης σε πληροφορίες και στην διάδοση τους. Η εποχή της πληροφορίας, είναι πραγματικά εποχή της παραπληροφόρησης, με τα fake news να είναι σχεδόν μάστιγα και χωρίς κάποιο τρόπο για μαζικό έλεγχο και πρόληψη τους. Όπλα στην καταπολέμ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Πουρνάρας, Κωνσταντίνος
Άλλοι συγγραφείς: Pournaras, Konstantinos
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25372
id nemertes-10889-25372
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Ψευδείς ειδήσεις
Νευρωνικά δίκτυα
Επεξεργασία φυσικής γλώσσας
Αλγόριθμοι ταξινόμησης
Εκμάθηση συνόλου
Machine learning
Fake news
Neural networks
Natural language proccessing
Classification algorithms
Ensemble learning
spellingShingle Μηχανική μάθηση
Ψευδείς ειδήσεις
Νευρωνικά δίκτυα
Επεξεργασία φυσικής γλώσσας
Αλγόριθμοι ταξινόμησης
Εκμάθηση συνόλου
Machine learning
Fake news
Neural networks
Natural language proccessing
Classification algorithms
Ensemble learning
Πουρνάρας, Κωνσταντίνος
Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
description Η εξέλιξη της τεχνολογίας και του διαδικτύου αύξησε την ευκολία πρόσβασης σε πληροφορίες και στην διάδοση τους. Η εποχή της πληροφορίας, είναι πραγματικά εποχή της παραπληροφόρησης, με τα fake news να είναι σχεδόν μάστιγα και χωρίς κάποιο τρόπο για μαζικό έλεγχο και πρόληψη τους. Όπλα στην καταπολέμηση τους αποτελούν μια πτυχή της επιστήμης των υπολογιστών, η τεχνητή νοημοσύνη, που παρέχει πληθώρα επιλογών σε μοντέλα προς εκπαίδευση καθώς και η γλωσσολογία που βοηθά στην καλύτερη επεξεργασία των δεδομένων εισόδου στα παραπάνω μοντέλα και κατ’ επέκταση στην αύξηση των επιδόσεών τους. Η παρούσα εργασία αποτελεί μια προσπάθεια δημιουργίας ενός μοντέλου με την καλύτερη δυνατή απόδοση που θα μπορεί να διαχωρίζει τις ψευδείς από τις αληθινές ειδήσεις. Αρχικά γίνεται λόγος στην ορολογία των fake news καθώς και στην επεξεργασία φυσικής γλώσσας. Στη συνέχεια παρουσιάζονται κάποια θεμελιώδη μοντέλα μηχανικής μάθησης, μαζί με 3 μεθόδους χρήσης πολλαπλών μοντέλων. Έπειτα γίνεται αναφορά στα δεδομένα, αναφορικά με την μορφή τους, την διαδικασία προ-επεξεργασίας και αποθήκευσής τους. Πριν γίνει είσοδος στα μοντέλα, επειδή αυτά δεν μπορούν να δεχτούν κείμενο, αλλά αριθμούς, γίνεται διανυσματοποίηση τους με 3 διαφορετικούς τρόπους. Οι 6 ταξινομητές που χρησιμοποιούνται, πριν συνδυαστούν, περνούν από εξοντωτική αναζήτηση με σκοπό την εύρεση των κατάλληλων υπερπαραμέτρων για την επίτευξη βέλτιστης απόδοσης σε κάθε εκδοχή διανυσματοποίησης. Τελικά, παράγονται 3 συνδυασμένα μοντέλα τα οποία καλούνται να προβλέψουν σε ένα εντελώς διαφορετικό σετ δεδομένων και μέσα από την ερμηνεία πολλών μετρικών, γίνεται η επιλογή του πιο ακριβούς. Δίπλα στο πιο ακριβές μοντέλο παρατίθεται ένα έτοιμο νευρωνικό δίκτυο που χρησιμοποιεί διαφορετική προσέγγιση και γίνεται σύγκριση της ακρίβειας και των χρόνων εκπαίδευσης. Κύριος σκοπός είναι, με τoν συνδυασμό ήδη υπαρχόντων μοντέλων, την σωστή προ-επεξεργασία των δεδομένων εισόδου και την επιλογή κατάλληλης μεθόδου διανυσματοποίησης, η επίτευξη υψηλής ακρίβειας πρόβλεψης. Τα αποτελέσματα της έρευνας δείχνουν ότι με την κατάλληλη μεθοδολογία, ένα μοντέλο μηχανικής μάθησης μπορεί να πετύχει πολύ καλές επιδόσεις, κάποιες φορές καλύτερες και από «προχωρημένες» ή περίπλοκες τεχνικές, με χαμηλότερο κόστος σε χρόνο και πόρους.
author2 Pournaras, Konstantinos
author_facet Pournaras, Konstantinos
Πουρνάρας, Κωνσταντίνος
author Πουρνάρας, Κωνσταντίνος
author_sort Πουρνάρας, Κωνσταντίνος
title Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
title_short Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
title_full Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
title_fullStr Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
title_full_unstemmed Ανίχνευση fake news με τεχνικές μηχανικής μάθησης
title_sort ανίχνευση fake news με τεχνικές μηχανικής μάθησης
publishDate 2023
url https://hdl.handle.net/10889/25372
work_keys_str_mv AT pournaraskōnstantinos anichneusēfakenewsmetechnikesmēchanikēsmathēsēs
AT pournaraskōnstantinos fakenewsdetectionusingmachinelearning
_version_ 1771297292471500800
spelling nemertes-10889-253722023-07-07T03:58:05Z Ανίχνευση fake news με τεχνικές μηχανικής μάθησης Fake news detection using machine learning Πουρνάρας, Κωνσταντίνος Pournaras, Konstantinos Μηχανική μάθηση Ψευδείς ειδήσεις Νευρωνικά δίκτυα Επεξεργασία φυσικής γλώσσας Αλγόριθμοι ταξινόμησης Εκμάθηση συνόλου Machine learning Fake news Neural networks Natural language proccessing Classification algorithms Ensemble learning Η εξέλιξη της τεχνολογίας και του διαδικτύου αύξησε την ευκολία πρόσβασης σε πληροφορίες και στην διάδοση τους. Η εποχή της πληροφορίας, είναι πραγματικά εποχή της παραπληροφόρησης, με τα fake news να είναι σχεδόν μάστιγα και χωρίς κάποιο τρόπο για μαζικό έλεγχο και πρόληψη τους. Όπλα στην καταπολέμηση τους αποτελούν μια πτυχή της επιστήμης των υπολογιστών, η τεχνητή νοημοσύνη, που παρέχει πληθώρα επιλογών σε μοντέλα προς εκπαίδευση καθώς και η γλωσσολογία που βοηθά στην καλύτερη επεξεργασία των δεδομένων εισόδου στα παραπάνω μοντέλα και κατ’ επέκταση στην αύξηση των επιδόσεών τους. Η παρούσα εργασία αποτελεί μια προσπάθεια δημιουργίας ενός μοντέλου με την καλύτερη δυνατή απόδοση που θα μπορεί να διαχωρίζει τις ψευδείς από τις αληθινές ειδήσεις. Αρχικά γίνεται λόγος στην ορολογία των fake news καθώς και στην επεξεργασία φυσικής γλώσσας. Στη συνέχεια παρουσιάζονται κάποια θεμελιώδη μοντέλα μηχανικής μάθησης, μαζί με 3 μεθόδους χρήσης πολλαπλών μοντέλων. Έπειτα γίνεται αναφορά στα δεδομένα, αναφορικά με την μορφή τους, την διαδικασία προ-επεξεργασίας και αποθήκευσής τους. Πριν γίνει είσοδος στα μοντέλα, επειδή αυτά δεν μπορούν να δεχτούν κείμενο, αλλά αριθμούς, γίνεται διανυσματοποίηση τους με 3 διαφορετικούς τρόπους. Οι 6 ταξινομητές που χρησιμοποιούνται, πριν συνδυαστούν, περνούν από εξοντωτική αναζήτηση με σκοπό την εύρεση των κατάλληλων υπερπαραμέτρων για την επίτευξη βέλτιστης απόδοσης σε κάθε εκδοχή διανυσματοποίησης. Τελικά, παράγονται 3 συνδυασμένα μοντέλα τα οποία καλούνται να προβλέψουν σε ένα εντελώς διαφορετικό σετ δεδομένων και μέσα από την ερμηνεία πολλών μετρικών, γίνεται η επιλογή του πιο ακριβούς. Δίπλα στο πιο ακριβές μοντέλο παρατίθεται ένα έτοιμο νευρωνικό δίκτυο που χρησιμοποιεί διαφορετική προσέγγιση και γίνεται σύγκριση της ακρίβειας και των χρόνων εκπαίδευσης. Κύριος σκοπός είναι, με τoν συνδυασμό ήδη υπαρχόντων μοντέλων, την σωστή προ-επεξεργασία των δεδομένων εισόδου και την επιλογή κατάλληλης μεθόδου διανυσματοποίησης, η επίτευξη υψηλής ακρίβειας πρόβλεψης. Τα αποτελέσματα της έρευνας δείχνουν ότι με την κατάλληλη μεθοδολογία, ένα μοντέλο μηχανικής μάθησης μπορεί να πετύχει πολύ καλές επιδόσεις, κάποιες φορές καλύτερες και από «προχωρημένες» ή περίπλοκες τεχνικές, με χαμηλότερο κόστος σε χρόνο και πόρους. The evolution of technology and internet increased the ease of access to information and their spreading. The era of information is actually the era of disinformation, with fake news being a scourge and without a way of mass check and prevention. A weapon against them is found in a branch of computer science, that of artificial intelligence, which provided numerous choices of trainable models, as well as glossology which helps in optimizing input data processing in the above models, and as a result their performance. In the context of this thesis, an effort will be made, to develop a model that provides the best possible performance and that will be able to separate real from fake news. At first, the terminology of fake news and natural language processing are talked about. Subsequently, some basic machine learning models are presented, along with 3 multiple model methods. Afterwards, there is a reference to the data, regarding their form, the procedure of preprocessing and saving them. Before models get their inputs, since they can’t understand text, but numbers, there is a vectorization process done in 3 ways. The 6 classifiers which are used, before getting combined, they undergo an exhaustive search with the purpose of finding suitable hyperparameters in order to achieve optimal performance in every way of vectorization. Finally, 3 stacked models are created that are called to predict on a new dataset and after interpreting various metric scores, the most accurate is chosen. An, already built, neural network using a different approach is put next to the most accurate model with the purpose of comparing their accuracies and training times. Main objective is, after combining already existing models, the most suitable way of input data preprocessing and the choice of the best vectorization method, to achieve high predictive accuracy. The results of this thesis indicate that with the appropriate methodology, a machine learning model can achieve very good performance, sometimes better than sophisticated or complex techniques, with lower cost in time and resources. 2023-07-06T06:27:53Z 2023-07-06T06:27:53Z 2023-03-07 https://hdl.handle.net/10889/25372 el application/pdf