Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας

Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες. Ορισμένοι...

Full description

Bibliographic Details
Main Author: Δράκος Γαλάνης, Δημήτριος
Other Authors: Drakos Galanis, Dimitrios
Language:Greek
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/10889/15402
id nemertes-10889-15402
record_format dspace
spelling nemertes-10889-154022022-09-05T05:38:06Z Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας Usage of BERT transformers for hate and irony speech detection Δράκος Γαλάνης, Δημήτριος Drakos Galanis, Dimitrios Μηχανική μάθηση Ανίχνευση ρητορικής μίσους Ανίχνευση ειρωνικού λόγου BERT Transformers Machine learning Hate speech detection Irony speech detection Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες. Ορισμένοι χρήστες κάνουν κακή χρήση αυτών των πλατφόρμων για να μοιράζονται προσβλητική και ρητορική μίσους που στοχεύει συγκεκριμένα άτομα ή κοινότητες. Επιθετικές λέξεις, καταχρηστική γλώσσα ή ρητορική μίσους χρησιμοποιούνται για να βλάψουν την ταυτότητα μιας ομάδας ή ενός ατόμου με τρόπο που θα μπορούσε να προωθήσει τη βία, με άλλα λόγια κλιμάκωση από ομιλία σε δράση. Άλλοι χρήστες τείνουν να εκφράζουν ειρωνεία μέσω των κειμένων τους. Ένα κείμενο είναι ειρωνικό όταν το νόημα είναι διαφορετικό από αυτό που εκφράζεται στην επιφάνεια. Αυτό γίνεται συνήθως για να τραβήξει την προσοχή των αναγνωστών και να σκεφτεί τη δήλωση. Επομένως, είναι ένας σημαντικός προσανατολισμός να δημιουργηθεί ένας τρόπος προστασίας για τους χρήστες για να αποφευχθεί η επίτευξη αυτών των επιθέσεων. Τέτοια εργασία θα μπορούσε να γίνει χειροκίνητα από τον άνθρωπο, αλλά η ποσότητα του περιεχομένου είναι πολύ μεγάλη καθιστώντας αυτή την εργασία χρονοβόρα. Επομένως, είναι καλή ιδέα να δημιουργήσουμε ένα ταξινομητή που να προσδιορίζει τη ρητορική μίσους και να ξεχωρίζει μεταξύ της αποδεκτής ομιλίας και όχι. Επίσης, δημιουργoύμε ένα ταξινομητή που προσδιορίζει τον ειρωνικό λόγο και τραβάει τη διαχωριστική γραμμή μεταξύ του ειρωνικού ή όχι. Αυτό μπορεί να βοηθήσει σε εργασίες που πρέπει να γίνει διάκριση μεταξύ αληθούς και ψευδούς πρόθεσης, όπως η συναισθηματική ανάλυση (sentimental analysis). Τα δύο προτεινόμενα μοντέλα χρησιμοποιούν μηχανισμό προσοχής (attention mechanism) πάνω από το BERT για να αποκτήσουν σχετική σημασία των λέξεων, ακολουθούμενα από Fully-Connected layers, και ένα τελικό επίπεδο ταξινόμησης(classification) για κάθε στόχο, η οποία προβλέπει την τάξη. People use the internet today to freely communicate their ideas and opinions and share their lives with other people (e.g. social media). The anonymity plays an important factor to the range of what can be shared in these platforms. Some users misuse these platforms to share offensive and hate speech that is targeted toward specific persons or communities. Aggressive words, abusive language, or hate-speech is used to harm a group or person’s identity in a way that could promote violence, in other words escalation from speech to action. Other users tend to express irony through their texts. A text is ironic when it’s meaning is different than it expresses on the surface. This is usually done to catch the reader’s attention and think about the said statement. Therefore, it is an important aspect to create a protection barrier for users in other to prevent these attacks from reaching them. Such work could be done manually by humans, but the amount of content is too big making this task time consuming. Therefore, it is a good idea to build a model that identifies hate speech and draws the line between what’s acceptable speech and not. Also, we create a model that identifies ironic speech and draws the line between what’s ironic or not. This can help in tasks that need to discriminate between true and false intent such as sentimental analysis. The two proposed models use attention mechanism over BERT to get relative importance of words, followed by Fully-Connected layers, and a final classification layer for each sub-task, which predicts the class. 2021-10-20T05:47:35Z 2021-10-20T05:47:35Z 2021-10-19 http://hdl.handle.net/10889/15402 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Ανίχνευση ρητορικής μίσους
Ανίχνευση ειρωνικού λόγου
BERT
Transformers
Machine learning
Hate speech detection
Irony speech detection
spellingShingle Μηχανική μάθηση
Ανίχνευση ρητορικής μίσους
Ανίχνευση ειρωνικού λόγου
BERT
Transformers
Machine learning
Hate speech detection
Irony speech detection
Δράκος Γαλάνης, Δημήτριος
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
description Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες. Ορισμένοι χρήστες κάνουν κακή χρήση αυτών των πλατφόρμων για να μοιράζονται προσβλητική και ρητορική μίσους που στοχεύει συγκεκριμένα άτομα ή κοινότητες. Επιθετικές λέξεις, καταχρηστική γλώσσα ή ρητορική μίσους χρησιμοποιούνται για να βλάψουν την ταυτότητα μιας ομάδας ή ενός ατόμου με τρόπο που θα μπορούσε να προωθήσει τη βία, με άλλα λόγια κλιμάκωση από ομιλία σε δράση. Άλλοι χρήστες τείνουν να εκφράζουν ειρωνεία μέσω των κειμένων τους. Ένα κείμενο είναι ειρωνικό όταν το νόημα είναι διαφορετικό από αυτό που εκφράζεται στην επιφάνεια. Αυτό γίνεται συνήθως για να τραβήξει την προσοχή των αναγνωστών και να σκεφτεί τη δήλωση. Επομένως, είναι ένας σημαντικός προσανατολισμός να δημιουργηθεί ένας τρόπος προστασίας για τους χρήστες για να αποφευχθεί η επίτευξη αυτών των επιθέσεων. Τέτοια εργασία θα μπορούσε να γίνει χειροκίνητα από τον άνθρωπο, αλλά η ποσότητα του περιεχομένου είναι πολύ μεγάλη καθιστώντας αυτή την εργασία χρονοβόρα. Επομένως, είναι καλή ιδέα να δημιουργήσουμε ένα ταξινομητή που να προσδιορίζει τη ρητορική μίσους και να ξεχωρίζει μεταξύ της αποδεκτής ομιλίας και όχι. Επίσης, δημιουργoύμε ένα ταξινομητή που προσδιορίζει τον ειρωνικό λόγο και τραβάει τη διαχωριστική γραμμή μεταξύ του ειρωνικού ή όχι. Αυτό μπορεί να βοηθήσει σε εργασίες που πρέπει να γίνει διάκριση μεταξύ αληθούς και ψευδούς πρόθεσης, όπως η συναισθηματική ανάλυση (sentimental analysis). Τα δύο προτεινόμενα μοντέλα χρησιμοποιούν μηχανισμό προσοχής (attention mechanism) πάνω από το BERT για να αποκτήσουν σχετική σημασία των λέξεων, ακολουθούμενα από Fully-Connected layers, και ένα τελικό επίπεδο ταξινόμησης(classification) για κάθε στόχο, η οποία προβλέπει την τάξη.
author2 Drakos Galanis, Dimitrios
author_facet Drakos Galanis, Dimitrios
Δράκος Γαλάνης, Δημήτριος
author Δράκος Γαλάνης, Δημήτριος
author_sort Δράκος Γαλάνης, Δημήτριος
title Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
title_short Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
title_full Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
title_fullStr Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
title_full_unstemmed Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
title_sort χρήση μετασχηματιστών bert μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
publishDate 2021
url http://hdl.handle.net/10889/15402
work_keys_str_mv AT drakosgalanēsdēmētrios chrēsēmetaschēmatistōnbertmēchanikēsmathēsēsgiaanichneusēkeimenoumisouskaieirōneias
AT drakosgalanēsdēmētrios usageofberttransformersforhateandironyspeechdetection
_version_ 1771297158174081024