Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας
Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες. Ορισμένοι...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2021
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/15402 |
id |
nemertes-10889-15402 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-154022022-09-05T05:38:06Z Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας Usage of BERT transformers for hate and irony speech detection Δράκος Γαλάνης, Δημήτριος Drakos Galanis, Dimitrios Μηχανική μάθηση Ανίχνευση ρητορικής μίσους Ανίχνευση ειρωνικού λόγου BERT Transformers Machine learning Hate speech detection Irony speech detection Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες. Ορισμένοι χρήστες κάνουν κακή χρήση αυτών των πλατφόρμων για να μοιράζονται προσβλητική και ρητορική μίσους που στοχεύει συγκεκριμένα άτομα ή κοινότητες. Επιθετικές λέξεις, καταχρηστική γλώσσα ή ρητορική μίσους χρησιμοποιούνται για να βλάψουν την ταυτότητα μιας ομάδας ή ενός ατόμου με τρόπο που θα μπορούσε να προωθήσει τη βία, με άλλα λόγια κλιμάκωση από ομιλία σε δράση. Άλλοι χρήστες τείνουν να εκφράζουν ειρωνεία μέσω των κειμένων τους. Ένα κείμενο είναι ειρωνικό όταν το νόημα είναι διαφορετικό από αυτό που εκφράζεται στην επιφάνεια. Αυτό γίνεται συνήθως για να τραβήξει την προσοχή των αναγνωστών και να σκεφτεί τη δήλωση. Επομένως, είναι ένας σημαντικός προσανατολισμός να δημιουργηθεί ένας τρόπος προστασίας για τους χρήστες για να αποφευχθεί η επίτευξη αυτών των επιθέσεων. Τέτοια εργασία θα μπορούσε να γίνει χειροκίνητα από τον άνθρωπο, αλλά η ποσότητα του περιεχομένου είναι πολύ μεγάλη καθιστώντας αυτή την εργασία χρονοβόρα. Επομένως, είναι καλή ιδέα να δημιουργήσουμε ένα ταξινομητή που να προσδιορίζει τη ρητορική μίσους και να ξεχωρίζει μεταξύ της αποδεκτής ομιλίας και όχι. Επίσης, δημιουργoύμε ένα ταξινομητή που προσδιορίζει τον ειρωνικό λόγο και τραβάει τη διαχωριστική γραμμή μεταξύ του ειρωνικού ή όχι. Αυτό μπορεί να βοηθήσει σε εργασίες που πρέπει να γίνει διάκριση μεταξύ αληθούς και ψευδούς πρόθεσης, όπως η συναισθηματική ανάλυση (sentimental analysis). Τα δύο προτεινόμενα μοντέλα χρησιμοποιούν μηχανισμό προσοχής (attention mechanism) πάνω από το BERT για να αποκτήσουν σχετική σημασία των λέξεων, ακολουθούμενα από Fully-Connected layers, και ένα τελικό επίπεδο ταξινόμησης(classification) για κάθε στόχο, η οποία προβλέπει την τάξη. People use the internet today to freely communicate their ideas and opinions and share their lives with other people (e.g. social media). The anonymity plays an important factor to the range of what can be shared in these platforms. Some users misuse these platforms to share offensive and hate speech that is targeted toward specific persons or communities. Aggressive words, abusive language, or hate-speech is used to harm a group or person’s identity in a way that could promote violence, in other words escalation from speech to action. Other users tend to express irony through their texts. A text is ironic when it’s meaning is different than it expresses on the surface. This is usually done to catch the reader’s attention and think about the said statement. Therefore, it is an important aspect to create a protection barrier for users in other to prevent these attacks from reaching them. Such work could be done manually by humans, but the amount of content is too big making this task time consuming. Therefore, it is a good idea to build a model that identifies hate speech and draws the line between what’s acceptable speech and not. Also, we create a model that identifies ironic speech and draws the line between what’s ironic or not. This can help in tasks that need to discriminate between true and false intent such as sentimental analysis. The two proposed models use attention mechanism over BERT to get relative importance of words, followed by Fully-Connected layers, and a final classification layer for each sub-task, which predicts the class. 2021-10-20T05:47:35Z 2021-10-20T05:47:35Z 2021-10-19 http://hdl.handle.net/10889/15402 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Ανίχνευση ρητορικής μίσους Ανίχνευση ειρωνικού λόγου BERT Transformers Machine learning Hate speech detection Irony speech detection |
spellingShingle |
Μηχανική μάθηση Ανίχνευση ρητορικής μίσους Ανίχνευση ειρωνικού λόγου BERT Transformers Machine learning Hate speech detection Irony speech detection Δράκος Γαλάνης, Δημήτριος Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
description |
Οι άνθρωποι χρησιμοποιούν το Διαδίκτυο σήμερα για να επικοινωνήσουν ελεύθερα τις ιδέες και τις απόψεις τους και να μοιραστούν τη ζωή τους με άλλα άτομα (π.χ. μέσα κοινωνικής δικτύωσης). Η ανωνυμία παίζει σημαντικό παράγοντα για το εύρος του τι μπορεί να μοιραστεί σε αυτές τις πλατφόρμες.
Ορισμένοι χρήστες κάνουν κακή χρήση αυτών των πλατφόρμων για να μοιράζονται προσβλητική και ρητορική μίσους που στοχεύει συγκεκριμένα άτομα ή κοινότητες. Επιθετικές λέξεις, καταχρηστική γλώσσα ή ρητορική μίσους χρησιμοποιούνται για να βλάψουν την ταυτότητα μιας ομάδας ή ενός ατόμου με τρόπο που θα μπορούσε να προωθήσει τη βία, με άλλα λόγια κλιμάκωση από ομιλία σε δράση.
Άλλοι χρήστες τείνουν να εκφράζουν ειρωνεία μέσω των κειμένων τους. Ένα κείμενο είναι ειρωνικό όταν το νόημα είναι διαφορετικό από αυτό που εκφράζεται στην επιφάνεια. Αυτό γίνεται συνήθως για να τραβήξει την προσοχή των αναγνωστών και να σκεφτεί τη δήλωση.
Επομένως, είναι ένας σημαντικός προσανατολισμός να δημιουργηθεί ένας τρόπος προστασίας για τους χρήστες για να αποφευχθεί η επίτευξη αυτών των επιθέσεων. Τέτοια εργασία θα μπορούσε να γίνει χειροκίνητα από τον άνθρωπο, αλλά η ποσότητα του περιεχομένου είναι πολύ μεγάλη καθιστώντας αυτή την εργασία χρονοβόρα. Επομένως, είναι καλή ιδέα να δημιουργήσουμε ένα ταξινομητή που να προσδιορίζει τη ρητορική μίσους και να ξεχωρίζει μεταξύ της αποδεκτής ομιλίας και όχι.
Επίσης, δημιουργoύμε ένα ταξινομητή που προσδιορίζει τον ειρωνικό λόγο και τραβάει τη διαχωριστική γραμμή μεταξύ του ειρωνικού ή όχι. Αυτό μπορεί να βοηθήσει σε εργασίες που πρέπει να γίνει διάκριση μεταξύ αληθούς και ψευδούς πρόθεσης, όπως η συναισθηματική ανάλυση (sentimental analysis).
Τα δύο προτεινόμενα μοντέλα χρησιμοποιούν μηχανισμό προσοχής (attention mechanism) πάνω από το BERT για να αποκτήσουν σχετική σημασία των λέξεων, ακολουθούμενα από Fully-Connected layers, και ένα τελικό επίπεδο ταξινόμησης(classification) για κάθε στόχο, η οποία προβλέπει την τάξη. |
author2 |
Drakos Galanis, Dimitrios |
author_facet |
Drakos Galanis, Dimitrios Δράκος Γαλάνης, Δημήτριος |
author |
Δράκος Γαλάνης, Δημήτριος |
author_sort |
Δράκος Γαλάνης, Δημήτριος |
title |
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
title_short |
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
title_full |
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
title_fullStr |
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
title_full_unstemmed |
Χρήση μετασχηματιστών BERT μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
title_sort |
χρήση μετασχηματιστών bert μηχανικής μάθησης για ανίχνευση κειμένου μίσους και ειρωνείας |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15402 |
work_keys_str_mv |
AT drakosgalanēsdēmētrios chrēsēmetaschēmatistōnbertmēchanikēsmathēsēsgiaanichneusēkeimenoumisouskaieirōneias AT drakosgalanēsdēmētrios usageofberttransformersforhateandironyspeechdetection |
_version_ |
1771297158174081024 |