Επεξεργασία φυσικής γλώσσας

Τα μέσα κοινωνικής δικτύωσης δεν χρησιμοποιούνται πλέον μόνο ως εργαλείο επικοινωνίας από απόσταση, αλλά και ως πλατφόρμα που μπορείς να μοιράζεσαι και να ανταλλάζεις πληροφορίες. Ένα από τα μέσα κοινωνικής δικτύωσης είναι και το twitter, το οποίο είναι μια διαδικτυακή πλατφόρμα ενημέρωσης. Τα τρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κουλλόλλι, Άντζελα
Άλλοι συγγραφείς: Kullolli, Anxhela
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24923
id nemertes-10889-24923
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία φυσικής γλώσσας
Λογισμικό Orange
Εξόρυξη δεδομένων
Οπτικοποίηση δεδομένων
Ανάλυση συναισθήματος
Ρητορική μίσους
Μέθοδος μοντελοποίησης θεμάτων
Natural language processing
Orange data mining
Data mining
Data visualization
Sentiment analysis
Topic modelling
Hate speech detection
spellingShingle Επεξεργασία φυσικής γλώσσας
Λογισμικό Orange
Εξόρυξη δεδομένων
Οπτικοποίηση δεδομένων
Ανάλυση συναισθήματος
Ρητορική μίσους
Μέθοδος μοντελοποίησης θεμάτων
Natural language processing
Orange data mining
Data mining
Data visualization
Sentiment analysis
Topic modelling
Hate speech detection
Κουλλόλλι, Άντζελα
Επεξεργασία φυσικής γλώσσας
description Τα μέσα κοινωνικής δικτύωσης δεν χρησιμοποιούνται πλέον μόνο ως εργαλείο επικοινωνίας από απόσταση, αλλά και ως πλατφόρμα που μπορείς να μοιράζεσαι και να ανταλλάζεις πληροφορίες. Ένα από τα μέσα κοινωνικής δικτύωσης είναι και το twitter, το οποίο είναι μια διαδικτυακή πλατφόρμα ενημέρωσης. Τα τρέχοντα θέματα στο twitter περιέχουν σχόλια από τα οποία μπορούμε να αντλήσουμε τεράστια πληροφορία. Η παρούσα διπλωματική εργασία, λοιπόν, ασχολείται με τον κλάδο της τεχνητής νοημοσύνης που χρησιμοποιείται για την κατανόηση και τον χειρισμό κειμένου ή ομιλίας φυσικής γλώσσας, αυτόν της Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing - NLP). Η κατανόηση των πολύπλοκων δομών στη γλώσσα και η απόκτηση γνώσεων από αυτήν είναι ζωτικής σημασίας στην ανάπτυξη της τεχνητής νοημοσύνης. Οι εφαρμογές της Επεξεργασίας Φυσικής Γλώσσας περιλαμβάνουν τη μετάφραση, την ανάλυση συναισθημάτων, τις εφαρμογές αναζήτησης ιστού, την αυτοματοποίηση εξυπηρέτησης πελατών, την ταξινόμηση κειμένων, τον εντοπισμό θεμάτων σε ένα κείμενο, τη μοντελοποίηση γλώσσας και ούτω καθεξής. Η σημασιολογική ανάλυση της διπλωματικής επικεντρώνεται στην ανάλυση κείμενου, η οποία απεικονίζεται με παραδείγματα και επεξεργάζεται με το λογισμικό Orange. Το λογισμικό Orange στην παρούσα ανάλυση, χρησιμοποιείται για τον χειρισμό κειμένων και συμβολοσειρών, τον μετασχηματισμό τους με διάφορες μεθόδους και την ανάλυσή τους με επιβλεπόμενες και μη επιβλεπόμενες στατιστικές μεθόδους και μεθόδους μηχανικής μάθησης. Το πρώτο βήμα της διπλωματικής εργασίας είναι η εξόρυξη δεδομένων μέσω του λογισμικού Orange Data Mining και η προ-επεξεργασία του κειμένου. Το στάδιο αυτό περιλαμβάνει τον μετασχηματισμό, την τυποποίηση, την κανονικοποίηση και το φιλτράρισμα που αποσκοπεί στο να καταστεί το κείμενο δυνατό να αναλυθεί. Στη συνέχεια, μέσω της ανάλυσης συναισθήματος και με την χρήση δύo μεθόδων μοντελοποίησης θεμάτων (Ανάλυση Λανθάνουσας Σημασιολογίας και Λανθάνουσα Κατανομή Dirichlet) στο twitter, μπορούμε να κατανοήσουμε πώς οι άνθρωποι περιγράφουν και εκφράζουν τις αντιλήψεις τους για ένα θέμα. Οι αντιλήψεις τους για τα θέματα που θα συζητηθούν θα χαρακτηριστούν ως θετικές, αρνητικές και ουδέτερες. Η ανάλυση αυτή είναι σημαντική για να διαπιστωθεί ο βαθμός στον οποίο τα μέσα κοινωνικής δικτύωσης, όπως το twitter, χρησιμοποιούνται σήμερα από το κοινό ως μέσο διάδοσης δημόσιων πληροφοριών. Τέλος, πραγματοποιείται μια ανάλυση σε δεδομένα tweets, ώστε να ανιχνευτεί η χρήση προσβλητικών σχολίων και κάθε άλλης μορφής έκφρασης που διαδίδει, υποκινεί, προωθεί ή δικαιολογεί το ρατσιστικό μίσος, την ξενοφοβία, τον αντισημιτισμό ή άλλες μορφές μίσους σε ένα κείμενο.
author2 Kullolli, Anxhela
author_facet Kullolli, Anxhela
Κουλλόλλι, Άντζελα
author Κουλλόλλι, Άντζελα
author_sort Κουλλόλλι, Άντζελα
title Επεξεργασία φυσικής γλώσσας
title_short Επεξεργασία φυσικής γλώσσας
title_full Επεξεργασία φυσικής γλώσσας
title_fullStr Επεξεργασία φυσικής γλώσσας
title_full_unstemmed Επεξεργασία φυσικής γλώσσας
title_sort επεξεργασία φυσικής γλώσσας
publishDate 2023
url https://hdl.handle.net/10889/24923
work_keys_str_mv AT koullolliantzela epexergasiaphysikēsglōssas
AT koullolliantzela naturallanguageprocessing
_version_ 1771297147516354560
spelling nemertes-10889-249232023-04-28T03:35:10Z Επεξεργασία φυσικής γλώσσας Natural language processing Κουλλόλλι, Άντζελα Kullolli, Anxhela Επεξεργασία φυσικής γλώσσας Λογισμικό Orange Εξόρυξη δεδομένων Οπτικοποίηση δεδομένων Ανάλυση συναισθήματος Ρητορική μίσους Μέθοδος μοντελοποίησης θεμάτων Natural language processing Orange data mining Data mining Data visualization Sentiment analysis Topic modelling Hate speech detection Τα μέσα κοινωνικής δικτύωσης δεν χρησιμοποιούνται πλέον μόνο ως εργαλείο επικοινωνίας από απόσταση, αλλά και ως πλατφόρμα που μπορείς να μοιράζεσαι και να ανταλλάζεις πληροφορίες. Ένα από τα μέσα κοινωνικής δικτύωσης είναι και το twitter, το οποίο είναι μια διαδικτυακή πλατφόρμα ενημέρωσης. Τα τρέχοντα θέματα στο twitter περιέχουν σχόλια από τα οποία μπορούμε να αντλήσουμε τεράστια πληροφορία. Η παρούσα διπλωματική εργασία, λοιπόν, ασχολείται με τον κλάδο της τεχνητής νοημοσύνης που χρησιμοποιείται για την κατανόηση και τον χειρισμό κειμένου ή ομιλίας φυσικής γλώσσας, αυτόν της Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing - NLP). Η κατανόηση των πολύπλοκων δομών στη γλώσσα και η απόκτηση γνώσεων από αυτήν είναι ζωτικής σημασίας στην ανάπτυξη της τεχνητής νοημοσύνης. Οι εφαρμογές της Επεξεργασίας Φυσικής Γλώσσας περιλαμβάνουν τη μετάφραση, την ανάλυση συναισθημάτων, τις εφαρμογές αναζήτησης ιστού, την αυτοματοποίηση εξυπηρέτησης πελατών, την ταξινόμηση κειμένων, τον εντοπισμό θεμάτων σε ένα κείμενο, τη μοντελοποίηση γλώσσας και ούτω καθεξής. Η σημασιολογική ανάλυση της διπλωματικής επικεντρώνεται στην ανάλυση κείμενου, η οποία απεικονίζεται με παραδείγματα και επεξεργάζεται με το λογισμικό Orange. Το λογισμικό Orange στην παρούσα ανάλυση, χρησιμοποιείται για τον χειρισμό κειμένων και συμβολοσειρών, τον μετασχηματισμό τους με διάφορες μεθόδους και την ανάλυσή τους με επιβλεπόμενες και μη επιβλεπόμενες στατιστικές μεθόδους και μεθόδους μηχανικής μάθησης. Το πρώτο βήμα της διπλωματικής εργασίας είναι η εξόρυξη δεδομένων μέσω του λογισμικού Orange Data Mining και η προ-επεξεργασία του κειμένου. Το στάδιο αυτό περιλαμβάνει τον μετασχηματισμό, την τυποποίηση, την κανονικοποίηση και το φιλτράρισμα που αποσκοπεί στο να καταστεί το κείμενο δυνατό να αναλυθεί. Στη συνέχεια, μέσω της ανάλυσης συναισθήματος και με την χρήση δύo μεθόδων μοντελοποίησης θεμάτων (Ανάλυση Λανθάνουσας Σημασιολογίας και Λανθάνουσα Κατανομή Dirichlet) στο twitter, μπορούμε να κατανοήσουμε πώς οι άνθρωποι περιγράφουν και εκφράζουν τις αντιλήψεις τους για ένα θέμα. Οι αντιλήψεις τους για τα θέματα που θα συζητηθούν θα χαρακτηριστούν ως θετικές, αρνητικές και ουδέτερες. Η ανάλυση αυτή είναι σημαντική για να διαπιστωθεί ο βαθμός στον οποίο τα μέσα κοινωνικής δικτύωσης, όπως το twitter, χρησιμοποιούνται σήμερα από το κοινό ως μέσο διάδοσης δημόσιων πληροφοριών. Τέλος, πραγματοποιείται μια ανάλυση σε δεδομένα tweets, ώστε να ανιχνευτεί η χρήση προσβλητικών σχολίων και κάθε άλλης μορφής έκφρασης που διαδίδει, υποκινεί, προωθεί ή δικαιολογεί το ρατσιστικό μίσος, την ξενοφοβία, τον αντισημιτισμό ή άλλες μορφές μίσους σε ένα κείμενο. Social media is no longer used not only as a tool for remote communication, but also as a platform where you can share and exchange information. One of the social media is twitter, which is an online information platform. Current topics on twitter contain comments from which we can draw a huge amount of information. This thesis, therefore, deals with the branch of artificial intelligence used to understand and manipulate natural language text or speech, that of Natural Language Processing (NLP). Understanding the complex structures in language and acquiring knowledge from it is crucial to the development of artificial intelligence. Applications of Natural Language Processing include translation, sentiment analysis, web search applications, customer service automation, text classification, identifying themes in a text, language modelling and so on. The semantic analysis of the thesis focuses on text analysis, which is illustrated with examples and processed with the Orange software. The Orange software in this analysis is used to manipulate texts and strings, transform them with different methods and analyze them with supervised and unsupervised statistical and machine learning methods. The first step of the thesis is data mining using Orange Data Mining software and pre processing of the text. This step includes transformation, standardization, normalization and filtering aimed at making the text analyzable. Then, through sentiment analysis and using two topic modeling methods (Latent Semantics Analysis and Latent Dirichlet Distribution) on twitter, we can understand how people describe and express their perceptions of a topic. Their perceptions of the topics discussed will be classified as positive, negative and neutral. This analysis is important to establish the extent to which social media, such as twitter, is currently used by the public as a means of disseminating public information. Finally, an analysis is carried out on tweets data to detect the use of offensive comments and any other form of expression that spreads, incites, promotes or justifies racist hatred, xenophobia, anti-Semitism or other forms of hatred in a text. 2023-04-27T09:35:17Z 2023-04-27T09:35:17Z 2023-03-09 https://hdl.handle.net/10889/24923 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf