Επεξεργασία φυσικής γλώσσας

Τα μέσα κοινωνικής δικτύωσης δεν χρησιμοποιούνται πλέον μόνο ως εργαλείο επικοινωνίας από απόσταση, αλλά και ως πλατφόρμα που μπορείς να μοιράζεσαι και να ανταλλάζεις πληροφορίες. Ένα από τα μέσα κοινωνικής δικτύωσης είναι και το twitter, το οποίο είναι μια διαδικτυακή πλατφόρμα ενημέρωσης. Τα τρ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Κουλλόλλι, Άντζελα
Άλλοι συγγραφείς: Kullolli, Anxhela
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/24923
Περιγραφή
Περίληψη:Τα μέσα κοινωνικής δικτύωσης δεν χρησιμοποιούνται πλέον μόνο ως εργαλείο επικοινωνίας από απόσταση, αλλά και ως πλατφόρμα που μπορείς να μοιράζεσαι και να ανταλλάζεις πληροφορίες. Ένα από τα μέσα κοινωνικής δικτύωσης είναι και το twitter, το οποίο είναι μια διαδικτυακή πλατφόρμα ενημέρωσης. Τα τρέχοντα θέματα στο twitter περιέχουν σχόλια από τα οποία μπορούμε να αντλήσουμε τεράστια πληροφορία. Η παρούσα διπλωματική εργασία, λοιπόν, ασχολείται με τον κλάδο της τεχνητής νοημοσύνης που χρησιμοποιείται για την κατανόηση και τον χειρισμό κειμένου ή ομιλίας φυσικής γλώσσας, αυτόν της Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing - NLP). Η κατανόηση των πολύπλοκων δομών στη γλώσσα και η απόκτηση γνώσεων από αυτήν είναι ζωτικής σημασίας στην ανάπτυξη της τεχνητής νοημοσύνης. Οι εφαρμογές της Επεξεργασίας Φυσικής Γλώσσας περιλαμβάνουν τη μετάφραση, την ανάλυση συναισθημάτων, τις εφαρμογές αναζήτησης ιστού, την αυτοματοποίηση εξυπηρέτησης πελατών, την ταξινόμηση κειμένων, τον εντοπισμό θεμάτων σε ένα κείμενο, τη μοντελοποίηση γλώσσας και ούτω καθεξής. Η σημασιολογική ανάλυση της διπλωματικής επικεντρώνεται στην ανάλυση κείμενου, η οποία απεικονίζεται με παραδείγματα και επεξεργάζεται με το λογισμικό Orange. Το λογισμικό Orange στην παρούσα ανάλυση, χρησιμοποιείται για τον χειρισμό κειμένων και συμβολοσειρών, τον μετασχηματισμό τους με διάφορες μεθόδους και την ανάλυσή τους με επιβλεπόμενες και μη επιβλεπόμενες στατιστικές μεθόδους και μεθόδους μηχανικής μάθησης. Το πρώτο βήμα της διπλωματικής εργασίας είναι η εξόρυξη δεδομένων μέσω του λογισμικού Orange Data Mining και η προ-επεξεργασία του κειμένου. Το στάδιο αυτό περιλαμβάνει τον μετασχηματισμό, την τυποποίηση, την κανονικοποίηση και το φιλτράρισμα που αποσκοπεί στο να καταστεί το κείμενο δυνατό να αναλυθεί. Στη συνέχεια, μέσω της ανάλυσης συναισθήματος και με την χρήση δύo μεθόδων μοντελοποίησης θεμάτων (Ανάλυση Λανθάνουσας Σημασιολογίας και Λανθάνουσα Κατανομή Dirichlet) στο twitter, μπορούμε να κατανοήσουμε πώς οι άνθρωποι περιγράφουν και εκφράζουν τις αντιλήψεις τους για ένα θέμα. Οι αντιλήψεις τους για τα θέματα που θα συζητηθούν θα χαρακτηριστούν ως θετικές, αρνητικές και ουδέτερες. Η ανάλυση αυτή είναι σημαντική για να διαπιστωθεί ο βαθμός στον οποίο τα μέσα κοινωνικής δικτύωσης, όπως το twitter, χρησιμοποιούνται σήμερα από το κοινό ως μέσο διάδοσης δημόσιων πληροφοριών. Τέλος, πραγματοποιείται μια ανάλυση σε δεδομένα tweets, ώστε να ανιχνευτεί η χρήση προσβλητικών σχολίων και κάθε άλλης μορφής έκφρασης που διαδίδει, υποκινεί, προωθεί ή δικαιολογεί το ρατσιστικό μίσος, την ξενοφοβία, τον αντισημιτισμό ή άλλες μορφές μίσους σε ένα κείμενο.