Επεξεργασία φυσικής γλώσσας

Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Δελατόλας, Γεώργιος
Άλλοι συγγραφείς: Delatolas, Georgios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15740
id nemertes-10889-15740
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία φυσικής γλώσσας
Αναγνώρηση μέρους του λόγου
Διακριτοποίηση
Αφαίρεση τερματικών όρων
Στελέχωση
Λημματοποίηση
Πίνακας συν-εμφάνισης
Μηχανική μάθηση
Νευρωνικά Δίκτυα
Ανάλυση συναισθημάτων
Ανίχνευση σαρκασμού σε κείμενο
Ανάκτηση πληροφορίας
Μηχανική μετάφραση
Natural language processing
Parts-of-speech tagging
Tokenization
Stop words
Stemming
Lemmatization
One hot encoding
CountVectorizer
N-Grams
Co-occurrence matrix
Hash vectorizing
TF-IDF
Word2vec
Machine learning
Artificial neural networks
Sentiment analysis
Sarcasm detection
Information retrieval
Machine translation
Chatbots
spellingShingle Επεξεργασία φυσικής γλώσσας
Αναγνώρηση μέρους του λόγου
Διακριτοποίηση
Αφαίρεση τερματικών όρων
Στελέχωση
Λημματοποίηση
Πίνακας συν-εμφάνισης
Μηχανική μάθηση
Νευρωνικά Δίκτυα
Ανάλυση συναισθημάτων
Ανίχνευση σαρκασμού σε κείμενο
Ανάκτηση πληροφορίας
Μηχανική μετάφραση
Natural language processing
Parts-of-speech tagging
Tokenization
Stop words
Stemming
Lemmatization
One hot encoding
CountVectorizer
N-Grams
Co-occurrence matrix
Hash vectorizing
TF-IDF
Word2vec
Machine learning
Artificial neural networks
Sentiment analysis
Sarcasm detection
Information retrieval
Machine translation
Chatbots
Δελατόλας, Γεώργιος
Επεξεργασία φυσικής γλώσσας
description Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦΓ αλλά και τους λόγους για τους οποίους είναι χρήσιμη η εκμάθησή της. Επίσης, αναφέρουμε τους παράγοντες τους οποίους καθιστούν την ΕΦΓ δύσκολη και εξηγούμε τον τρόπο με τον οποίο δουλεύει η ΕΦΓ, παρουσιάζοντας ενδεικτικά διάφορες τεχνικές που χρησιμοποιούνται για την ερμηνεία της ανθρώπινης γλώσσας. Επιπλέον, παραθέτουμε μία σύντομη ιστορική αναδρομή, προκειμένου να έχουμε εικόνα για το πώς δημιουργήθηκε αυτός ο τομέας αλλά και για να δούμε την εξέλιξη και την πρόοδο που επιτεύχθηκε σε αυτόν ανά τους αιώνες. Στο δεύτερο κεφάλαιο ασχολούμαστε με την προεπεξεργασία δεδομένων. Πιο συγκεκριμένα, αναφέρουμε μερικά βασικά βήματα προεπεξεργασίας κειμένου τα οποία ακολου-θούνται στις περισσότερες από τις εφαρμογές της ΕΦΓ. Έτσι, περιγράφονται αναλυτικά μερικές απλές αλλά και βασικές εργασίες που πρέπει να ακολουθηθούν μετά την απόκτηση ενός κειμένου προτού αυτό δοθεί σε κάποιο μοντέλο για εκπαίδευση. Στο κεφάλαιο τρία παρουσιάζουμε διάφορες μεθόδους αλλά και τρόπους, με τους οποίους μπορούμε να μετατρέψουμε το κείμενο σε μορφή κατάλληλα αναγνώσιμη από τον υπολογιστή. Αυτή η διαδικασία θα μπορούσαμε να πούμε ότι αποτελεί θεμέλιο στην ΕΦΓ καθώς οι υπολογιστές δεν μπορούν να κατανοήσουν, χαρακτήρες, λέξεις ή προτάσεις. Ως είσοδό τους δέχονται μόνο αριθμούς, οι οποίοι μπορεί να είναι δυαδικά ψηφία. Το τέταρτο κεφάλαιο αποτελεί ένα θεωρητικό κεφάλαιο. Σε αυτό, γίνεται μία εισαγωγή στην Μηχανική Μάθηση, στα Νευρωνικά Δίκτυα και παραθέτονται ορισμένα επιπλέον βήματα προεπεξεργασίας των δεδομένων, τα οποία απαιτούνται για την εκπαίδευση μοντέλων Μηχανικής Μάθησης. Το πέμπτο κεφάλαιο είναι αφιερωμένο στις εφαρμογές της ΕΦΓ. Σε αυτό το κεφάλαιο εφαρμόζουμε όλη τη μάθηση από τα προηγούμενα κεφάλαια και λαμβάνουμε μία εικόνα για το τι είδους εφαρμογές μπορούν να αναπτυχθούν, αξιοποιώντας τα Νευρωνικά Δίκτυα αλλά και τεχνικές Μηχανικής Μάθησης. Αναφέρουμε μερικές από τις δημοφιλέστερες εφαρμογές της ΕΦΓ και ανάμεσα σε αυτές εστιάζουμε την προσοχή μας σε μία εφαρμογή για την ανίχνευση σαρκασμού σε κείμενο. Τέλος, συνοψίσουμε όσα έχουμε αναφέρει για την ΕΦΓ και μιλάμε για το μέλλον της ΕΦΓ στην Επιστήμη των Δεδομένων. Αναφερόμαστε σε κάποιες κύριες προκλήσεις που αντιμετωπίζονται αλλά και στα πολλά οφέλη που σχετίζονται με τον τομέα αυτόν.
author2 Delatolas, Georgios
author_facet Delatolas, Georgios
Δελατόλας, Γεώργιος
author Δελατόλας, Γεώργιος
author_sort Δελατόλας, Γεώργιος
title Επεξεργασία φυσικής γλώσσας
title_short Επεξεργασία φυσικής γλώσσας
title_full Επεξεργασία φυσικής γλώσσας
title_fullStr Επεξεργασία φυσικής γλώσσας
title_full_unstemmed Επεξεργασία φυσικής γλώσσας
title_sort επεξεργασία φυσικής γλώσσας
publishDate 2022
url http://hdl.handle.net/10889/15740
work_keys_str_mv AT delatolasgeōrgios epexergasiaphysikēsglōssas
AT delatolasgeōrgios naturallanguageprocessing
_version_ 1799945003379720192
spelling nemertes-10889-157402022-09-06T05:14:31Z Επεξεργασία φυσικής γλώσσας Natural language processing Δελατόλας, Γεώργιος Delatolas, Georgios Επεξεργασία φυσικής γλώσσας Αναγνώρηση μέρους του λόγου Διακριτοποίηση Αφαίρεση τερματικών όρων Στελέχωση Λημματοποίηση Πίνακας συν-εμφάνισης Μηχανική μάθηση Νευρωνικά Δίκτυα Ανάλυση συναισθημάτων Ανίχνευση σαρκασμού σε κείμενο Ανάκτηση πληροφορίας Μηχανική μετάφραση Natural language processing Parts-of-speech tagging Tokenization Stop words Stemming Lemmatization One hot encoding CountVectorizer N-Grams Co-occurrence matrix Hash vectorizing TF-IDF Word2vec Machine learning Artificial neural networks Sentiment analysis Sarcasm detection Information retrieval Machine translation Chatbots Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦΓ αλλά και τους λόγους για τους οποίους είναι χρήσιμη η εκμάθησή της. Επίσης, αναφέρουμε τους παράγοντες τους οποίους καθιστούν την ΕΦΓ δύσκολη και εξηγούμε τον τρόπο με τον οποίο δουλεύει η ΕΦΓ, παρουσιάζοντας ενδεικτικά διάφορες τεχνικές που χρησιμοποιούνται για την ερμηνεία της ανθρώπινης γλώσσας. Επιπλέον, παραθέτουμε μία σύντομη ιστορική αναδρομή, προκειμένου να έχουμε εικόνα για το πώς δημιουργήθηκε αυτός ο τομέας αλλά και για να δούμε την εξέλιξη και την πρόοδο που επιτεύχθηκε σε αυτόν ανά τους αιώνες. Στο δεύτερο κεφάλαιο ασχολούμαστε με την προεπεξεργασία δεδομένων. Πιο συγκεκριμένα, αναφέρουμε μερικά βασικά βήματα προεπεξεργασίας κειμένου τα οποία ακολου-θούνται στις περισσότερες από τις εφαρμογές της ΕΦΓ. Έτσι, περιγράφονται αναλυτικά μερικές απλές αλλά και βασικές εργασίες που πρέπει να ακολουθηθούν μετά την απόκτηση ενός κειμένου προτού αυτό δοθεί σε κάποιο μοντέλο για εκπαίδευση. Στο κεφάλαιο τρία παρουσιάζουμε διάφορες μεθόδους αλλά και τρόπους, με τους οποίους μπορούμε να μετατρέψουμε το κείμενο σε μορφή κατάλληλα αναγνώσιμη από τον υπολογιστή. Αυτή η διαδικασία θα μπορούσαμε να πούμε ότι αποτελεί θεμέλιο στην ΕΦΓ καθώς οι υπολογιστές δεν μπορούν να κατανοήσουν, χαρακτήρες, λέξεις ή προτάσεις. Ως είσοδό τους δέχονται μόνο αριθμούς, οι οποίοι μπορεί να είναι δυαδικά ψηφία. Το τέταρτο κεφάλαιο αποτελεί ένα θεωρητικό κεφάλαιο. Σε αυτό, γίνεται μία εισαγωγή στην Μηχανική Μάθηση, στα Νευρωνικά Δίκτυα και παραθέτονται ορισμένα επιπλέον βήματα προεπεξεργασίας των δεδομένων, τα οποία απαιτούνται για την εκπαίδευση μοντέλων Μηχανικής Μάθησης. Το πέμπτο κεφάλαιο είναι αφιερωμένο στις εφαρμογές της ΕΦΓ. Σε αυτό το κεφάλαιο εφαρμόζουμε όλη τη μάθηση από τα προηγούμενα κεφάλαια και λαμβάνουμε μία εικόνα για το τι είδους εφαρμογές μπορούν να αναπτυχθούν, αξιοποιώντας τα Νευρωνικά Δίκτυα αλλά και τεχνικές Μηχανικής Μάθησης. Αναφέρουμε μερικές από τις δημοφιλέστερες εφαρμογές της ΕΦΓ και ανάμεσα σε αυτές εστιάζουμε την προσοχή μας σε μία εφαρμογή για την ανίχνευση σαρκασμού σε κείμενο. Τέλος, συνοψίσουμε όσα έχουμε αναφέρει για την ΕΦΓ και μιλάμε για το μέλλον της ΕΦΓ στην Επιστήμη των Δεδομένων. Αναφερόμαστε σε κάποιες κύριες προκλήσεις που αντιμετωπίζονται αλλά και στα πολλά οφέλη που σχετίζονται με τον τομέα αυτόν. In the present dissertation, we deal with the field of Natural Language Processing (NLP) which in recent years has experienced rapid growth and development. More specifically in the first chapter, we quote introductory concepts and terms regarding the NLP. We quote the definition of NLP and state the reasons why it is useful to learn it. We also list the factors that make the NLP difficult and explain how the NLP works, by indicating various techniques used to interpret human language. Also, we provide a brief historical background to have an idea of how this sector was created and see the evolution and progress that has been achieved in it, over the centuries. In the second chapter, we deal with data preprocessing. More specifically, we mention some basic word processing steps that are followed in most of the applications of NLP. Thus, some simple and basic tasks that need to be followed after obtaining a text before it is given to a model for training are described in detail. Chapter three describes various methods and ways in which we can convert the text into a format that can be read by the computer. This process could be said to be the foundation of the NLP, as computers cannot comprehend characters, words, or sentences. They only accept numbers as input, which can be bits. The fourth chapter is a theoretical chapter in which an introduction is made to Ma-chine Learning, Neural Networks, and some additional steps of data processing, which are required for the training of Machine Learning models, are mentioned. The fifth chapter is dedicated to the applications of NLP. In this chapter we apply all the learning from the previous chapters and get an idea of what kind of applications can be developed, utilizing the Neural Networks and Machine Learning techniques. We mention some of the most popular applications of NLP and among them, we focus our attention especially on an application for detecting sarcasm in text. Finally, we summarize what we have said about the NLP and talk about the future of the NLP in Data Science. We mention some of the main challenges that are faced but also many benefits related to this area. 2022-01-26T12:10:08Z 2022-01-26T12:10:08Z 2021-01-26 http://hdl.handle.net/10889/15740 gr application/pdf