Επεξεργασία φυσικής γλώσσας
Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15740 |
id |
nemertes-10889-15740 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Επεξεργασία φυσικής γλώσσας Αναγνώρηση μέρους του λόγου Διακριτοποίηση Αφαίρεση τερματικών όρων Στελέχωση Λημματοποίηση Πίνακας συν-εμφάνισης Μηχανική μάθηση Νευρωνικά Δίκτυα Ανάλυση συναισθημάτων Ανίχνευση σαρκασμού σε κείμενο Ανάκτηση πληροφορίας Μηχανική μετάφραση Natural language processing Parts-of-speech tagging Tokenization Stop words Stemming Lemmatization One hot encoding CountVectorizer N-Grams Co-occurrence matrix Hash vectorizing TF-IDF Word2vec Machine learning Artificial neural networks Sentiment analysis Sarcasm detection Information retrieval Machine translation Chatbots |
spellingShingle |
Επεξεργασία φυσικής γλώσσας Αναγνώρηση μέρους του λόγου Διακριτοποίηση Αφαίρεση τερματικών όρων Στελέχωση Λημματοποίηση Πίνακας συν-εμφάνισης Μηχανική μάθηση Νευρωνικά Δίκτυα Ανάλυση συναισθημάτων Ανίχνευση σαρκασμού σε κείμενο Ανάκτηση πληροφορίας Μηχανική μετάφραση Natural language processing Parts-of-speech tagging Tokenization Stop words Stemming Lemmatization One hot encoding CountVectorizer N-Grams Co-occurrence matrix Hash vectorizing TF-IDF Word2vec Machine learning Artificial neural networks Sentiment analysis Sarcasm detection Information retrieval Machine translation Chatbots Δελατόλας, Γεώργιος Επεξεργασία φυσικής γλώσσας |
description |
Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη.
Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦΓ αλλά και τους λόγους για τους οποίους είναι χρήσιμη η εκμάθησή της. Επίσης, αναφέρουμε τους παράγοντες τους οποίους καθιστούν την ΕΦΓ δύσκολη και εξηγούμε τον τρόπο με τον οποίο δουλεύει η ΕΦΓ, παρουσιάζοντας ενδεικτικά διάφορες τεχνικές που χρησιμοποιούνται για την ερμηνεία της ανθρώπινης γλώσσας. Επιπλέον, παραθέτουμε μία σύντομη ιστορική αναδρομή, προκειμένου να έχουμε εικόνα για το πώς δημιουργήθηκε αυτός ο τομέας αλλά και για να δούμε την εξέλιξη και την πρόοδο που επιτεύχθηκε σε αυτόν ανά τους αιώνες.
Στο δεύτερο κεφάλαιο ασχολούμαστε με την προεπεξεργασία δεδομένων. Πιο συγκεκριμένα, αναφέρουμε μερικά βασικά βήματα προεπεξεργασίας κειμένου τα οποία ακολου-θούνται στις περισσότερες από τις εφαρμογές της ΕΦΓ. Έτσι, περιγράφονται αναλυτικά μερικές απλές αλλά και βασικές εργασίες που πρέπει να ακολουθηθούν μετά την απόκτηση ενός κειμένου προτού αυτό δοθεί σε κάποιο μοντέλο για εκπαίδευση.
Στο κεφάλαιο τρία παρουσιάζουμε διάφορες μεθόδους αλλά και τρόπους, με τους οποίους μπορούμε να μετατρέψουμε το κείμενο σε μορφή κατάλληλα αναγνώσιμη από τον υπολογιστή. Αυτή η διαδικασία θα μπορούσαμε να πούμε ότι αποτελεί θεμέλιο στην ΕΦΓ καθώς οι υπολογιστές δεν μπορούν να κατανοήσουν, χαρακτήρες, λέξεις ή προτάσεις. Ως είσοδό τους δέχονται μόνο αριθμούς, οι οποίοι μπορεί να είναι δυαδικά ψηφία.
Το τέταρτο κεφάλαιο αποτελεί ένα θεωρητικό κεφάλαιο. Σε αυτό, γίνεται μία εισαγωγή στην Μηχανική Μάθηση, στα Νευρωνικά Δίκτυα και παραθέτονται ορισμένα επιπλέον βήματα προεπεξεργασίας των δεδομένων, τα οποία απαιτούνται για την εκπαίδευση μοντέλων Μηχανικής Μάθησης.
Το πέμπτο κεφάλαιο είναι αφιερωμένο στις εφαρμογές της ΕΦΓ. Σε αυτό το κεφάλαιο εφαρμόζουμε όλη τη μάθηση από τα προηγούμενα κεφάλαια και λαμβάνουμε μία εικόνα για το τι είδους εφαρμογές μπορούν να αναπτυχθούν, αξιοποιώντας τα Νευρωνικά Δίκτυα αλλά και τεχνικές Μηχανικής Μάθησης. Αναφέρουμε μερικές από τις δημοφιλέστερες εφαρμογές της ΕΦΓ και ανάμεσα σε αυτές εστιάζουμε την προσοχή μας σε μία εφαρμογή για την ανίχνευση σαρκασμού σε κείμενο.
Τέλος, συνοψίσουμε όσα έχουμε αναφέρει για την ΕΦΓ και μιλάμε για το μέλλον της ΕΦΓ στην Επιστήμη των Δεδομένων. Αναφερόμαστε σε κάποιες κύριες προκλήσεις που αντιμετωπίζονται αλλά και στα πολλά οφέλη που σχετίζονται με τον τομέα αυτόν. |
author2 |
Delatolas, Georgios |
author_facet |
Delatolas, Georgios Δελατόλας, Γεώργιος |
author |
Δελατόλας, Γεώργιος |
author_sort |
Δελατόλας, Γεώργιος |
title |
Επεξεργασία φυσικής γλώσσας |
title_short |
Επεξεργασία φυσικής γλώσσας |
title_full |
Επεξεργασία φυσικής γλώσσας |
title_fullStr |
Επεξεργασία φυσικής γλώσσας |
title_full_unstemmed |
Επεξεργασία φυσικής γλώσσας |
title_sort |
επεξεργασία φυσικής γλώσσας |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/15740 |
work_keys_str_mv |
AT delatolasgeōrgios epexergasiaphysikēsglōssas AT delatolasgeōrgios naturallanguageprocessing |
_version_ |
1799945003379720192 |
spelling |
nemertes-10889-157402022-09-06T05:14:31Z Επεξεργασία φυσικής γλώσσας Natural language processing Δελατόλας, Γεώργιος Delatolas, Georgios Επεξεργασία φυσικής γλώσσας Αναγνώρηση μέρους του λόγου Διακριτοποίηση Αφαίρεση τερματικών όρων Στελέχωση Λημματοποίηση Πίνακας συν-εμφάνισης Μηχανική μάθηση Νευρωνικά Δίκτυα Ανάλυση συναισθημάτων Ανίχνευση σαρκασμού σε κείμενο Ανάκτηση πληροφορίας Μηχανική μετάφραση Natural language processing Parts-of-speech tagging Tokenization Stop words Stemming Lemmatization One hot encoding CountVectorizer N-Grams Co-occurrence matrix Hash vectorizing TF-IDF Word2vec Machine learning Artificial neural networks Sentiment analysis Sarcasm detection Information retrieval Machine translation Chatbots Στην παρούσα διπλωματική εργασία ασχολούμαστε με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) ο οποίος τα τελευταία χρόνια έχει γνωρίσει ραγδαία ανάπτυξη και εξέλιξη. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο παραθέτουμε εισαγωγικές έννοιες και όρους αναφορικά με την ΕΦΓ. Δίνουμε τον ορισμό της ΕΦΓ αλλά και τους λόγους για τους οποίους είναι χρήσιμη η εκμάθησή της. Επίσης, αναφέρουμε τους παράγοντες τους οποίους καθιστούν την ΕΦΓ δύσκολη και εξηγούμε τον τρόπο με τον οποίο δουλεύει η ΕΦΓ, παρουσιάζοντας ενδεικτικά διάφορες τεχνικές που χρησιμοποιούνται για την ερμηνεία της ανθρώπινης γλώσσας. Επιπλέον, παραθέτουμε μία σύντομη ιστορική αναδρομή, προκειμένου να έχουμε εικόνα για το πώς δημιουργήθηκε αυτός ο τομέας αλλά και για να δούμε την εξέλιξη και την πρόοδο που επιτεύχθηκε σε αυτόν ανά τους αιώνες. Στο δεύτερο κεφάλαιο ασχολούμαστε με την προεπεξεργασία δεδομένων. Πιο συγκεκριμένα, αναφέρουμε μερικά βασικά βήματα προεπεξεργασίας κειμένου τα οποία ακολου-θούνται στις περισσότερες από τις εφαρμογές της ΕΦΓ. Έτσι, περιγράφονται αναλυτικά μερικές απλές αλλά και βασικές εργασίες που πρέπει να ακολουθηθούν μετά την απόκτηση ενός κειμένου προτού αυτό δοθεί σε κάποιο μοντέλο για εκπαίδευση. Στο κεφάλαιο τρία παρουσιάζουμε διάφορες μεθόδους αλλά και τρόπους, με τους οποίους μπορούμε να μετατρέψουμε το κείμενο σε μορφή κατάλληλα αναγνώσιμη από τον υπολογιστή. Αυτή η διαδικασία θα μπορούσαμε να πούμε ότι αποτελεί θεμέλιο στην ΕΦΓ καθώς οι υπολογιστές δεν μπορούν να κατανοήσουν, χαρακτήρες, λέξεις ή προτάσεις. Ως είσοδό τους δέχονται μόνο αριθμούς, οι οποίοι μπορεί να είναι δυαδικά ψηφία. Το τέταρτο κεφάλαιο αποτελεί ένα θεωρητικό κεφάλαιο. Σε αυτό, γίνεται μία εισαγωγή στην Μηχανική Μάθηση, στα Νευρωνικά Δίκτυα και παραθέτονται ορισμένα επιπλέον βήματα προεπεξεργασίας των δεδομένων, τα οποία απαιτούνται για την εκπαίδευση μοντέλων Μηχανικής Μάθησης. Το πέμπτο κεφάλαιο είναι αφιερωμένο στις εφαρμογές της ΕΦΓ. Σε αυτό το κεφάλαιο εφαρμόζουμε όλη τη μάθηση από τα προηγούμενα κεφάλαια και λαμβάνουμε μία εικόνα για το τι είδους εφαρμογές μπορούν να αναπτυχθούν, αξιοποιώντας τα Νευρωνικά Δίκτυα αλλά και τεχνικές Μηχανικής Μάθησης. Αναφέρουμε μερικές από τις δημοφιλέστερες εφαρμογές της ΕΦΓ και ανάμεσα σε αυτές εστιάζουμε την προσοχή μας σε μία εφαρμογή για την ανίχνευση σαρκασμού σε κείμενο. Τέλος, συνοψίσουμε όσα έχουμε αναφέρει για την ΕΦΓ και μιλάμε για το μέλλον της ΕΦΓ στην Επιστήμη των Δεδομένων. Αναφερόμαστε σε κάποιες κύριες προκλήσεις που αντιμετωπίζονται αλλά και στα πολλά οφέλη που σχετίζονται με τον τομέα αυτόν. In the present dissertation, we deal with the field of Natural Language Processing (NLP) which in recent years has experienced rapid growth and development. More specifically in the first chapter, we quote introductory concepts and terms regarding the NLP. We quote the definition of NLP and state the reasons why it is useful to learn it. We also list the factors that make the NLP difficult and explain how the NLP works, by indicating various techniques used to interpret human language. Also, we provide a brief historical background to have an idea of how this sector was created and see the evolution and progress that has been achieved in it, over the centuries. In the second chapter, we deal with data preprocessing. More specifically, we mention some basic word processing steps that are followed in most of the applications of NLP. Thus, some simple and basic tasks that need to be followed after obtaining a text before it is given to a model for training are described in detail. Chapter three describes various methods and ways in which we can convert the text into a format that can be read by the computer. This process could be said to be the foundation of the NLP, as computers cannot comprehend characters, words, or sentences. They only accept numbers as input, which can be bits. The fourth chapter is a theoretical chapter in which an introduction is made to Ma-chine Learning, Neural Networks, and some additional steps of data processing, which are required for the training of Machine Learning models, are mentioned. The fifth chapter is dedicated to the applications of NLP. In this chapter we apply all the learning from the previous chapters and get an idea of what kind of applications can be developed, utilizing the Neural Networks and Machine Learning techniques. We mention some of the most popular applications of NLP and among them, we focus our attention especially on an application for detecting sarcasm in text. Finally, we summarize what we have said about the NLP and talk about the future of the NLP in Data Science. We mention some of the main challenges that are faced but also many benefits related to this area. 2022-01-26T12:10:08Z 2022-01-26T12:10:08Z 2021-01-26 http://hdl.handle.net/10889/15740 gr application/pdf |