Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση

Πολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που το...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ζάρρας, Δημήτριος
Άλλοι συγγραφείς: Zarras, Dimitrios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16540
id nemertes-10889-16540
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Ανάλυση φυσικής γλώσσας
Μηχανική μάθηση
Ανάλυση πολυγλωσσικού κειμένου
Πολυγλωσσικά κείμενα
Εξόρυξη πτυχών
Απόσταση levenshtein
Λανθάνουσα κατανομή dirichlet
Natural language processing
Machine learning
Multilingual text processing
Multilingual texts
Aspect mining
Tf-idf
Levenshtein distance
Latent dirichlet allocation
spellingShingle Ανάλυση φυσικής γλώσσας
Μηχανική μάθηση
Ανάλυση πολυγλωσσικού κειμένου
Πολυγλωσσικά κείμενα
Εξόρυξη πτυχών
Απόσταση levenshtein
Λανθάνουσα κατανομή dirichlet
Natural language processing
Machine learning
Multilingual text processing
Multilingual texts
Aspect mining
Tf-idf
Levenshtein distance
Latent dirichlet allocation
Ζάρρας, Δημήτριος
Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
description Πολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που τοποθετεί ο χρήστης στο σύστημα και προφανώς, η έξοδος είναι η εμφάνιση με τη μορφή ποσοστών του αριθμού των κριτηρίων που ταιριάζουν στο κριτήριο που ορίζει ο ερευνητής. Η εξέλιξη της Επεξεργασίας Φυσικής Γλώσσας (NLP), μαζί με τις εφαρμογές μεγάλου όγκου δεδομένων και η βελτίωση των αλγορίθμων NLP δημιουργούν νέες δυνατότητες αναζήτησης περιεχομένου σε ψηφιακά κείμενα. Οι λύσεις ΤΠΕ μπορούν να αναλύσουν περισσότερα δεδομένα που βασίζονται στη γλώσσα από ό,τι οι ίδιοι οι άνθρωποι. Λαμβάνοντας υπόψη τον τεράστιο όγκο αδόμητων δεδομένων που παράγονται καθημερινά, η αυτοματοποίηση θα είναι κρίσιμη για την αποτελεσματική ανάλυση του κειμένου σε βάθος. Ομοίως, η βαθιά μάθηση χρησιμοποιείται πλέον ευρέως για τη μοντελοποίηση της ανθρώπινης γλώσσας, ενώ, από την άλλη πλευρά, η ανάγκη για σημασιολογική κατανόηση δεν είναι απαραίτητα παρούσα σε αυτές τις προσεγγίσεις μηχανικής μάθησης. Το NLP διαδραματίζει ουσιαστικό ρόλο, καθώς βοηθά στην επίλυση της γλωσσικής ασάφειας και προσθέτει χρήσιμη αριθμητική δομή στα δεδομένα για πολλές μεταγενέστερες εφαρμογές, όπως η αναγνώριση ομιλίας ή η ανάλυση κειμένου. Αυτά τα κείμενα βρίσκονται στη βιβλιογραφία, σε επιστημονικές δημοσιεύσεις, σε ενημερωτικά φυλλάδια, σε ερωτηματολόγια κ.λπ. θα μπορούσαν να θεωρηθούν ως πληροφορίες μεγάλου όγκου δεδομένων, όπου οι ερευνητές πρέπει να έχουν τις πιο πρόσφατες πληροφορίες και να ενημερώνονται συνεχώς. Η αυξανόμενη υιοθέτηση, οι εξελισσόμενες και διαφορετικές μορφές ψηφιακών μορφών, καθώς και το μεγάλο ενδιαφέρον και ανάγκη για χρήση αυτών των δεδομένων, κατέστησαν σαφές ότι η ανάκτηση δεδομένων του αφηγηματικού κειμένου που περιέχεται στις ψηφιακές φόρμες και τη βιβλιογραφία είναι αναπόφευκτη. Ένα παράδειγμα είναι το NLP, επειδή οι ψηφιακές φόρμες περιέχουν απρόβλεπτη ποικιλία εισόδων που περιπλέκει τις κλασικές τεχνικές που εφαρμόζονται σε άλλες περιπτώσεις εξαγωγής κειμένου και δεδομένων. Ωστόσο, όλες οι προηγούμενες προσεγγίσεις βασίστηκαν στη λογική της αποθήκευσης και ανάκτησης δεδομένων εισόδου φύλου, παρέχοντας ουσιαστικά μια στατιστική απάντηση στο σύνολο των λέξεων για το φύλο που ταιριάζουν με τις λέξεις-κλειδιά που επιλέχθηκαν από τον ερευνητή από μια προεπιλεγμένη λίστα. Επιπλέον, το αποτέλεσμα κάθε εργαλείου είναι απλώς ένα δυνητικό φύλο που αντιστοιχεί σε ένα τμήμα επιλεγμένων λέξεων-κλειδιών. Στόχος της παρούσας εργασίας είναι η μελέτη τεχνικών εξόρυξης κειμένου και η ανάπτυξη εργαλείου για την ανάλυση των ποιοτικών χαρακτηριστικών σε πολυγλωσσικά δεδομένα που συλλέχθηκαν μέσω περισσότερων από 650.000 ερωτηματολογίων που υπήρχαν διαθέσιμα. Η έρευνα ακολούθησε μια διαδικασία ανάκτησης πληροφοριών που συγκεντρώνει την ποικιλία των εισροών των δεδομένων, τις μεταφράζει και με βάση την απόσταση που παρουσιάζει κάθε λήμμα από το στέλεχος της λέξης, αποφασίζει για το αποτέλεσμα.
author2 Zarras, Dimitrios
author_facet Zarras, Dimitrios
Ζάρρας, Δημήτριος
author Ζάρρας, Δημήτριος
author_sort Ζάρρας, Δημήτριος
title Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
title_short Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
title_full Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
title_fullStr Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
title_full_unstemmed Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
title_sort πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
publishDate 2022
url http://hdl.handle.net/10889/16540
work_keys_str_mv AT zarrasdēmētrios polyglōssikēanalysēphysikoulogoumemēchanikēmathēsē
AT zarrasdēmētrios multilingualnaturallanguageprocessingusingmachinelearning
_version_ 1771297306836992000
spelling nemertes-10889-165402022-09-05T20:32:22Z Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση Multilingual natural language processing using machine learning Ζάρρας, Δημήτριος Zarras, Dimitrios Ανάλυση φυσικής γλώσσας Μηχανική μάθηση Ανάλυση πολυγλωσσικού κειμένου Πολυγλωσσικά κείμενα Εξόρυξη πτυχών Απόσταση levenshtein Λανθάνουσα κατανομή dirichlet Natural language processing Machine learning Multilingual text processing Multilingual texts Aspect mining Tf-idf Levenshtein distance Latent dirichlet allocation Πολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που τοποθετεί ο χρήστης στο σύστημα και προφανώς, η έξοδος είναι η εμφάνιση με τη μορφή ποσοστών του αριθμού των κριτηρίων που ταιριάζουν στο κριτήριο που ορίζει ο ερευνητής. Η εξέλιξη της Επεξεργασίας Φυσικής Γλώσσας (NLP), μαζί με τις εφαρμογές μεγάλου όγκου δεδομένων και η βελτίωση των αλγορίθμων NLP δημιουργούν νέες δυνατότητες αναζήτησης περιεχομένου σε ψηφιακά κείμενα. Οι λύσεις ΤΠΕ μπορούν να αναλύσουν περισσότερα δεδομένα που βασίζονται στη γλώσσα από ό,τι οι ίδιοι οι άνθρωποι. Λαμβάνοντας υπόψη τον τεράστιο όγκο αδόμητων δεδομένων που παράγονται καθημερινά, η αυτοματοποίηση θα είναι κρίσιμη για την αποτελεσματική ανάλυση του κειμένου σε βάθος. Ομοίως, η βαθιά μάθηση χρησιμοποιείται πλέον ευρέως για τη μοντελοποίηση της ανθρώπινης γλώσσας, ενώ, από την άλλη πλευρά, η ανάγκη για σημασιολογική κατανόηση δεν είναι απαραίτητα παρούσα σε αυτές τις προσεγγίσεις μηχανικής μάθησης. Το NLP διαδραματίζει ουσιαστικό ρόλο, καθώς βοηθά στην επίλυση της γλωσσικής ασάφειας και προσθέτει χρήσιμη αριθμητική δομή στα δεδομένα για πολλές μεταγενέστερες εφαρμογές, όπως η αναγνώριση ομιλίας ή η ανάλυση κειμένου. Αυτά τα κείμενα βρίσκονται στη βιβλιογραφία, σε επιστημονικές δημοσιεύσεις, σε ενημερωτικά φυλλάδια, σε ερωτηματολόγια κ.λπ. θα μπορούσαν να θεωρηθούν ως πληροφορίες μεγάλου όγκου δεδομένων, όπου οι ερευνητές πρέπει να έχουν τις πιο πρόσφατες πληροφορίες και να ενημερώνονται συνεχώς. Η αυξανόμενη υιοθέτηση, οι εξελισσόμενες και διαφορετικές μορφές ψηφιακών μορφών, καθώς και το μεγάλο ενδιαφέρον και ανάγκη για χρήση αυτών των δεδομένων, κατέστησαν σαφές ότι η ανάκτηση δεδομένων του αφηγηματικού κειμένου που περιέχεται στις ψηφιακές φόρμες και τη βιβλιογραφία είναι αναπόφευκτη. Ένα παράδειγμα είναι το NLP, επειδή οι ψηφιακές φόρμες περιέχουν απρόβλεπτη ποικιλία εισόδων που περιπλέκει τις κλασικές τεχνικές που εφαρμόζονται σε άλλες περιπτώσεις εξαγωγής κειμένου και δεδομένων. Ωστόσο, όλες οι προηγούμενες προσεγγίσεις βασίστηκαν στη λογική της αποθήκευσης και ανάκτησης δεδομένων εισόδου φύλου, παρέχοντας ουσιαστικά μια στατιστική απάντηση στο σύνολο των λέξεων για το φύλο που ταιριάζουν με τις λέξεις-κλειδιά που επιλέχθηκαν από τον ερευνητή από μια προεπιλεγμένη λίστα. Επιπλέον, το αποτέλεσμα κάθε εργαλείου είναι απλώς ένα δυνητικό φύλο που αντιστοιχεί σε ένα τμήμα επιλεγμένων λέξεων-κλειδιών. Στόχος της παρούσας εργασίας είναι η μελέτη τεχνικών εξόρυξης κειμένου και η ανάπτυξη εργαλείου για την ανάλυση των ποιοτικών χαρακτηριστικών σε πολυγλωσσικά δεδομένα που συλλέχθηκαν μέσω περισσότερων από 650.000 ερωτηματολογίων που υπήρχαν διαθέσιμα. Η έρευνα ακολούθησε μια διαδικασία ανάκτησης πληροφοριών που συγκεντρώνει την ποικιλία των εισροών των δεδομένων, τις μεταφράζει και με βάση την απόσταση που παρουσιάζει κάθε λήμμα από το στέλεχος της λέξης, αποφασίζει για το αποτέλεσμα. Many Information and Communications Technology (ICT) tools promise to help and support the decision-making process on a specific dataset, taking into consideration the diversity of the dataset. The core logic of such tools is to match their input to a set of user-defined keywords, and their output is presented as the percentage of the number of criteria that match the criteria defined by the researcher. Progress in Natural Language Processing (NLP), alongside Big Data applications and the improvements of NLP algorithms, has created new capabilities in content mining of digital texts. ICT solutions can analyse more data, based on natural languages, than humans. Considering the huge number of unstructured data that is produced daily, automation is critical in the efficient deep analysis of texts. While on the one hand Deep Learning is widely used nowadays to model human language, on the other hand semantic understanding is not necessarily present in such machine-learning approaches. NLP plays a vital role in helping solve linguistic ambiguity and provides useful numeric structure to data that can be further exploited by applications such as speech recognition and text mining. Texts present in literature, whitepapers, brochures, questionaries, etc., could be considered Big Data for which researchers must be constantly updated and provided with the latest information available. The increasing adoption, the evolving and vast variety of digital media, the big interest and need to use such media, makes it clear that retrieval of text contained in such digital forms and literature is unavoidable. One such example is NLP, as digital forms can contain an unpredictable amount and variety of inputs that complicates classic techniques used in other cases of text and information mining. Previous approaches were based on the core logic of storing and retrieving gender data as input and producing a statistical analysis of the number of gender words that match a predefined list of keywords that have been chosen by the researcher. Furthermore, the output of each tool is a potential gender that matches part of the chosen keywords. This thesis aims to study text mining techniques and develop a tool to analyse the features of multilingual data that have been gathered from a dataset of over 650.000 available questionaries. The research followed a standard information retrieval process where the input data stream was gathered, transformed, and based on the distance of each lemma from the stem of a keyword a result was produced. 2022-07-18T05:46:40Z 2022-07-18T05:46:40Z 2022-07-07 http://hdl.handle.net/10889/16540 gr application/pdf