Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange

Η παρούσα διπλωματική εργασία πραγματεύεται τις εφαρμογές της μηχανικής μάθησης για την αναγνώριση και κατηγοριοποίηση κειμένων. Οι εξελίξεις στον τομέα της μηχανικής μάθησης και γενικά στον τομέα της τεχνητής νοημοσύνης και της επιστήμης δεδομένων είναι σημαντικές και επιτρέπουν μεταξύ άλλων την αυ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Πράσινος, Παναγιώτης
Άλλοι συγγραφείς: Prasinos, Panagiotis
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15961
id nemertes-10889-15961
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Μηχανική μάθηση
Εξόρυξη δεδομένων
Machine learning
Text mining
spellingShingle Μηχανική μάθηση
Εξόρυξη δεδομένων
Machine learning
Text mining
Πράσινος, Παναγιώτης
Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
description Η παρούσα διπλωματική εργασία πραγματεύεται τις εφαρμογές της μηχανικής μάθησης για την αναγνώριση και κατηγοριοποίηση κειμένων. Οι εξελίξεις στον τομέα της μηχανικής μάθησης και γενικά στον τομέα της τεχνητής νοημοσύνης και της επιστήμης δεδομένων είναι σημαντικές και επιτρέπουν μεταξύ άλλων την αυτόματη επεξεργασία μεγάλου όγκου δεδομένων, είτε αυτά αφορούν σε εικόνες, βίντεο , ήχο είτε αφορούν σε κείμενα και την εξαγωγή πολύτιμων πληροφοριών από αυτά. Η μηχανική μάθηση επιτρέπει την αναγνώριση μοτίβων, την αναγνώριση του περιεχομένου και την κατηγοριοποίηση των δεδομένων με τέτοιο τρόπο που μπορεί να παρουσιάζει μεγάλο ενδιαφέρον για τον ερευνητή. Έτσι η επεξεργασία δεδομένων γίνεται πολύ ταχύτερα,κάτι το οποίο μπορεί να ωφελήσει τόσο ερευνητικούς σκοπούς όσο και σκοπούς σε διάφορους τομείς της ζωής όπως η μηχανική, η οικονομία, η ιατρική, η ασφάλεια κ.α. Στην παρούσα διπλωματική εργασία πραγματοποιήθηκε ενδελεχής ανασκόπηση της βιβλιογραφίας όσον αφορά την μηχανική μάθηση και την εξόρυξη δεδομένων από κείμενα.Μετά εστιάσαμε στην ανάλυση πιο συγκεκριμένων κατηγοριών.Πρόκειται για κάποιες τεχνικές οι οποίες έιναι ιδιαιτέρως χρήσιμες σε ένα ευρύ φάσμα διαδικασιών που αφορούν την ταξινόμηση , την επεξεργασία και γενικά την άντληση πληροφοριών από κείμενα. Οι τεχνικές που προαναφέρθηκαν μπορούν να εφαρμοστούν με πολλούς και διαφορετικούς τρόπους.Υπάρχουν αρκετά λογισμικά τα οποία μπορούν με ποικίλους τρόπους να εμφανίσουν εξίσου καλά αποτελέσματα, αντίστοιχα με αυτά που παίρνουμε με τη δημιουργία κώδικα γραμμένου σε μία γλώσσα προγραμματισμού όπως python , c++ κ.τ.λ. Ένα από τα λογισμικά που δεν απαιτούν την ιδιαίτερη γνώση κάποιας γλώσσας προγραμματισμού είναι το Orange. Είναι μία ανοιχτή πηγή οπτικοποίησης δεδομένων και χρησιμοποιήθηκε σε αυτή τη διπλωματική για να εφαρμοστούν στην πράξη οι τεχνικές που ειπώθηκαν πιο πάνω .Δημιουργήσαμε ένα μοντέλο για κάθε περίπτωση που εξετάζουμε , το οποίο μπορεί να δεχθεί ως είσοδο κείμενα σε διάφορες μορφές . Αυτά ,όμως, θα τα δούμε αναλυτικά στη συνέχεια.Σε αυτό το σημείο πρέπει να πούμε ότι γίνεται αναφορά και σε άλλα λογισμικά ,παρόμοια με το Orange ,τα οποία μπορούν να επιδείξουν εξίσου καλή εφαρμογή σε παρόμοιες διαδικασίες.
author2 Prasinos, Panagiotis
author_facet Prasinos, Panagiotis
Πράσινος, Παναγιώτης
author Πράσινος, Παναγιώτης
author_sort Πράσινος, Παναγιώτης
title Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
title_short Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
title_full Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
title_fullStr Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
title_full_unstemmed Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange
title_sort εξόρυξη κειμένων με τη χρήση του λογισμικού orange
publishDate 2022
url http://hdl.handle.net/10889/15961
work_keys_str_mv AT prasinospanagiōtēs exoryxēkeimenōnmetēchrēsētoulogismikouorange
AT prasinospanagiōtēs textminingusingtheorangetool
_version_ 1771297174962831360
spelling nemertes-10889-159612022-09-05T06:58:45Z Εξόρυξη κειμένων με τη χρήση του λογισμικού Orange Text mining using the Orange tool Πράσινος, Παναγιώτης Prasinos, Panagiotis Μηχανική μάθηση Εξόρυξη δεδομένων Machine learning Text mining Η παρούσα διπλωματική εργασία πραγματεύεται τις εφαρμογές της μηχανικής μάθησης για την αναγνώριση και κατηγοριοποίηση κειμένων. Οι εξελίξεις στον τομέα της μηχανικής μάθησης και γενικά στον τομέα της τεχνητής νοημοσύνης και της επιστήμης δεδομένων είναι σημαντικές και επιτρέπουν μεταξύ άλλων την αυτόματη επεξεργασία μεγάλου όγκου δεδομένων, είτε αυτά αφορούν σε εικόνες, βίντεο , ήχο είτε αφορούν σε κείμενα και την εξαγωγή πολύτιμων πληροφοριών από αυτά. Η μηχανική μάθηση επιτρέπει την αναγνώριση μοτίβων, την αναγνώριση του περιεχομένου και την κατηγοριοποίηση των δεδομένων με τέτοιο τρόπο που μπορεί να παρουσιάζει μεγάλο ενδιαφέρον για τον ερευνητή. Έτσι η επεξεργασία δεδομένων γίνεται πολύ ταχύτερα,κάτι το οποίο μπορεί να ωφελήσει τόσο ερευνητικούς σκοπούς όσο και σκοπούς σε διάφορους τομείς της ζωής όπως η μηχανική, η οικονομία, η ιατρική, η ασφάλεια κ.α. Στην παρούσα διπλωματική εργασία πραγματοποιήθηκε ενδελεχής ανασκόπηση της βιβλιογραφίας όσον αφορά την μηχανική μάθηση και την εξόρυξη δεδομένων από κείμενα.Μετά εστιάσαμε στην ανάλυση πιο συγκεκριμένων κατηγοριών.Πρόκειται για κάποιες τεχνικές οι οποίες έιναι ιδιαιτέρως χρήσιμες σε ένα ευρύ φάσμα διαδικασιών που αφορούν την ταξινόμηση , την επεξεργασία και γενικά την άντληση πληροφοριών από κείμενα. Οι τεχνικές που προαναφέρθηκαν μπορούν να εφαρμοστούν με πολλούς και διαφορετικούς τρόπους.Υπάρχουν αρκετά λογισμικά τα οποία μπορούν με ποικίλους τρόπους να εμφανίσουν εξίσου καλά αποτελέσματα, αντίστοιχα με αυτά που παίρνουμε με τη δημιουργία κώδικα γραμμένου σε μία γλώσσα προγραμματισμού όπως python , c++ κ.τ.λ. Ένα από τα λογισμικά που δεν απαιτούν την ιδιαίτερη γνώση κάποιας γλώσσας προγραμματισμού είναι το Orange. Είναι μία ανοιχτή πηγή οπτικοποίησης δεδομένων και χρησιμοποιήθηκε σε αυτή τη διπλωματική για να εφαρμοστούν στην πράξη οι τεχνικές που ειπώθηκαν πιο πάνω .Δημιουργήσαμε ένα μοντέλο για κάθε περίπτωση που εξετάζουμε , το οποίο μπορεί να δεχθεί ως είσοδο κείμενα σε διάφορες μορφές . Αυτά ,όμως, θα τα δούμε αναλυτικά στη συνέχεια.Σε αυτό το σημείο πρέπει να πούμε ότι γίνεται αναφορά και σε άλλα λογισμικά ,παρόμοια με το Orange ,τα οποία μπορούν να επιδείξουν εξίσου καλή εφαρμογή σε παρόμοιες διαδικασίες. This thesis deals with the applications of machine learning for text recognition and text classification. The development in the field of machine learning and in the field of artificial intelligence and data science is significant and allow, among other things, the automatic processing of large volumes of data, whether they relate to images, videos, audio or texts and extract some valuable information from them. Machine learning allows the recognition of patterns, the recognition of content and the classification of data in such a way that may be of great interest to the researcher. So , data processing is done much faster, something that can benefit research purposes and purposes in various areas of life such as engineering, economics, medicine, security, etc. In this work we carried out a thorough review of the literature on machine learning and data mining .Then, we focused on the analysis of more specific categories. These are some techniques that are particularly useful in a wide range of procedures related to classification, processing and generally extracting information from texts. The techniques that mentioned above can be applied in many different ways. There are several softwares that can show good results in a variety of ways, corresponding to what we get by creating code written in a programming language such as python, c ++, e.t.c. One of the software that does not require special knowledge of a programming language is Orange . It is an open source of data visualization and was used in this thesis to do the practical application of the techniques that mentioned above. We have created a model for each case we were considering , which can accept texts in several forms . We will see all these in detail later to this paper . At this moment we must say that we made a reference to other software , similar to Orange , which can show just as good application to similar processes . 2022-03-10T10:39:03Z 2022-03-10T10:39:03Z 2022-03-09 http://hdl.handle.net/10889/15961 gr application/pdf application/pdf