Περίληψη: | Η παρούσα διπλωματική εργασία πραγματεύεται τις εφαρμογές της μηχανικής μάθησης για την αναγνώριση και κατηγοριοποίηση κειμένων. Οι εξελίξεις στον τομέα της μηχανικής μάθησης και γενικά στον τομέα της τεχνητής νοημοσύνης και της επιστήμης δεδομένων είναι σημαντικές και επιτρέπουν μεταξύ άλλων την αυτόματη επεξεργασία μεγάλου όγκου δεδομένων, είτε αυτά αφορούν σε εικόνες, βίντεο , ήχο είτε αφορούν σε κείμενα και την εξαγωγή πολύτιμων πληροφοριών από αυτά. Η μηχανική μάθηση επιτρέπει την αναγνώριση μοτίβων, την αναγνώριση του περιεχομένου και την κατηγοριοποίηση των δεδομένων με τέτοιο τρόπο που μπορεί να παρουσιάζει μεγάλο ενδιαφέρον για τον ερευνητή. Έτσι η επεξεργασία δεδομένων γίνεται πολύ ταχύτερα,κάτι το οποίο μπορεί να ωφελήσει τόσο ερευνητικούς σκοπούς όσο και σκοπούς σε διάφορους τομείς της ζωής όπως η μηχανική, η οικονομία, η ιατρική, η ασφάλεια κ.α.
Στην παρούσα διπλωματική εργασία πραγματοποιήθηκε ενδελεχής ανασκόπηση της βιβλιογραφίας όσον αφορά την μηχανική μάθηση και την εξόρυξη δεδομένων από κείμενα.Μετά εστιάσαμε στην ανάλυση πιο συγκεκριμένων κατηγοριών.Πρόκειται για κάποιες τεχνικές οι οποίες έιναι ιδιαιτέρως χρήσιμες σε ένα ευρύ φάσμα διαδικασιών που αφορούν την ταξινόμηση , την επεξεργασία και γενικά την άντληση πληροφοριών από κείμενα.
Οι τεχνικές που προαναφέρθηκαν μπορούν να εφαρμοστούν με πολλούς και διαφορετικούς τρόπους.Υπάρχουν αρκετά λογισμικά τα οποία μπορούν με ποικίλους τρόπους να εμφανίσουν εξίσου καλά αποτελέσματα, αντίστοιχα με αυτά που παίρνουμε με τη δημιουργία κώδικα γραμμένου σε μία γλώσσα προγραμματισμού όπως python , c++ κ.τ.λ.
Ένα από τα λογισμικά που δεν απαιτούν την ιδιαίτερη γνώση κάποιας γλώσσας προγραμματισμού είναι το Orange. Είναι μία ανοιχτή πηγή οπτικοποίησης δεδομένων και χρησιμοποιήθηκε σε αυτή τη διπλωματική για να εφαρμοστούν στην πράξη οι τεχνικές που ειπώθηκαν πιο πάνω .Δημιουργήσαμε ένα μοντέλο για κάθε περίπτωση που εξετάζουμε , το οποίο μπορεί να δεχθεί ως είσοδο κείμενα σε διάφορες μορφές . Αυτά ,όμως, θα τα δούμε αναλυτικά στη συνέχεια.Σε αυτό το σημείο πρέπει να πούμε ότι γίνεται αναφορά και σε άλλα λογισμικά ,παρόμοια με το Orange ,τα οποία μπορούν να επιδείξουν εξίσου καλή εφαρμογή σε παρόμοιες διαδικασίες.
|