Περίληψη: | Η καθημερινότητα μας βασίζεται σε δεδομένα, τα οποία τα χειριζόμαστε οι ίδιοι για να πάρουμε αποφάσεις είτε με την βοήθεια υπολογιστών είτε όχι. Ένα μεγάλο μέρος αυτών των δεδομένων είναι αριθμητικό, όμως με την πάροδο των χρόνων, γλωσσικά δεδομένα γίνονται όλο και πιο πολύτιμα, τόσο στην μελέτη τους όσο και στην εκμετάλλευση τους. Ένα τέτοιο ζήτημα καλείται να επιλύσει ο ταχεία ανελισσόμενος κλάδος της ταξινόμησης κειμένων. Πλέον ένα μοντέλο είναι σε θέση να γνωρίζει σε ένα δοσμένο κείμενο, το θέμα με το οποίο σχετίζεται, αρκεί το κείμενο να είναι αρκετά μεγάλο. Τι συμβαίνει όμως αν το κείμενο αποτελείται από μερικές προτάσεις, πόσο μάλλον από μερικές μόνο λέξεις;
Τα μέσα μαζικής δικτύωσης είναι αναπόσπαστο κομμάτι της καθημερινότητας μας. Και τα μέσα είναι γεμάτα από κείμενα μικρού μήκους που είναι σε μερικές περιπτώσεις δύσκολο να ταξινομηθούν. Στον τομέα της ανάλυσης δεδομένων, υπάρχει η τεχνική της επαύξησης σε περίπτωση ελλείπων δεδομένων. Σκοπός αυτής της έρευνας είναι η επαύξηση τέτοιων κειμένων για την βελτίωση της ταξινόμησης τους. Χρησιμοποιήθηκαν τεχνικές μείωσης διαστάσεων (Latent Semantic Analysis), η εκπαίδευση ενός πακέτου (Word2Vec) καθώς και η εφαρμογή εύρεσης θεμάτων (Latent Dirichlet Allocation). Μετά την απόκτηση των επαυξημένων κειμένων, έγινε χρήση αλγορίθμων μηχανικής και βαθιάς μάθησης για την ταξινόμηση των κειμένων αυτών.
|