Περίληψη: | Σε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους αλλά και στον χρόνο ταξινόμησης τους με ένα πολύ εκτεταμένο σύνολο μη ισορροπημένων δεδομένων. Στον ιστότοπο του Νομικού Συμβουλίου ο αριθμός των κατηγοριών (λημμάτων) που έχουν επισημειωθεί από τους νομικούς συμβούλους είναι πολύ μεγάλος και αυθαίρετος. Το πρόβλημα που ανακύπτει είναι η δυσκολία ένταξης των νομικών κειμένων σε μονοσήμαντες ετικέτες εξαιτίας της ανισορροπίας του μεγάλου πλήθους λημμάτων.
Στόχος της παρούσας διπλωματικής εργασίας είναι να συμβάλει στην ανάπτυξη μιας εφαρμογής αλλά και μοντέλων μηχανικής μάθησης που θα προσδιορίζουν αυτόματα πολλαπλές θεματικές κατηγορίες σε κείμενα γνωμοδοτήσεων του Νομικού Συμβουλίου του Κράτους.
Αρχικά μελετήθηκε το περιβάλλον του ιστότοπου του Νομικού Συμβουλίου του Κράτους και η δομή ενός νομικού κειμένου, όπως είναι οι γνωμοδοτήσεις . Για τη δημιουργία των διανυσμάτων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστοτόπου του Νομικού Συμβουλίου και με τη βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν δεδομένα από το 1980 έως και σήμερα. Πραγματοποιήθηκε εξόρυξη (data scraping) 17451 εγγραφών.
Στη συνέχεια πραγματοποιήθηκε η προεπεξεργασία των γνωμοδοτήσεων με χρήση λεκτικής ανάλυσης, και η επιλογή των χαρακτηριστικών διανυσμάτων εκπαίδευσης από το σώμα κειμένων των γνωμοδοτήσεων. Η τεχνική που χρησιμοποιείται κυρίως είναι η αντίστροφη συχνότητα εμφάνισης όρων (TFIDF) με χρήση NGRAMS και τα συνόλα λέξεων (Bag Of Words). Ο λόγος για τον οποίο οι λέξεις τερματικών όρων είναι κρίσιμες για πολλές εφαρμογές είναι ότι, εάν αφαιρέσουμε τις λέξεις που χρησιμοποιούνται πολύ συχνά σε μια δεδομένη γλώσσα, μπορούμε να επικεντρωθούμε στις σημαντικές λέξεις. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα αρκετών ταξινομητών, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης.
|