Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης

Σε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μητρούλιας, Δημήτριος
Άλλοι συγγραφείς: Mitroulias, Dimitrios
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/13539
id nemertes-10889-13539
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Νομικά κείμενα
Μηχανική μάθηση
Ταξινόμηση πολλαπλών ετικετών
Εξόρυξη δεδομένων
Επεξεργασία φυσικής γλώσσας
Επιβλεπόμενη μάθηση
Legal text
Machine learning
Multi-label classification
Data mining
Natural language preprocessing
Supervised learning
spellingShingle Νομικά κείμενα
Μηχανική μάθηση
Ταξινόμηση πολλαπλών ετικετών
Εξόρυξη δεδομένων
Επεξεργασία φυσικής γλώσσας
Επιβλεπόμενη μάθηση
Legal text
Machine learning
Multi-label classification
Data mining
Natural language preprocessing
Supervised learning
Μητρούλιας, Δημήτριος
Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
description Σε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους αλλά και στον χρόνο ταξινόμησης τους με ένα πολύ εκτεταμένο σύνολο μη ισορροπημένων δεδομένων. Στον ιστότοπο του Νομικού Συμβουλίου ο αριθμός των κατηγοριών (λημμάτων) που έχουν επισημειωθεί από τους νομικούς συμβούλους είναι πολύ μεγάλος και αυθαίρετος. Το πρόβλημα που ανακύπτει είναι η δυσκολία ένταξης των νομικών κειμένων σε μονοσήμαντες ετικέτες εξαιτίας της ανισορροπίας του μεγάλου πλήθους λημμάτων. Στόχος της παρούσας διπλωματικής εργασίας είναι να συμβάλει στην ανάπτυξη μιας εφαρμογής αλλά και μοντέλων μηχανικής μάθησης που θα προσδιορίζουν αυτόματα πολλαπλές θεματικές κατηγορίες σε κείμενα γνωμοδοτήσεων του Νομικού Συμβουλίου του Κράτους. Αρχικά μελετήθηκε το περιβάλλον του ιστότοπου του Νομικού Συμβουλίου του Κράτους και η δομή ενός νομικού κειμένου, όπως είναι οι γνωμοδοτήσεις . Για τη δημιουργία των διανυσμάτων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστοτόπου του Νομικού Συμβουλίου και με τη βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν δεδομένα από το 1980 έως και σήμερα. Πραγματοποιήθηκε εξόρυξη (data scraping) 17451 εγγραφών. Στη συνέχεια πραγματοποιήθηκε η προεπεξεργασία των γνωμοδοτήσεων με χρήση λεκτικής ανάλυσης, και η επιλογή των χαρακτηριστικών διανυσμάτων εκπαίδευσης από το σώμα κειμένων των γνωμοδοτήσεων. Η τεχνική που χρησιμοποιείται κυρίως είναι η αντίστροφη συχνότητα εμφάνισης όρων (TFIDF) με χρήση NGRAMS και τα συνόλα λέξεων (Bag Of Words). Ο λόγος για τον οποίο οι λέξεις τερματικών όρων είναι κρίσιμες για πολλές εφαρμογές είναι ότι, εάν αφαιρέσουμε τις λέξεις που χρησιμοποιούνται πολύ συχνά σε μια δεδομένη γλώσσα, μπορούμε να επικεντρωθούμε στις σημαντικές λέξεις. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα αρκετών ταξινομητών, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης.
author2 Mitroulias, Dimitrios
author_facet Mitroulias, Dimitrios
Μητρούλιας, Δημήτριος
author Μητρούλιας, Δημήτριος
author_sort Μητρούλιας, Δημήτριος
title Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
title_short Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
title_full Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
title_fullStr Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
title_full_unstemmed Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
title_sort ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης
publishDate 2020
url http://hdl.handle.net/10889/13539
work_keys_str_mv AT mētrouliasdēmētrios taxinomēsēnomothetikōnkeimenōnmechrēsēepiblepomenēsmēchanikēsmathēsēs
AT mētrouliasdēmētrios classificationoflegaltextsusingsupervisedmachinelearningtechniques
_version_ 1771297336776982528
spelling nemertes-10889-135392022-09-05T20:16:09Z Ταξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησης Classification of legal texts using supervised machine learning techniques Μητρούλιας, Δημήτριος Mitroulias, Dimitrios Νομικά κείμενα Μηχανική μάθηση Ταξινόμηση πολλαπλών ετικετών Εξόρυξη δεδομένων Επεξεργασία φυσικής γλώσσας Επιβλεπόμενη μάθηση Legal text Machine learning Multi-label classification Data mining Natural language preprocessing Supervised learning Σε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους αλλά και στον χρόνο ταξινόμησης τους με ένα πολύ εκτεταμένο σύνολο μη ισορροπημένων δεδομένων. Στον ιστότοπο του Νομικού Συμβουλίου ο αριθμός των κατηγοριών (λημμάτων) που έχουν επισημειωθεί από τους νομικούς συμβούλους είναι πολύ μεγάλος και αυθαίρετος. Το πρόβλημα που ανακύπτει είναι η δυσκολία ένταξης των νομικών κειμένων σε μονοσήμαντες ετικέτες εξαιτίας της ανισορροπίας του μεγάλου πλήθους λημμάτων. Στόχος της παρούσας διπλωματικής εργασίας είναι να συμβάλει στην ανάπτυξη μιας εφαρμογής αλλά και μοντέλων μηχανικής μάθησης που θα προσδιορίζουν αυτόματα πολλαπλές θεματικές κατηγορίες σε κείμενα γνωμοδοτήσεων του Νομικού Συμβουλίου του Κράτους. Αρχικά μελετήθηκε το περιβάλλον του ιστότοπου του Νομικού Συμβουλίου του Κράτους και η δομή ενός νομικού κειμένου, όπως είναι οι γνωμοδοτήσεις . Για τη δημιουργία των διανυσμάτων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστοτόπου του Νομικού Συμβουλίου και με τη βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν δεδομένα από το 1980 έως και σήμερα. Πραγματοποιήθηκε εξόρυξη (data scraping) 17451 εγγραφών. Στη συνέχεια πραγματοποιήθηκε η προεπεξεργασία των γνωμοδοτήσεων με χρήση λεκτικής ανάλυσης, και η επιλογή των χαρακτηριστικών διανυσμάτων εκπαίδευσης από το σώμα κειμένων των γνωμοδοτήσεων. Η τεχνική που χρησιμοποιείται κυρίως είναι η αντίστροφη συχνότητα εμφάνισης όρων (TFIDF) με χρήση NGRAMS και τα συνόλα λέξεων (Bag Of Words). Ο λόγος για τον οποίο οι λέξεις τερματικών όρων είναι κρίσιμες για πολλές εφαρμογές είναι ότι, εάν αφαιρέσουμε τις λέξεις που χρησιμοποιούνται πολύ συχνά σε μια δεδομένη γλώσσα, μπορούμε να επικεντρωθούμε στις σημαντικές λέξεις. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα αρκετών ταξινομητών, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης. In many sorting applications the texts are associated with a set of thematic tags. A major problem with multiple tag sorting is their large number which may adversely affect the sorter’s predictive quality of labels, their training time and their sorting time with a very extensive set of unbalanced data. On the website of the Legal Council the number of categories (lemma/entries) identified by legal advisors is very large and arbitrary. The problem that arises is the difficulty of incorporating legal texts into unambiguous labels due to the imbalance of the large number of data. The aim of this thesis is to contribute to the development of an application and machine learning models that automatically identify multiple thematic categories in texts of opinions of the Legal Council of State. Initially the environment of the State Council of Law website and the structure of a legal text were studied, such opinions. The constraints that arise in the environment of the Legal Council website have been studied for the creation of training vectors and with the help of Python language programs, data was extracted from 1980 to the present. Carried extraction (data scraping) 17.450 entries. Pre-processing of the opinions was then carried out using verbal analysis, and selection of the characteristic training vectors by the body of opinion texts. The technique used mainly is the inverse terms frequency (TFIDF) using NGRAMS and word sets (Bag Of Words). The reason why the term words are critical for many applications is that if we remove the words that are used very often in a given language we can focus on the important words. Once measured and evaluated the effects of several sorters, the best performance-based sorters were selected in order to thoroughly investigate the effect of known mechanical learning techniques. 2020-07-12T13:16:36Z 2020-07-12T13:16:36Z 2020-05-01 http://hdl.handle.net/10889/13539 gr application/pdf