Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας

Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχ...

Full description

Bibliographic Details
Main Author: Παπασαράντου, Αθανασία
Other Authors: Papasarantou, Athanasia
Language:Greek
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/10889/15312
id nemertes-10889-15312
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Κυβερνοασφάλεια
Αυτόματη εξαγωγή πληροφοριών
Cybersecurity
Automatic information extraction
Convolutional neural network (CNN)
spellingShingle Κυβερνοασφάλεια
Αυτόματη εξαγωγή πληροφοριών
Cybersecurity
Automatic information extraction
Convolutional neural network (CNN)
Παπασαράντου, Αθανασία
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
description Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχώνευσης πληροφοριών σε μαζική κλίμακα και τις προκλήσεις. Καθορίσαμε τις απαιτήσεις και τις πιθανές λύσεις για διάφορες διαστάσεις για την εκτέλεση της σύντηξης πληροφοριών. Η αυτόματη εξαγωγή πληροφοριών παρέχει διαφορετική προοπτική κατά την οποία η συλλογή πραγματοποιείται στο πλαίσιο πολλών αβεβαιοτήτων και θορύβου. Αυτή η νέα εργασία παρέχει συνδέσεις μεταξύ της μεθόδου NLP (Neuro-linguistic programming) και άλλων τομέων όπως η εξόρυξη δεδομένων. Η παρούσα Διπλωματική Εργασία συνεισφέρει προς αυτήν την κατεύθυνση διερευνώντας ορισμένους αλγορίθμους ταξινόμησης και τη λειτουργία τους. Αρχικά, γίνεται επεξεργασία μη δομημένων δεδομένων που αντλήθηκαν από εκθέσεις κυβερνοασφάλειας σε μορφή pdf. Στη συνέχεια, επιχειρείται η εφαρμογή αλγορίθμων ταξινόμησης και ακολουθεί η μελέτη των αποτελεσμάτων. Η εργασία εστιάζει σε τέσσερις αλγορίθμους ομαδοποίησης. Στην εποπτευόμενη μέθοδο ταξινόμησης, Decision Tree, που χρησιμοποιεί ένα σύνολο εκπαίδευσης για να δημιουργήσει κανόνες ταξινόμησης που έιναι οργανωμένοι ως μονοπάτια σε ένα δέντρο. Ακολουθεί ο ταξινομητής Naive Bayes που είναι μια πιθανοτική προσέγγιση για την επίλυση τέτοιου είδους προβλημάτων. Στην συνέχεια έιναι ο ταξινομητής Μηχανής Διανυσμάτων Υποστήριξης (Support Vector Machine, SVM) ο οποίος αποτελεί ένα γραμμικό μοντέλο ταξινόμησης διανυσματικού χώρου. Τέλος εφαρμόζουμε ένα συνελικτικό νευρωνικό δίκτυο (convolutional neural network, CNN) το οποίο βασίζεται στην αρχιτεκτονική κοινού βάρους των πυρήνων ή φίλτρων συστροφής που ολισθαίνουν κατά μήκος των χαρακτηριστικών εισόδου και παρέχουν ισοδύναμες αποκρίσεις μετάφρασης γνωστές ως χάρτες χαρακτηριστικών. Τα αποτελέσματα προκύπτουν μέσα από μία σειρά πειραμάτων και ακολουθεί η αξιολόγησή τους και η καταγραφή συμπερασμάτων. Εν κατακλείδι, δεδομένου των παρατηρήσεων και των συμπερασμάτων προτείνεται ένα πρότυπο έκθεσης κυβερνοασφάλειας που εμπεριέχουν όλες τις χρήσιμες πληροφορίες που μπορούν να οδηγήσουν στην εξόρυξη πολύτιμων δεδομένων σχετικά με τις απειλές που έχουν υπάρξει, υπάρχουν και θα συνεχίζουν να υπάρχουν.
author2 Papasarantou, Athanasia
author_facet Papasarantou, Athanasia
Παπασαράντου, Αθανασία
author Παπασαράντου, Αθανασία
author_sort Παπασαράντου, Αθανασία
title Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
title_short Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
title_full Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
title_fullStr Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
title_full_unstemmed Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
title_sort αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
publishDate 2021
url http://hdl.handle.net/10889/15312
work_keys_str_mv AT papasarantouathanasia automatēexagōgēplērophoriōnapoektheseiskybernoasphaleias
AT papasarantouathanasia automateddataextractionfromcybersecurityreports
_version_ 1771297210046087168
spelling nemertes-10889-153122022-09-05T11:16:19Z Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας Automated data extraction from cybersecurity reports Παπασαράντου, Αθανασία Papasarantou, Athanasia Κυβερνοασφάλεια Αυτόματη εξαγωγή πληροφοριών Cybersecurity Automatic information extraction Convolutional neural network (CNN) Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχώνευσης πληροφοριών σε μαζική κλίμακα και τις προκλήσεις. Καθορίσαμε τις απαιτήσεις και τις πιθανές λύσεις για διάφορες διαστάσεις για την εκτέλεση της σύντηξης πληροφοριών. Η αυτόματη εξαγωγή πληροφοριών παρέχει διαφορετική προοπτική κατά την οποία η συλλογή πραγματοποιείται στο πλαίσιο πολλών αβεβαιοτήτων και θορύβου. Αυτή η νέα εργασία παρέχει συνδέσεις μεταξύ της μεθόδου NLP (Neuro-linguistic programming) και άλλων τομέων όπως η εξόρυξη δεδομένων. Η παρούσα Διπλωματική Εργασία συνεισφέρει προς αυτήν την κατεύθυνση διερευνώντας ορισμένους αλγορίθμους ταξινόμησης και τη λειτουργία τους. Αρχικά, γίνεται επεξεργασία μη δομημένων δεδομένων που αντλήθηκαν από εκθέσεις κυβερνοασφάλειας σε μορφή pdf. Στη συνέχεια, επιχειρείται η εφαρμογή αλγορίθμων ταξινόμησης και ακολουθεί η μελέτη των αποτελεσμάτων. Η εργασία εστιάζει σε τέσσερις αλγορίθμους ομαδοποίησης. Στην εποπτευόμενη μέθοδο ταξινόμησης, Decision Tree, που χρησιμοποιεί ένα σύνολο εκπαίδευσης για να δημιουργήσει κανόνες ταξινόμησης που έιναι οργανωμένοι ως μονοπάτια σε ένα δέντρο. Ακολουθεί ο ταξινομητής Naive Bayes που είναι μια πιθανοτική προσέγγιση για την επίλυση τέτοιου είδους προβλημάτων. Στην συνέχεια έιναι ο ταξινομητής Μηχανής Διανυσμάτων Υποστήριξης (Support Vector Machine, SVM) ο οποίος αποτελεί ένα γραμμικό μοντέλο ταξινόμησης διανυσματικού χώρου. Τέλος εφαρμόζουμε ένα συνελικτικό νευρωνικό δίκτυο (convolutional neural network, CNN) το οποίο βασίζεται στην αρχιτεκτονική κοινού βάρους των πυρήνων ή φίλτρων συστροφής που ολισθαίνουν κατά μήκος των χαρακτηριστικών εισόδου και παρέχουν ισοδύναμες αποκρίσεις μετάφρασης γνωστές ως χάρτες χαρακτηριστικών. Τα αποτελέσματα προκύπτουν μέσα από μία σειρά πειραμάτων και ακολουθεί η αξιολόγησή τους και η καταγραφή συμπερασμάτων. Εν κατακλείδι, δεδομένου των παρατηρήσεων και των συμπερασμάτων προτείνεται ένα πρότυπο έκθεσης κυβερνοασφάλειας που εμπεριέχουν όλες τις χρήσιμες πληροφορίες που μπορούν να οδηγήσουν στην εξόρυξη πολύτιμων δεδομένων σχετικά με τις απειλές που έχουν υπάρξει, υπάρχουν και θα συνεχίζουν να υπάρχουν. In the era of information explosion, Data Mining technology faces new challenges with heterogeneous data sources and media that can contain a variety of information and particular entities, relationships and events. This dissertation explores the issues of mass information merging and the challenges that we must face. We have defined the requirements and possible solutions for various dimensions for performing information extraction. The automatic extraction of information provides a different perspective in which the collection takes place in the context of many uncertainties and noise. This new work shows the relationship between NLP (Neuro-linguistic programming) and other areas such as data mining. This Thesis contributes in this direction by exploring some classification algorithms and their operation. Initially, unstructured data extracted from cybersecurity reports. Then, we attempt the application of classification algorithms and the study of the results.The work focuses on four grouping algorithms. In the supervised classification method, Decision Tree, which uses a set of training to create classification rules that are organized as paths in a tree. Then the Naive Bayes classifier which is a probabilistic approach to solving such problems. In addition, the Support Vector Machine (SVM) classifier which is a linear vector space classification model. Finally we apply a convolutional neural network (CNN) which is based on the common weight architecture of cores or twist filters that slide along the input features and provide equivalent translation responses known as feature maps. The results are obtained through a series of experiments followed by their evaluation. In conclusion, given the observations and conclusions, a cyber security report template is proposed that contains all the useful information that can lead to the extraction of valuable data on the threats that have existed, exist and will continue to exist. 2021-10-13T06:16:39Z 2021-10-13T06:16:39Z 2021-10-12 http://hdl.handle.net/10889/15312 gr application/pdf