Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας
Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχ...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2021
|
Subjects: | |
Online Access: | http://hdl.handle.net/10889/15312 |
id |
nemertes-10889-15312 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Κυβερνοασφάλεια Αυτόματη εξαγωγή πληροφοριών Cybersecurity Automatic information extraction Convolutional neural network (CNN) |
spellingShingle |
Κυβερνοασφάλεια Αυτόματη εξαγωγή πληροφοριών Cybersecurity Automatic information extraction Convolutional neural network (CNN) Παπασαράντου, Αθανασία Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
description |
Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχώνευσης πληροφοριών σε μαζική κλίμακα και τις προκλήσεις. Καθορίσαμε τις απαιτήσεις και τις πιθανές λύσεις για διάφορες διαστάσεις για την εκτέλεση της σύντηξης πληροφοριών. Η αυτόματη εξαγωγή πληροφοριών παρέχει διαφορετική προοπτική κατά την οποία η συλλογή πραγματοποιείται στο πλαίσιο πολλών αβεβαιοτήτων και θορύβου. Αυτή η νέα εργασία παρέχει συνδέσεις μεταξύ της μεθόδου NLP (Neuro-linguistic programming) και άλλων τομέων όπως η εξόρυξη δεδομένων.
Η παρούσα Διπλωματική Εργασία συνεισφέρει προς αυτήν την κατεύθυνση διερευνώντας ορισμένους αλγορίθμους ταξινόμησης και τη λειτουργία τους. Αρχικά, γίνεται επεξεργασία μη δομημένων δεδομένων που αντλήθηκαν από εκθέσεις κυβερνοασφάλειας σε μορφή pdf. Στη συνέχεια, επιχειρείται η εφαρμογή αλγορίθμων ταξινόμησης και ακολουθεί η μελέτη των αποτελεσμάτων.
Η εργασία εστιάζει σε τέσσερις αλγορίθμους ομαδοποίησης. Στην εποπτευόμενη μέθοδο ταξινόμησης, Decision Tree, που χρησιμοποιεί ένα σύνολο εκπαίδευσης για να δημιουργήσει κανόνες ταξινόμησης που έιναι οργανωμένοι ως μονοπάτια σε ένα δέντρο. Ακολουθεί ο ταξινομητής Naive Bayes που είναι μια πιθανοτική προσέγγιση για την επίλυση τέτοιου είδους προβλημάτων. Στην συνέχεια έιναι ο ταξινομητής Μηχανής Διανυσμάτων Υποστήριξης (Support Vector Machine, SVM) ο οποίος αποτελεί ένα γραμμικό μοντέλο ταξινόμησης διανυσματικού χώρου. Τέλος εφαρμόζουμε ένα συνελικτικό νευρωνικό δίκτυο (convolutional neural network, CNN) το οποίο βασίζεται στην αρχιτεκτονική κοινού βάρους των πυρήνων ή φίλτρων συστροφής που ολισθαίνουν κατά μήκος των χαρακτηριστικών εισόδου και παρέχουν ισοδύναμες αποκρίσεις μετάφρασης γνωστές ως χάρτες χαρακτηριστικών. Τα αποτελέσματα προκύπτουν μέσα από μία σειρά πειραμάτων και ακολουθεί η αξιολόγησή τους και η καταγραφή συμπερασμάτων.
Εν κατακλείδι, δεδομένου των παρατηρήσεων και των συμπερασμάτων προτείνεται ένα πρότυπο έκθεσης κυβερνοασφάλειας που εμπεριέχουν όλες τις χρήσιμες πληροφορίες που μπορούν να οδηγήσουν στην εξόρυξη πολύτιμων δεδομένων σχετικά με τις απειλές που έχουν υπάρξει, υπάρχουν και θα συνεχίζουν να υπάρχουν. |
author2 |
Papasarantou, Athanasia |
author_facet |
Papasarantou, Athanasia Παπασαράντου, Αθανασία |
author |
Παπασαράντου, Αθανασία |
author_sort |
Παπασαράντου, Αθανασία |
title |
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
title_short |
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
title_full |
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
title_fullStr |
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
title_full_unstemmed |
Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
title_sort |
αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας |
publishDate |
2021 |
url |
http://hdl.handle.net/10889/15312 |
work_keys_str_mv |
AT papasarantouathanasia automatēexagōgēplērophoriōnapoektheseiskybernoasphaleias AT papasarantouathanasia automateddataextractionfromcybersecurityreports |
_version_ |
1771297210046087168 |
spelling |
nemertes-10889-153122022-09-05T11:16:19Z Αυτόματη εξαγωγή πληροφοριών από εκθέσεις κυβερνοασφάλειας Automated data extraction from cybersecurity reports Παπασαράντου, Αθανασία Papasarantou, Athanasia Κυβερνοασφάλεια Αυτόματη εξαγωγή πληροφοριών Cybersecurity Automatic information extraction Convolutional neural network (CNN) Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχώνευσης πληροφοριών σε μαζική κλίμακα και τις προκλήσεις. Καθορίσαμε τις απαιτήσεις και τις πιθανές λύσεις για διάφορες διαστάσεις για την εκτέλεση της σύντηξης πληροφοριών. Η αυτόματη εξαγωγή πληροφοριών παρέχει διαφορετική προοπτική κατά την οποία η συλλογή πραγματοποιείται στο πλαίσιο πολλών αβεβαιοτήτων και θορύβου. Αυτή η νέα εργασία παρέχει συνδέσεις μεταξύ της μεθόδου NLP (Neuro-linguistic programming) και άλλων τομέων όπως η εξόρυξη δεδομένων. Η παρούσα Διπλωματική Εργασία συνεισφέρει προς αυτήν την κατεύθυνση διερευνώντας ορισμένους αλγορίθμους ταξινόμησης και τη λειτουργία τους. Αρχικά, γίνεται επεξεργασία μη δομημένων δεδομένων που αντλήθηκαν από εκθέσεις κυβερνοασφάλειας σε μορφή pdf. Στη συνέχεια, επιχειρείται η εφαρμογή αλγορίθμων ταξινόμησης και ακολουθεί η μελέτη των αποτελεσμάτων. Η εργασία εστιάζει σε τέσσερις αλγορίθμους ομαδοποίησης. Στην εποπτευόμενη μέθοδο ταξινόμησης, Decision Tree, που χρησιμοποιεί ένα σύνολο εκπαίδευσης για να δημιουργήσει κανόνες ταξινόμησης που έιναι οργανωμένοι ως μονοπάτια σε ένα δέντρο. Ακολουθεί ο ταξινομητής Naive Bayes που είναι μια πιθανοτική προσέγγιση για την επίλυση τέτοιου είδους προβλημάτων. Στην συνέχεια έιναι ο ταξινομητής Μηχανής Διανυσμάτων Υποστήριξης (Support Vector Machine, SVM) ο οποίος αποτελεί ένα γραμμικό μοντέλο ταξινόμησης διανυσματικού χώρου. Τέλος εφαρμόζουμε ένα συνελικτικό νευρωνικό δίκτυο (convolutional neural network, CNN) το οποίο βασίζεται στην αρχιτεκτονική κοινού βάρους των πυρήνων ή φίλτρων συστροφής που ολισθαίνουν κατά μήκος των χαρακτηριστικών εισόδου και παρέχουν ισοδύναμες αποκρίσεις μετάφρασης γνωστές ως χάρτες χαρακτηριστικών. Τα αποτελέσματα προκύπτουν μέσα από μία σειρά πειραμάτων και ακολουθεί η αξιολόγησή τους και η καταγραφή συμπερασμάτων. Εν κατακλείδι, δεδομένου των παρατηρήσεων και των συμπερασμάτων προτείνεται ένα πρότυπο έκθεσης κυβερνοασφάλειας που εμπεριέχουν όλες τις χρήσιμες πληροφορίες που μπορούν να οδηγήσουν στην εξόρυξη πολύτιμων δεδομένων σχετικά με τις απειλές που έχουν υπάρξει, υπάρχουν και θα συνεχίζουν να υπάρχουν. In the era of information explosion, Data Mining technology faces new challenges with heterogeneous data sources and media that can contain a variety of information and particular entities, relationships and events. This dissertation explores the issues of mass information merging and the challenges that we must face. We have defined the requirements and possible solutions for various dimensions for performing information extraction. The automatic extraction of information provides a different perspective in which the collection takes place in the context of many uncertainties and noise. This new work shows the relationship between NLP (Neuro-linguistic programming) and other areas such as data mining. This Thesis contributes in this direction by exploring some classification algorithms and their operation. Initially, unstructured data extracted from cybersecurity reports. Then, we attempt the application of classification algorithms and the study of the results.The work focuses on four grouping algorithms. In the supervised classification method, Decision Tree, which uses a set of training to create classification rules that are organized as paths in a tree. Then the Naive Bayes classifier which is a probabilistic approach to solving such problems. In addition, the Support Vector Machine (SVM) classifier which is a linear vector space classification model. Finally we apply a convolutional neural network (CNN) which is based on the common weight architecture of cores or twist filters that slide along the input features and provide equivalent translation responses known as feature maps. The results are obtained through a series of experiments followed by their evaluation. In conclusion, given the observations and conclusions, a cyber security report template is proposed that contains all the useful information that can lead to the extraction of valuable data on the threats that have existed, exist and will continue to exist. 2021-10-13T06:16:39Z 2021-10-13T06:16:39Z 2021-10-12 http://hdl.handle.net/10889/15312 gr application/pdf |