Περίληψη: | Στην τρέχουσα εποχή έκρηξης πληροφοριών, η τεχνολογία Εξόρυξης Δεδομένων αντιμετωπίζει νέες προκλήσεις με ετερογενείς πηγές δεδομένων και μέσα που μπορούν να περιέχουν μια πληθώρα μορφή πληροφοριών και συγκεκριμένα οντότητες, σχέσεις και γεγονότα. Η παρούσα διπλωματική διερευνεί τα ζητήματα της συγχώνευσης πληροφοριών σε μαζική κλίμακα και τις προκλήσεις. Καθορίσαμε τις απαιτήσεις και τις πιθανές λύσεις για διάφορες διαστάσεις για την εκτέλεση της σύντηξης πληροφοριών. Η αυτόματη εξαγωγή πληροφοριών παρέχει διαφορετική προοπτική κατά την οποία η συλλογή πραγματοποιείται στο πλαίσιο πολλών αβεβαιοτήτων και θορύβου. Αυτή η νέα εργασία παρέχει συνδέσεις μεταξύ της μεθόδου NLP (Neuro-linguistic programming) και άλλων τομέων όπως η εξόρυξη δεδομένων.
Η παρούσα Διπλωματική Εργασία συνεισφέρει προς αυτήν την κατεύθυνση διερευνώντας ορισμένους αλγορίθμους ταξινόμησης και τη λειτουργία τους. Αρχικά, γίνεται επεξεργασία μη δομημένων δεδομένων που αντλήθηκαν από εκθέσεις κυβερνοασφάλειας σε μορφή pdf. Στη συνέχεια, επιχειρείται η εφαρμογή αλγορίθμων ταξινόμησης και ακολουθεί η μελέτη των αποτελεσμάτων.
Η εργασία εστιάζει σε τέσσερις αλγορίθμους ομαδοποίησης. Στην εποπτευόμενη μέθοδο ταξινόμησης, Decision Tree, που χρησιμοποιεί ένα σύνολο εκπαίδευσης για να δημιουργήσει κανόνες ταξινόμησης που έιναι οργανωμένοι ως μονοπάτια σε ένα δέντρο. Ακολουθεί ο ταξινομητής Naive Bayes που είναι μια πιθανοτική προσέγγιση για την επίλυση τέτοιου είδους προβλημάτων. Στην συνέχεια έιναι ο ταξινομητής Μηχανής Διανυσμάτων Υποστήριξης (Support Vector Machine, SVM) ο οποίος αποτελεί ένα γραμμικό μοντέλο ταξινόμησης διανυσματικού χώρου. Τέλος εφαρμόζουμε ένα συνελικτικό νευρωνικό δίκτυο (convolutional neural network, CNN) το οποίο βασίζεται στην αρχιτεκτονική κοινού βάρους των πυρήνων ή φίλτρων συστροφής που ολισθαίνουν κατά μήκος των χαρακτηριστικών εισόδου και παρέχουν ισοδύναμες αποκρίσεις μετάφρασης γνωστές ως χάρτες χαρακτηριστικών. Τα αποτελέσματα προκύπτουν μέσα από μία σειρά πειραμάτων και ακολουθεί η αξιολόγησή τους και η καταγραφή συμπερασμάτων.
Εν κατακλείδι, δεδομένου των παρατηρήσεων και των συμπερασμάτων προτείνεται ένα πρότυπο έκθεσης κυβερνοασφάλειας που εμπεριέχουν όλες τις χρήσιμες πληροφορίες που μπορούν να οδηγήσουν στην εξόρυξη πολύτιμων δεδομένων σχετικά με τις απειλές που έχουν υπάρξει, υπάρχουν και θα συνεχίζουν να υπάρχουν.
|