Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων
Οι σύγχρονοι ρυθμοί δημιουργίας και μετάδοσης της νέας πληροφορίας είναι ένα από τα βασικότερα γνωρίσματα της εποχής που ζούμε. Οι ρυθμοί αυτοί δημιουργούν ένα ταχύ και ευμετάβλητο περιβάλλον εργασίας και ανάπτυξης, όμοιο του οποίου δεν έχει υπάρξει στο παρελθόν. Το μέγεθος της πληροφορίας που καθημ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | https://nemertes.library.upatras.gr/handle/10889/23288 |
id |
nemertes-10889-23288 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ροή δεδομένων Απομακρυσμένα σημεία Εντοπισμός απομακρυσμένων σημείων Μέθοδοι εντοπισμού Περιβάλλον ΜΟΑ Data stream Outliers Outlier detection Detection methods MOA framework Abstract - C MCOD |
spellingShingle |
Ροή δεδομένων Απομακρυσμένα σημεία Εντοπισμός απομακρυσμένων σημείων Μέθοδοι εντοπισμού Περιβάλλον ΜΟΑ Data stream Outliers Outlier detection Detection methods MOA framework Abstract - C MCOD Σοφράς-Καραντής, Ιωάννης Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
description |
Οι σύγχρονοι ρυθμοί δημιουργίας και μετάδοσης της νέας πληροφορίας είναι ένα από τα βασικότερα γνωρίσματα της εποχής που ζούμε. Οι ρυθμοί αυτοί δημιουργούν ένα ταχύ και ευμετάβλητο περιβάλλον εργασίας και ανάπτυξης, όμοιο του οποίου δεν έχει υπάρξει στο παρελθόν. Το μέγεθος της πληροφορίας που καθημερινά ερχόμαστε σε επαφή είναι τόσο μεγάλο που είναι δύσκολο να το κατανοήσουμε. Οι υπολογιστικές μηχανές έχουν πια πρωταγωνιστικό ρόλο στη μετάδοση της πληροφορίας αυτής. Πέρα όμως από τη μετάδοσή της, οι υπολογιστικές μηχανές μας δίνουν και άλλες δυνατότητες όπως είναι η επεξεργασία της πληροφορίας, η απεικόνισή της, γεγονός που βοηθάει στην ορθότερη ερμηνεία της, καθώς και στην παρουσίασή της.
Χαρακτηριστικό παράδειγμα, όσον αφορά τη μετάδοση της πληροφορίας, μπορεί να αποτελέσει η ενημέρωση του ανθρώπου για γεγονότα σε κάθε γωνία της γης μέσα σε λίγα δευτερόλεπτα ενώ βρίσκεται στο σπίτι του. Γεγονός που μερικά χρόνια πριν φάνταζε δύσκολο αν αναλογιστούμε ότι οι βασικές πηγές πληροφόρησης ήταν έντυπες. Πλέον οι χάρτες που έχει διαθέσιμους στο κινητό τηλέφωνο ο κάθε χρήστης, δίνουν πληροφορίες για οποιαδήποτε διαδρομή ανά πάσα στιγμή. Η απεικόνιση συνεπώς της πληροφορίας μέσω της μορφής χαρτών έχει κάνει τον άνθρωπο ικανό να ταξιδέψει παντού ανά τον κόσμο. Επίσης οι μεγάλες μηχανές αναζήτησης παρέχουν απλόχερα απαντήσεις στα εργασιακά θέματα των ανθρώπων μέσα από έναν μεγάλο αριθμό πηγών, ωθώντας τον χρήστη να αναζητήσει, να συλλέξει και τελικά να κρατήσει ότι είναι χρήσιμο για εκείνον.
Παρ΄ όλα αυτά, στην πληροφορία αυτή περιέχονται και παρατηρήσεις που διαφέρουν από τις υπόλοιπες. Είναι με λίγα λόγια απομακρυσμένες από το σύνολο των παρατηρήσεων. Ο εντοπισμός και η ερμηνεία των παρατηρήσεων αυτών είναι ένα ζήτημα που απασχολεί την επιστημονική κοινότητα. Με αφορμή το ζήτημα αυτό, η παρούσα εργασία παρουσιάζει δύο μεθόδους εντοπισμού απομακρυσμένων τιμών.
Πιο συγκεκριμένα στο 1o Κεφάλαιο γίνεται μια εισαγωγή στο θέμα του εντοπισμού των απομακρυσμένων τιμών δίνοντας έφμαση σε βασικές έννοιες, αναλύονται οι κατηγορίες των απομακρυσμένων σημείων και παρουσιάζεται η σημασία εντοπισμού των σημείων αυτών. Στο 2o Κεφάλαιο γίνεται μια αναδρομή στις έρευνες που έχουν προηγηθεί από επιστημονικές ομάδες με βάση την κατηγοριοποίηση των μεθόδων εντοπισμού.
Στο 3o Κεφάλαιο δίνεται έμφαση σε δύο αλγόριθμους που αφορούν τον εντοπισμό απομακρυσμένων τιμών σε ροές δεδομένων. Προβάλλονται οι στόχοι που θέτουν οι αλγόριθμοι αυτοί, αναλύονται ως προς την εκτέλεση και την δομή τους καθώς και σχολιάονται και κάποια συμπεράσματα. ΄Επειτα στο 4o Κεφάλαιο οι δύο αλγόριθμοι εφαρμόζονται σε τεχνητά δεδομένα που προσομοιώνουν μια ροή. Παρουσιάζεται επίσης και το λειτουργικό περιβάλλον που χρησιμοιποιείται.
Τέλος στο 5o Κεφάλαιο γίνεται και εφαρμογή των αλγορίθμων αυτών σε πραγματικά δεδομένα και σχολιάζονται τα αποτελέσματα που προκύπτουν. Ταυτόχρονα παρουσιάζεται και η προεπεξεργασία που απαιτούν τα πραγματικά δεδομένα πριν εφαρμοστούν σε αυτά οι αλγόριθμοι ενδιαφέροντος. |
author2 |
Sofras-Karantis, Ioannis |
author_facet |
Sofras-Karantis, Ioannis Σοφράς-Καραντής, Ιωάννης |
author |
Σοφράς-Καραντής, Ιωάννης |
author_sort |
Σοφράς-Καραντής, Ιωάννης |
title |
Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
title_short |
Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
title_full |
Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
title_fullStr |
Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
title_full_unstemmed |
Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
title_sort |
μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων |
publishDate |
2022 |
url |
https://nemertes.library.upatras.gr/handle/10889/23288 |
work_keys_str_mv |
AT sophraskarantēsiōannēs methodoientopismouapomakrysmenōntimōnseroesdedomenōn AT sophraskarantēsiōannēs outlierdetectionmethodsindatastreams |
_version_ |
1771297207623876608 |
spelling |
nemertes-10889-232882022-09-24T06:21:24Z Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων Outlier detection methods in data streams Σοφράς-Καραντής, Ιωάννης Sofras-Karantis, Ioannis Ροή δεδομένων Απομακρυσμένα σημεία Εντοπισμός απομακρυσμένων σημείων Μέθοδοι εντοπισμού Περιβάλλον ΜΟΑ Data stream Outliers Outlier detection Detection methods MOA framework Abstract - C MCOD Οι σύγχρονοι ρυθμοί δημιουργίας και μετάδοσης της νέας πληροφορίας είναι ένα από τα βασικότερα γνωρίσματα της εποχής που ζούμε. Οι ρυθμοί αυτοί δημιουργούν ένα ταχύ και ευμετάβλητο περιβάλλον εργασίας και ανάπτυξης, όμοιο του οποίου δεν έχει υπάρξει στο παρελθόν. Το μέγεθος της πληροφορίας που καθημερινά ερχόμαστε σε επαφή είναι τόσο μεγάλο που είναι δύσκολο να το κατανοήσουμε. Οι υπολογιστικές μηχανές έχουν πια πρωταγωνιστικό ρόλο στη μετάδοση της πληροφορίας αυτής. Πέρα όμως από τη μετάδοσή της, οι υπολογιστικές μηχανές μας δίνουν και άλλες δυνατότητες όπως είναι η επεξεργασία της πληροφορίας, η απεικόνισή της, γεγονός που βοηθάει στην ορθότερη ερμηνεία της, καθώς και στην παρουσίασή της. Χαρακτηριστικό παράδειγμα, όσον αφορά τη μετάδοση της πληροφορίας, μπορεί να αποτελέσει η ενημέρωση του ανθρώπου για γεγονότα σε κάθε γωνία της γης μέσα σε λίγα δευτερόλεπτα ενώ βρίσκεται στο σπίτι του. Γεγονός που μερικά χρόνια πριν φάνταζε δύσκολο αν αναλογιστούμε ότι οι βασικές πηγές πληροφόρησης ήταν έντυπες. Πλέον οι χάρτες που έχει διαθέσιμους στο κινητό τηλέφωνο ο κάθε χρήστης, δίνουν πληροφορίες για οποιαδήποτε διαδρομή ανά πάσα στιγμή. Η απεικόνιση συνεπώς της πληροφορίας μέσω της μορφής χαρτών έχει κάνει τον άνθρωπο ικανό να ταξιδέψει παντού ανά τον κόσμο. Επίσης οι μεγάλες μηχανές αναζήτησης παρέχουν απλόχερα απαντήσεις στα εργασιακά θέματα των ανθρώπων μέσα από έναν μεγάλο αριθμό πηγών, ωθώντας τον χρήστη να αναζητήσει, να συλλέξει και τελικά να κρατήσει ότι είναι χρήσιμο για εκείνον. Παρ΄ όλα αυτά, στην πληροφορία αυτή περιέχονται και παρατηρήσεις που διαφέρουν από τις υπόλοιπες. Είναι με λίγα λόγια απομακρυσμένες από το σύνολο των παρατηρήσεων. Ο εντοπισμός και η ερμηνεία των παρατηρήσεων αυτών είναι ένα ζήτημα που απασχολεί την επιστημονική κοινότητα. Με αφορμή το ζήτημα αυτό, η παρούσα εργασία παρουσιάζει δύο μεθόδους εντοπισμού απομακρυσμένων τιμών. Πιο συγκεκριμένα στο 1o Κεφάλαιο γίνεται μια εισαγωγή στο θέμα του εντοπισμού των απομακρυσμένων τιμών δίνοντας έφμαση σε βασικές έννοιες, αναλύονται οι κατηγορίες των απομακρυσμένων σημείων και παρουσιάζεται η σημασία εντοπισμού των σημείων αυτών. Στο 2o Κεφάλαιο γίνεται μια αναδρομή στις έρευνες που έχουν προηγηθεί από επιστημονικές ομάδες με βάση την κατηγοριοποίηση των μεθόδων εντοπισμού. Στο 3o Κεφάλαιο δίνεται έμφαση σε δύο αλγόριθμους που αφορούν τον εντοπισμό απομακρυσμένων τιμών σε ροές δεδομένων. Προβάλλονται οι στόχοι που θέτουν οι αλγόριθμοι αυτοί, αναλύονται ως προς την εκτέλεση και την δομή τους καθώς και σχολιάονται και κάποια συμπεράσματα. ΄Επειτα στο 4o Κεφάλαιο οι δύο αλγόριθμοι εφαρμόζονται σε τεχνητά δεδομένα που προσομοιώνουν μια ροή. Παρουσιάζεται επίσης και το λειτουργικό περιβάλλον που χρησιμοιποιείται. Τέλος στο 5o Κεφάλαιο γίνεται και εφαρμογή των αλγορίθμων αυτών σε πραγματικά δεδομένα και σχολιάζονται τα αποτελέσματα που προκύπτουν. Ταυτόχρονα παρουσιάζεται και η προεπεξεργασία που απαιτούν τα πραγματικά δεδομένα πριν εφαρμοστούν σε αυτά οι αλγόριθμοι ενδιαφέροντος. Handling information nowadays is a big challenge due to their large volume. Computers can help us deal with this challenge through the stateof-the-art tools at their disposal by providing tools and methods not only to handle the information in a sufficient way but also to facilitate their transmission and visualization. However, often some parts (observations) of this information do not follow the general behavior of the rest of the observations. These observations are consider as possible outliers and their detection is an important scientific issue. For this reason, this thesis presents two outlier detection algorithms. The 1st chapter introduces the topic with some basic concepts and the 2nd chapter presents a literature review of the previous scientific work based on the categorization of detection methods. In 3rd chapter two algorithms are analyzed and in 4th chapter those two algorithms are applied in artificial data streams via MOA framework. Finally, in 5th chapter, the algorithms are applied in real data and the results are summarized. 2022-09-22T08:43:06Z 2022-09-22T08:43:06Z 2022-06-27 https://nemertes.library.upatras.gr/handle/10889/23288 el Attribution-NonCommercial-ShareAlike 3.0 United States http://creativecommons.org/licenses/by-nc-sa/3.0/us/ application/pdf |