Εξόρυξη γνώσης από μεγάλα δεδομένα
Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/15786 |
id |
nemertes-10889-15786 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μεγάλα δεδομένα Μαζική επεξεργασία Επεξεργασία ροής Εργαλεία μεγάλων δεδομένων Μηχανική μάθηση Ανάλυση παλινδρόμησης Big data Batch processing Streaming processing Big data tools Machine learning Linear regression Pyspark |
spellingShingle |
Μεγάλα δεδομένα Μαζική επεξεργασία Επεξεργασία ροής Εργαλεία μεγάλων δεδομένων Μηχανική μάθηση Ανάλυση παλινδρόμησης Big data Batch processing Streaming processing Big data tools Machine learning Linear regression Pyspark Μητσάκη, Κωνσταντίνα Εξόρυξη γνώσης από μεγάλα δεδομένα |
description |
Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς.
Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η
αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση.
Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων.
Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων.
Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων.
Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη. |
author2 |
Mitsaki, Konstantina |
author_facet |
Mitsaki, Konstantina Μητσάκη, Κωνσταντίνα |
author |
Μητσάκη, Κωνσταντίνα |
author_sort |
Μητσάκη, Κωνσταντίνα |
title |
Εξόρυξη γνώσης από μεγάλα δεδομένα |
title_short |
Εξόρυξη γνώσης από μεγάλα δεδομένα |
title_full |
Εξόρυξη γνώσης από μεγάλα δεδομένα |
title_fullStr |
Εξόρυξη γνώσης από μεγάλα δεδομένα |
title_full_unstemmed |
Εξόρυξη γνώσης από μεγάλα δεδομένα |
title_sort |
εξόρυξη γνώσης από μεγάλα δεδομένα |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/15786 |
work_keys_str_mv |
AT mētsakēkōnstantina exoryxēgnōsēsapomegaladedomena AT mētsakēkōnstantina knowledgediscoveryfrombigdata |
_version_ |
1771297166787084288 |
spelling |
nemertes-10889-157862022-09-05T06:57:36Z Εξόρυξη γνώσης από μεγάλα δεδομένα Knowledge discovery from big data Μητσάκη, Κωνσταντίνα Mitsaki, Konstantina Μεγάλα δεδομένα Μαζική επεξεργασία Επεξεργασία ροής Εργαλεία μεγάλων δεδομένων Μηχανική μάθηση Ανάλυση παλινδρόμησης Big data Batch processing Streaming processing Big data tools Machine learning Linear regression Pyspark Το τελευταίο διάστημα παρατηρείται μεγάλη ανάπτυξη στους τομείς των Μεγάλων Δεδομένων και στην Επιστήμη Δεδομένων (Data Science). Πολλοί επιστήμονες και ερευνητές έχουν στρέψει το ενδιαφέρον τους στον τεράστιο όγκο των δεδομένων που αυξάνονται συνεχώς με γρήγορους ρυθμούς. Στόχος της παρούσας διπλωματικής εργασίας είναι να παρουσιαστεί η αξία των Μεγάλων Δεδομένων και ο τρόπος που μπορεί κάποιος να τα επεξεργαστεί για να προβεί σε περαιτέρω επιστημονική Ανάλυση. Η εργασία αποτελείται από πέντε επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια εισαγωγή στην Ανάλυση του όρου Big Data. Παράλληλα, αναφέρονται οι τομείς που χρησιμοποιούν τεράστιο όγκο δεδομένων, ενώ γίνεται και μια Ιστορική Αναδρομή στα Μεγάλα δεδομένα. Εν συνεχεία, αναλύονται τα χαρακτηριστικά και η δομή των Μεγάλων Δεδομένων. Στο Κεφάλαιο 2, παρουσιάζονται τα εργαλεία που χρησιμοποιούνται για την επεξεργασία Μεγάλων Δεδομένων, ενώ γίνεται και ενδελεχή αναφορά στις Τεχνικές Αναλύσεις Δεδομένων. Στην συνέχεια στο Κεφάλαιο 3, πραγματοποιείται σύγκριση μεταξύ των εργαλείων Hadoop και Spark και γίνεται μια εισαγωγή στο προγραμματιστικό περιβάλλον του Spark με τη βοήθεια της γλώσσας προγραμματισμού Python. Στόχος του εν λόγω κεφαλαίου είναι η εξοικείωση με το υπολογιστικό περιβάλλον του PySpark για να μπορέσει να αντιληφθεί κανείς την σπουδαιότητα των εργαλείων, όταν χρησιμοποιούνται Μεγάλοι Όγκοι Δεδομένων. Στο Κεφάλαιο 4, υλοποιείται εφαρμογή σε Μεγάλα Σύνολα Δεδομένων με την χρήση της Ανάλυσης Παλινδρόμησης και της Μηχανικής μάθησης, για να γίνει κατανοητό πώς μπορεί κανείς να επεξεργαστεί και να εξάγει συμπεράσματα έχοντας Μεγάλο Όγκο Δεδομένων. Τέλος, στο Κεφάλαιο 5, παρατίθενται ορισμένα συμπεράσματα που προκύπτουν από την έρευνα που πραγματοποιήθηκε στα πλαίσια του τέταρτου κεφαλαίου, καθώς και από όλη την εργασία σε θέματα τα οποία εξετάστηκαν εξονυχιστικά. Παράλληλα, αναφέρονται και οι μελλοντικές προεκτάσεις των Μεγάλων Δεδομένων με απώτερο σκοπό να καλύψουν τυχόν αδυναμίες και προβλήματα που παρουσιάζονται στην πράξη. There has recently been a substantial development in the Big Data and Data Science sectors. Many scientists and researchers have focused their attention and interest on the massive amount of data that is constantly growing on a rapid pace. Purpose of this dissertation is to demonstrate the importance of Big Data and how to process them to conduct additional Scientific Analysis. There are five sub-chapters in this assignment. In Chapter 1 there is an introduction on the definition of the term big data as well as discussion of industries with an enormous volume of data and a Historical Analysis of Big Data. Finally, in the same chapter an examination of the properties and structure of Big Data is presented. In Chapter 2 there is a full reference to data analysis methodologies as well as a discussion of the tools that are utilized for Big Data processing. In Chapter 3, a comparison of Hadoop and Spark tools is made, as well as an introduction to the Spark’s programming environment using the Python programming language. Purpose of this Chapter is to familiarize yourself with the PySpark computing environment so that you can appreciate the importance of tools while working with large Volumes of Data. In Chapter 4 an application is implemented in Large Sets of Data utilizing Regression Analysis and Machine Learning to demonstrate how large volumes of data may be processed and conclusions drawn. Finally, in Chapter 5 some conclusions are presented as resulted from the experimental process of Chapter 4 as well as from the topics that have been thoroughly analyzed and investigated throughout this dissertation. Simultaneously, the future extensions of Big Data are discussed with the ultimate goal of covering any possible weaknesses or issues that develop in practice. 2022-02-14T08:57:15Z 2022-02-14T08:57:15Z 2022-02-08 http://hdl.handle.net/10889/15786 gr application/pdf |