Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark

Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας:	Σαραντάκης, Δημήτριος
Άλλοι συγγραφείς:	Sarantakis, Dimitrios
Γλώσσα:	Greek
Έκδοση:	2022
Θέματα:	Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark
Διαθέσιμο Online:	http://hdl.handle.net/10889/16144

id	nemertes-10889-16144
record_format	dspace
spelling	nemertes-10889-161442022-09-05T14:00:26Z Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark LSH mechanisms integration in Apache Spark Σαραντάκης, Δημήτριος Sarantakis, Dimitrios Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης. Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής δυο σημαντικές διεργασίες: • Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο) • Την κατηγοριοποίηση και ανάλυση τους Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους. Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο, ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning). Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας των big data. The concept of similarity is a topic that concerns the scientific discipline in almost every field, and from time to time many different approaches have been proposed. Without its evaluation, an important process of classification, search, grouping, categorization, comparison cannot be performed. Measuring similarity between two or more objects is necessary for the following two important processes: • Identifying similarities in large data sources (databases, internet) • Their categorization and analysis In computer science, the LSH algorithm is an algorithmic technique that, using the concept of fragmentation, can efficiently identify and compare similarities between two or more large objects, and then use this data for comparison. Apache Spark is a data processing environment that can quickly perform processing tasks on very large datasets, distributing data processing tasks to many computers, either alone or using other distribution tools. It is one of the keys in the world of "big data", because it made it possible to gather the computing power required for the analysis of large volumes of data, as well as machine learning. This dissertation deals with the study and implementation of this algorithm, in large texts, their comparison, as well as the integration of the algorithm in the Apache Spark environment, aiming at its use in the process of big data processing. 2022-04-11T05:08:55Z 2022-04-11T05:08:55Z 2021-09-23 http://hdl.handle.net/10889/16144 gr application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark
spellingShingle	Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark Σαραντάκης, Δημήτριος Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
description	Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης. Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής δυο σημαντικές διεργασίες: • Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο) • Την κατηγοριοποίηση και ανάλυση τους Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους. Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο, ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning). Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας των big data.
author2	Sarantakis, Dimitrios
author_facet	Sarantakis, Dimitrios Σαραντάκης, Δημήτριος
author	Σαραντάκης, Δημήτριος
author_sort	Σαραντάκης, Δημήτριος
title	Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_short	Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_full	Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_fullStr	Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_full_unstemmed	Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_sort	ενσωμάτωση lsh μηχανισμών σε περιβάλλον apache spark
publishDate	2022
url	http://hdl.handle.net/10889/16144
work_keys_str_mv	AT sarantakēsdēmētrios ensōmatōsēlshmēchanismōnseperiballonapachespark AT sarantakēsdēmētrios lshmechanismsintegrationinapachespark
_version_	1771297256677310464

Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark

Παρόμοια τεκμήρια