Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark

Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Σαραντάκης, Δημήτριος
Άλλοι συγγραφείς: Sarantakis, Dimitrios
Γλώσσα:Greek
Έκδοση: 2022
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/16144
id nemertes-10889-16144
record_format dspace
spelling nemertes-10889-161442022-09-05T14:00:26Z Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark LSH mechanisms integration in Apache Spark Σαραντάκης, Δημήτριος Sarantakis, Dimitrios Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης. Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής δυο σημαντικές διεργασίες: • Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο) • Την κατηγοριοποίηση και ανάλυση τους Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους. Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο, ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning). Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας των big data. The concept of similarity is a topic that concerns the scientific discipline in almost every field, and from time to time many different approaches have been proposed. Without its evaluation, an important process of classification, search, grouping, categorization, comparison cannot be performed. Measuring similarity between two or more objects is necessary for the following two important processes: • Identifying similarities in large data sources (databases, internet) • Their categorization and analysis In computer science, the LSH algorithm is an algorithmic technique that, using the concept of fragmentation, can efficiently identify and compare similarities between two or more large objects, and then use this data for comparison. Apache Spark is a data processing environment that can quickly perform processing tasks on very large datasets, distributing data processing tasks to many computers, either alone or using other distribution tools. It is one of the keys in the world of "big data", because it made it possible to gather the computing power required for the analysis of large volumes of data, as well as machine learning. This dissertation deals with the study and implementation of this algorithm, in large texts, their comparison, as well as the integration of the algorithm in the Apache Spark environment, aiming at its use in the process of big data processing. 2022-04-11T05:08:55Z 2022-04-11T05:08:55Z 2021-09-23 http://hdl.handle.net/10889/16144 gr application/pdf
institution UPatras
collection Nemertes
language Greek
topic Μεγάλα δεδομένα
LSH αλγόριθμος
Αλγόριθμος ευαίσθητος στη τοποθεσία
Big data
LSH algorithm
Apache Spark
spellingShingle Μεγάλα δεδομένα
LSH αλγόριθμος
Αλγόριθμος ευαίσθητος στη τοποθεσία
Big data
LSH algorithm
Apache Spark
Σαραντάκης, Δημήτριος
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
description Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης. Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής δυο σημαντικές διεργασίες: • Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο) • Την κατηγοριοποίηση και ανάλυση τους Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους. Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο, ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning). Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας των big data.
author2 Sarantakis, Dimitrios
author_facet Sarantakis, Dimitrios
Σαραντάκης, Δημήτριος
author Σαραντάκης, Δημήτριος
author_sort Σαραντάκης, Δημήτριος
title Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_short Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_full Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_fullStr Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_full_unstemmed Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
title_sort ενσωμάτωση lsh μηχανισμών σε περιβάλλον apache spark
publishDate 2022
url http://hdl.handle.net/10889/16144
work_keys_str_mv AT sarantakēsdēmētrios ensōmatōsēlshmēchanismōnseperiballonapachespark
AT sarantakēsdēmētrios lshmechanismsintegrationinapachespark
_version_ 1771297256677310464