Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark
Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2022
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/16144 |
id |
nemertes-10889-16144 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-161442022-09-05T14:00:26Z Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark LSH mechanisms integration in Apache Spark Σαραντάκης, Δημήτριος Sarantakis, Dimitrios Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις. Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης. Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής δυο σημαντικές διεργασίες: • Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο) • Την κατηγοριοποίηση και ανάλυση τους Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους. Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο, ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning). Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας των big data. The concept of similarity is a topic that concerns the scientific discipline in almost every field, and from time to time many different approaches have been proposed. Without its evaluation, an important process of classification, search, grouping, categorization, comparison cannot be performed. Measuring similarity between two or more objects is necessary for the following two important processes: • Identifying similarities in large data sources (databases, internet) • Their categorization and analysis In computer science, the LSH algorithm is an algorithmic technique that, using the concept of fragmentation, can efficiently identify and compare similarities between two or more large objects, and then use this data for comparison. Apache Spark is a data processing environment that can quickly perform processing tasks on very large datasets, distributing data processing tasks to many computers, either alone or using other distribution tools. It is one of the keys in the world of "big data", because it made it possible to gather the computing power required for the analysis of large volumes of data, as well as machine learning. This dissertation deals with the study and implementation of this algorithm, in large texts, their comparison, as well as the integration of the algorithm in the Apache Spark environment, aiming at its use in the process of big data processing. 2022-04-11T05:08:55Z 2022-04-11T05:08:55Z 2021-09-23 http://hdl.handle.net/10889/16144 gr application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark |
spellingShingle |
Μεγάλα δεδομένα LSH αλγόριθμος Αλγόριθμος ευαίσθητος στη τοποθεσία Big data LSH algorithm Apache Spark Σαραντάκης, Δημήτριος Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
description |
Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο
σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις.
Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της
ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης.
Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής
δυο σημαντικές διεργασίες:
• Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο)
• Την κατηγοριοποίηση και ανάλυση τους
Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που
χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε
αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και
αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους.
Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο,
ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης
δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων
κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε
εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου
όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning).
Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του
αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου
στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας
των big data. |
author2 |
Sarantakis, Dimitrios |
author_facet |
Sarantakis, Dimitrios Σαραντάκης, Δημήτριος |
author |
Σαραντάκης, Δημήτριος |
author_sort |
Σαραντάκης, Δημήτριος |
title |
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
title_short |
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
title_full |
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
title_fullStr |
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
title_full_unstemmed |
Ενσωμάτωση LSH μηχανισμών σε περιβάλλον Apache Spark |
title_sort |
ενσωμάτωση lsh μηχανισμών σε περιβάλλον apache spark |
publishDate |
2022 |
url |
http://hdl.handle.net/10889/16144 |
work_keys_str_mv |
AT sarantakēsdēmētrios ensōmatōsēlshmēchanismōnseperiballonapachespark AT sarantakēsdēmētrios lshmechanismsintegrationinapachespark |
_version_ |
1771297256677310464 |