Περίληψη: | Η έννοια της ομοιότητας (similarity) είναι ένα θέμα που απασχολεί τον επιστημονικό κλάδο
σχεδόν σε κάθε τομέα του, και κατά καιρούς έχουν προταθεί πολλές διαφορετικές προσεγγίσεις.
Χωρίς την εκτίμηση του δεν μπορεί να εκτελεστεί μια σημαντική για τον άνθρωπο διαδικασία της
ταξινόμησης, αναζήτησης, ομαδοποίησης, κατηγοριοποίησης, σύγκρισης.
Η μέτρηση ομοιότητας μεταξύ δυο ή περισσοτέρων αντικειμένων είναι απαραίτητη για τις εξής
δυο σημαντικές διεργασίες:
• Τον εντοπισμό ομοιοτήτων σε μεγάλες πηγές δεδομένων ( βάσεις δεδομένων , διαδίκτυο)
• Την κατηγοριοποίηση και ανάλυση τους
Στην επιστήμη των υπολογιστών , ο LSH αλγόριθμος , είναι μια αλγοριθμική τεχνική, που
χρησιμοποιώντας την έννοια του κατακερματισμού μπορεί να εντοπίσει και να συγκρίνει σε
αποδοτικό χρόνο ομοιότητες ανάμεσα σε δυο ή και περισσότερα αντικείμενα μεγάλου όγκου, και
αυτά τα δεδομένα να χρησιμοποιηθούν ύστερα για την σύγκριση τους.
Το Apache Spark είναι ένα υπολογιστικό περιβάλλον, που μπορεί να εκτελέσει σε γρήγορο χρόνο,
ανάλυση σε πολύ μεγάλα σύνολα δεδομένων, διανέμοντας εργασίες επεξεργασίας και ανάλυσης
δεδομένων σε πολλούς υπολογιστές, είτε μόνο του, είτε με την χρήση άλλων εργαλείων
κατανομής. Είναι ένα από τα κλειδιά στο κόσμο των «μεγάλων δεδομένων» (big data), διότι έκανε
εφικτή την συγκέντρωση της υπολογιστικής ισχύος που απαιτείται για την ανάλυση μεγάλου
όγκου δεδομένων, καθώς και της μηχανικής μάθησης (machine learning).
Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη και υλοποίηση αυτού του
αλγορίθμου, σε κείμενα μεγάλου όγκου, τη σύγκριση τους, καθώς και την ένταξη του αλγορίθμου
στο περιβάλλον του Apache Spark, αποσκοπώντας στην χρήση στην διαδικασία της επεξεργασίας
των big data.
|