Περίληψη: | Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για
την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w
με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από
τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα
κειμένων μεγάλου όγκου.
Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ
κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση
των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν
κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο.
Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να
εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου
|