Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)

Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγά...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λούντζης, Κωνσταντίνος
Άλλοι συγγραφείς: Σιούτας, Σπύρος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12623
Περιγραφή
Περίληψη:Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου