Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγά...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2019
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/12623 |
id |
nemertes-10889-12623 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-126232022-09-05T11:16:31Z Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) Processing of similarity and range queries in cloud systems Λούντζης, Κωνσταντίνος Σιούτας, Σπύρος Sioutas, Spyros Lountzis, Konstantinos Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου The focus of this thesis, is the design and the implementation of an algorithm, that can answer range queries (find the documents in which a term w appears with a frequency in the range of [min, max] times), combined with similarity ones (for the documents that were found before, return the pairs that have a similarity of x% between them) on textual datasets of large volume. The implementation that is presented below performs a faster calculation of the similarity value between two documents, when compared with classic algorithms (Jaccard) and achieves that result by using techniques like Minhash and Locality Sensitive Hashing (LSH), both of which use hashing in order to converge to the correct result faster. The development of the aforementioned algorithm is done using the Spark framework, so that it is scalable enough to be executed in a distributed environment. 2019-10-12T17:16:37Z 2019-10-12T17:16:37Z 2019-06 Thesis http://hdl.handle.net/10889/12623 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 |
spellingShingle |
Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 Λούντζης, Κωνσταντίνος Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
description |
Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για
την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w
με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από
τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα
κειμένων μεγάλου όγκου.
Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ
κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση
των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν
κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο.
Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να
εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου |
author2 |
Σιούτας, Σπύρος |
author_facet |
Σιούτας, Σπύρος Λούντζης, Κωνσταντίνος |
format |
Thesis |
author |
Λούντζης, Κωνσταντίνος |
author_sort |
Λούντζης, Κωνσταντίνος |
title |
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
title_short |
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
title_full |
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
title_fullStr |
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
title_full_unstemmed |
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
title_sort |
επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) |
publishDate |
2019 |
url |
http://hdl.handle.net/10889/12623 |
work_keys_str_mv |
AT lountzēskōnstantinos epexergasiaerōtēmatōnomoiotētassimilaritykaieurousrangesesystēmataypologistikounephouscloud AT lountzēskōnstantinos processingofsimilarityandrangequeriesincloudsystems |
_version_ |
1771297201397432320 |