Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)

Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγά...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λούντζης, Κωνσταντίνος
Άλλοι συγγραφείς: Σιούτας, Σπύρος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2019
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12623
id nemertes-10889-12623
record_format dspace
spelling nemertes-10889-126232022-09-05T11:16:31Z Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) Processing of similarity and range queries in cloud systems Λούντζης, Κωνσταντίνος Σιούτας, Σπύρος Sioutas, Spyros Lountzis, Konstantinos Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου The focus of this thesis, is the design and the implementation of an algorithm, that can answer range queries (find the documents in which a term w appears with a frequency in the range of [min, max] times), combined with similarity ones (for the documents that were found before, return the pairs that have a similarity of x% between them) on textual datasets of large volume. The implementation that is presented below performs a faster calculation of the similarity value between two documents, when compared with classic algorithms (Jaccard) and achieves that result by using techniques like Minhash and Locality Sensitive Hashing (LSH), both of which use hashing in order to converge to the correct result faster. The development of the aforementioned algorithm is done using the Spark framework, so that it is scalable enough to be executed in a distributed environment. 2019-10-12T17:16:37Z 2019-10-12T17:16:37Z 2019-06 Thesis http://hdl.handle.net/10889/12623 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Ομοιότητα κειμένων
Συχνότητα εμφάνισης όρων
Μεγάλα δεδομένα
Document similarity
Term frequency
Big data
Spark
Scala
Minhash
LSH
006.35
spellingShingle Ομοιότητα κειμένων
Συχνότητα εμφάνισης όρων
Μεγάλα δεδομένα
Document similarity
Term frequency
Big data
Spark
Scala
Minhash
LSH
006.35
Λούντζης, Κωνσταντίνος
Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
description Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου
author2 Σιούτας, Σπύρος
author_facet Σιούτας, Σπύρος
Λούντζης, Κωνσταντίνος
format Thesis
author Λούντζης, Κωνσταντίνος
author_sort Λούντζης, Κωνσταντίνος
title Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_short Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_full Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_fullStr Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_full_unstemmed Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_sort επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
publishDate 2019
url http://hdl.handle.net/10889/12623
work_keys_str_mv AT lountzēskōnstantinos epexergasiaerōtēmatōnomoiotētassimilaritykaieurousrangesesystēmataypologistikounephouscloud
AT lountzēskōnstantinos processingofsimilarityandrangequeriesincloudsystems
_version_ 1771297201397432320