Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)

Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγά...

Full description

Bibliographic Details
Main Author:	Λούντζης, Κωνσταντίνος
Other Authors:	Σιούτας, Σπύρος
Format:	Thesis
Language:	Greek
Published:	2019
Subjects:	Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35
Online Access:	http://hdl.handle.net/10889/12623

id	nemertes-10889-12623
record_format	dspace
spelling	nemertes-10889-126232022-09-05T11:16:31Z Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud) Processing of similarity and range queries in cloud systems Λούντζης, Κωνσταντίνος Σιούτας, Σπύρος Sioutas, Spyros Lountzis, Konstantinos Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου The focus of this thesis, is the design and the implementation of an algorithm, that can answer range queries (find the documents in which a term w appears with a frequency in the range of [min, max] times), combined with similarity ones (for the documents that were found before, return the pairs that have a similarity of x% between them) on textual datasets of large volume. The implementation that is presented below performs a faster calculation of the similarity value between two documents, when compared with classic algorithms (Jaccard) and achieves that result by using techniques like Minhash and Locality Sensitive Hashing (LSH), both of which use hashing in order to converge to the correct result faster. The development of the aforementioned algorithm is done using the Spark framework, so that it is scalable enough to be executed in a distributed environment. 2019-10-12T17:16:37Z 2019-10-12T17:16:37Z 2019-06 Thesis http://hdl.handle.net/10889/12623 gr 0 application/pdf
institution	UPatras
collection	Nemertes
language	Greek
topic	Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35
spellingShingle	Ομοιότητα κειμένων Συχνότητα εμφάνισης όρων Μεγάλα δεδομένα Document similarity Term frequency Big data Spark Scala Minhash LSH 006.35 Λούντζης, Κωνσταντίνος Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
description	Η παρούσα διπλωματική εργασία πραγματεύεται την σχεδίαση και υλοποίηση αλγορίθμου για την απάντηση ερωτημάτων εύρους (να βρεθούν κείμενα στα οποία εμφανίζεται ένας όρος w με συχνότητα σε ένα εύρος [min, max] φορών), συνδυασμένα με ερωτήματα ομοιότητας (από τα παραπάνω κείμενα, να βρεθούν τα ζευγάρια, τα οποία μοιάζουν κατά x%) σε δεδομένα κειμένων μεγάλου όγκου. Η υλοποίηση που παρουσιάζεται παρακάτω, βελτιώνει την χρόνο εύρεσης ομοιότητας μεταξύ κειμένων σε σύγκριση με κλασικούς αλγορίθμους (Jaccard) και το επιτυγχάνει με την χρήση των τεχνικών Minhash και Locality Sensitive Hashing (LSH), οι οποίες και χρησιμοποιούν κατακερματισμό για την προσέγγιση της σωστής τιμής σε μικρό χρόνο. Η ανάπτυξη του εν λόγω αλγορίθμου γίνεται σε περιβάλλον Spark, προκειμένου να εξασφαλιστεί η επεκτασιμότητα (scalability) του σε αρκετά μεγάλο μέγεθος εισόδου
author2	Σιούτας, Σπύρος
author_facet	Σιούτας, Σπύρος Λούντζης, Κωνσταντίνος
format	Thesis
author	Λούντζης, Κωνσταντίνος
author_sort	Λούντζης, Κωνσταντίνος
title	Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_short	Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_full	Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_fullStr	Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_full_unstemmed	Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
title_sort	επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)
publishDate	2019
url	http://hdl.handle.net/10889/12623
work_keys_str_mv	AT lountzēskōnstantinos epexergasiaerōtēmatōnomoiotētassimilaritykaieurousrangesesystēmataypologistikounephouscloud AT lountzēskōnstantinos processingofsimilarityandrangequeriesincloudsystems
_version_	1771297201397432320

Επεξεργασία ερωτημάτων ομοιότητας (similarity) και εύρους (range) σε συστήματα υπολογιστικού νέφους (cloud)

Similar Items