Algorithms for the fast estimation of statistical leverage scores

In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Sobczyk, Alexandros
Άλλοι συγγραφείς: Γαλλόπουλος, Ευστράτιος
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2017
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/10435
id nemertes-10889-10435
record_format dspace
spelling nemertes-10889-104352022-09-05T05:00:18Z Algorithms for the fast estimation of statistical leverage scores Αλγόριθμοι για την ταχεία εκτίμηση τιμών στατιστικής μόχλευσης Sobczyk, Alexandros Γαλλόπουλος, Ευστράτιος Καραγιάννης, Ιωάννης Ψαράκης, Εμμανουήλ Σόμπτσυκ, Αλέξανδρος Statistical leverage Algorithms Fast estimation Linear algebra Στατιστική μόχλευση Αλγόριθμοι Ταχεία εκτίμηση Γραμμική άλγεβρα 519.544 In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical linear algebra algorithms. In order to build estimators, we consider dimensionality reduction techniques that use randomization in combination with iterative methods for solving linear systems with multiple right hand sides. Based on these techniques we try to overcome certain limitations of the current state-of-the-art algorithms and propose an approach which provably returns good estimations of leverage scores, scales well in parallel/distributed environments and effectively utilizes sparsity. We present our results on synthetic and real world data sets and evaluate its performance, and discuss the advantages and drawbacks relative to all considered approaches. Στην παρούσα εργασία μελετώνται αλγόριθμοι για την ταχεία εκτίμηση τιμών μόχλευσης σε σύνολα δεδομένων. Οι τιμές στατιστικής μόχλευσης αποτελούν ισχυρό εργαλείο για την ανάλυση δεδομένων και τη στατιστική και έχουν χρησιμοποιηθεί επιτυχώς για τον εντοπισμό έκτοπων τιμών σε σύνολα δεδομένων, εύρεση σημαντικών κόμβων σε γράφους, ενώ πρόσφατα έχουν εφαρμοσθεί σε αλγόριθμους τυχαιοποιημένης γραμμικής άλγεβρας. Για την κατασκευή εκτιμητών αναλύουμε διάφορες τεχνικές μείωσης διαστατικότητας που χρησιμοποιούν τυχαιότητα σε συνδυασμό με επαναληπτικές μεθόδους για την επίλυση γραμμικών συστημάτων με πολλά δεξιά μέλη. Βασισμένοι σε αυτές τις τεχνικές προσπαθούμε να προσπεράσουμε συγκεκριμένους περιορισμούς που εντοπίζονται στις μέχρι στιγμής βέλτιστες προσεγγίσεις και προτείνουμε έναν αλγόριθμο ο οποίος αποδεδειγμένα επιστρέφει καλές εκτιμήσεις των τιμών μόχλευσης, παρουσιάζει καλή απόδοση σε υπολογισμούς κλίμακας σε παράλληλα/κατανεμημένα περιβάλλοντα και διαχειρίζεται αποδοτικά αραιά μητρώα. Παρουσιάζουμε τα αποτελέσματά μας σε τεχνητά και πραγματικά σύνολα δεδομένων και παρέχουμε σχολιασμό των αποτελεσμάτων και συζητήσεις σχετικά με τα πλεονεκτήματα και μειονεκτήματα διαφόρων αλγορίθμων. 2017-07-17T10:02:45Z 2017-07-17T10:02:45Z 2017-02-17 Thesis http://hdl.handle.net/10889/10435 gr 0 application/pdf
institution UPatras
collection Nemertes
language Greek
topic Statistical leverage
Algorithms
Fast estimation
Linear algebra
Στατιστική μόχλευση
Αλγόριθμοι
Ταχεία εκτίμηση
Γραμμική άλγεβρα
519.544
spellingShingle Statistical leverage
Algorithms
Fast estimation
Linear algebra
Στατιστική μόχλευση
Αλγόριθμοι
Ταχεία εκτίμηση
Γραμμική άλγεβρα
519.544
Sobczyk, Alexandros
Algorithms for the fast estimation of statistical leverage scores
description In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical linear algebra algorithms. In order to build estimators, we consider dimensionality reduction techniques that use randomization in combination with iterative methods for solving linear systems with multiple right hand sides. Based on these techniques we try to overcome certain limitations of the current state-of-the-art algorithms and propose an approach which provably returns good estimations of leverage scores, scales well in parallel/distributed environments and effectively utilizes sparsity. We present our results on synthetic and real world data sets and evaluate its performance, and discuss the advantages and drawbacks relative to all considered approaches.
author2 Γαλλόπουλος, Ευστράτιος
author_facet Γαλλόπουλος, Ευστράτιος
Sobczyk, Alexandros
format Thesis
author Sobczyk, Alexandros
author_sort Sobczyk, Alexandros
title Algorithms for the fast estimation of statistical leverage scores
title_short Algorithms for the fast estimation of statistical leverage scores
title_full Algorithms for the fast estimation of statistical leverage scores
title_fullStr Algorithms for the fast estimation of statistical leverage scores
title_full_unstemmed Algorithms for the fast estimation of statistical leverage scores
title_sort algorithms for the fast estimation of statistical leverage scores
publishDate 2017
url http://hdl.handle.net/10889/10435
work_keys_str_mv AT sobczykalexandros algorithmsforthefastestimationofstatisticalleveragescores
AT sobczykalexandros algorithmoigiatēntacheiaektimēsētimōnstatistikēsmochleusēs
_version_ 1771297148515647488