Algorithms for the fast estimation of statistical leverage scores
In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Μορφή: | Thesis |
Γλώσσα: | Greek |
Έκδοση: |
2017
|
Θέματα: | |
Διαθέσιμο Online: | http://hdl.handle.net/10889/10435 |
id |
nemertes-10889-10435 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-104352022-09-05T05:00:18Z Algorithms for the fast estimation of statistical leverage scores Αλγόριθμοι για την ταχεία εκτίμηση τιμών στατιστικής μόχλευσης Sobczyk, Alexandros Γαλλόπουλος, Ευστράτιος Καραγιάννης, Ιωάννης Ψαράκης, Εμμανουήλ Σόμπτσυκ, Αλέξανδρος Statistical leverage Algorithms Fast estimation Linear algebra Στατιστική μόχλευση Αλγόριθμοι Ταχεία εκτίμηση Γραμμική άλγεβρα 519.544 In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical linear algebra algorithms. In order to build estimators, we consider dimensionality reduction techniques that use randomization in combination with iterative methods for solving linear systems with multiple right hand sides. Based on these techniques we try to overcome certain limitations of the current state-of-the-art algorithms and propose an approach which provably returns good estimations of leverage scores, scales well in parallel/distributed environments and effectively utilizes sparsity. We present our results on synthetic and real world data sets and evaluate its performance, and discuss the advantages and drawbacks relative to all considered approaches. Στην παρούσα εργασία μελετώνται αλγόριθμοι για την ταχεία εκτίμηση τιμών μόχλευσης σε σύνολα δεδομένων. Οι τιμές στατιστικής μόχλευσης αποτελούν ισχυρό εργαλείο για την ανάλυση δεδομένων και τη στατιστική και έχουν χρησιμοποιηθεί επιτυχώς για τον εντοπισμό έκτοπων τιμών σε σύνολα δεδομένων, εύρεση σημαντικών κόμβων σε γράφους, ενώ πρόσφατα έχουν εφαρμοσθεί σε αλγόριθμους τυχαιοποιημένης γραμμικής άλγεβρας. Για την κατασκευή εκτιμητών αναλύουμε διάφορες τεχνικές μείωσης διαστατικότητας που χρησιμοποιούν τυχαιότητα σε συνδυασμό με επαναληπτικές μεθόδους για την επίλυση γραμμικών συστημάτων με πολλά δεξιά μέλη. Βασισμένοι σε αυτές τις τεχνικές προσπαθούμε να προσπεράσουμε συγκεκριμένους περιορισμούς που εντοπίζονται στις μέχρι στιγμής βέλτιστες προσεγγίσεις και προτείνουμε έναν αλγόριθμο ο οποίος αποδεδειγμένα επιστρέφει καλές εκτιμήσεις των τιμών μόχλευσης, παρουσιάζει καλή απόδοση σε υπολογισμούς κλίμακας σε παράλληλα/κατανεμημένα περιβάλλοντα και διαχειρίζεται αποδοτικά αραιά μητρώα. Παρουσιάζουμε τα αποτελέσματά μας σε τεχνητά και πραγματικά σύνολα δεδομένων και παρέχουμε σχολιασμό των αποτελεσμάτων και συζητήσεις σχετικά με τα πλεονεκτήματα και μειονεκτήματα διαφόρων αλγορίθμων. 2017-07-17T10:02:45Z 2017-07-17T10:02:45Z 2017-02-17 Thesis http://hdl.handle.net/10889/10435 gr 0 application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Statistical leverage Algorithms Fast estimation Linear algebra Στατιστική μόχλευση Αλγόριθμοι Ταχεία εκτίμηση Γραμμική άλγεβρα 519.544 |
spellingShingle |
Statistical leverage Algorithms Fast estimation Linear algebra Στατιστική μόχλευση Αλγόριθμοι Ταχεία εκτίμηση Γραμμική άλγεβρα 519.544 Sobczyk, Alexandros Algorithms for the fast estimation of statistical leverage scores |
description |
In this thesis we consider algorithms for fast estimations of leverage scores. Statistical leverage scores are a powerful tool for data analysis and statistics and have been successfully used for outlier detection in datasets, locating important nodes in graphs and more recently applied to numerical linear algebra algorithms. In order to build estimators, we consider dimensionality reduction techniques that use randomization in combination with iterative methods for solving linear systems with multiple right hand sides. Based on these techniques we try to overcome certain limitations of the current state-of-the-art algorithms and propose an approach which provably returns good estimations of leverage scores, scales well in parallel/distributed environments and effectively utilizes sparsity. We present our results on synthetic and real world data sets and evaluate its performance, and discuss the advantages and drawbacks relative to all considered approaches. |
author2 |
Γαλλόπουλος, Ευστράτιος |
author_facet |
Γαλλόπουλος, Ευστράτιος Sobczyk, Alexandros |
format |
Thesis |
author |
Sobczyk, Alexandros |
author_sort |
Sobczyk, Alexandros |
title |
Algorithms for the fast estimation of statistical leverage scores |
title_short |
Algorithms for the fast estimation of statistical leverage scores |
title_full |
Algorithms for the fast estimation of statistical leverage scores |
title_fullStr |
Algorithms for the fast estimation of statistical leverage scores |
title_full_unstemmed |
Algorithms for the fast estimation of statistical leverage scores |
title_sort |
algorithms for the fast estimation of statistical leverage scores |
publishDate |
2017 |
url |
http://hdl.handle.net/10889/10435 |
work_keys_str_mv |
AT sobczykalexandros algorithmsforthefastestimationofstatisticalleveragescores AT sobczykalexandros algorithmoigiatēntacheiaektimēsētimōnstatistikēsmochleusēs |
_version_ |
1771297148515647488 |