Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19

Η Ανάλυση Χρονοσειρών στοχεύει στη διερεύνηση του μηχανισμού δημιουργίας των δεδομένων (ερμηνεία της συμπεριφοράς και της φύσης του εκάστοτε φαινομένου) και στην ανίχνευση επαναλαμβανόμενων προτύπων της χρονοσειράς που οδηγούν σε χρήσιμα μοντέλα πρόβλεψης. Για την επίτευξη των στόχων αυτών, χρησιμο...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Λουκοπούλου, Αικατερίνη Αμαλία
Άλλοι συγγραφείς: Loukopoulou, Aikaterini Amalia
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14788
id nemertes-10889-14788
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Πρόβλεψη χρονοσειρών
Κρούσματα Covid-19
ARIMA
Covid-19
Cubic splines
spellingShingle Πρόβλεψη χρονοσειρών
Κρούσματα Covid-19
ARIMA
Covid-19
Cubic splines
Λουκοπούλου, Αικατερίνη Αμαλία
Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
description Η Ανάλυση Χρονοσειρών στοχεύει στη διερεύνηση του μηχανισμού δημιουργίας των δεδομένων (ερμηνεία της συμπεριφοράς και της φύσης του εκάστοτε φαινομένου) και στην ανίχνευση επαναλαμβανόμενων προτύπων της χρονοσειράς που οδηγούν σε χρήσιμα μοντέλα πρόβλεψης. Για την επίτευξη των στόχων αυτών, χρησιμοποιούνται θεμελιώδεις αλλά και πιο σύγχρονες μαθηματικές μέθοδοι, αξιοποιώντας δεδομένα ακολουθίας που συλλέγονται διαχρονικά. Ένα σύγχρονο φαινόμενο που ταλανίζει την παγκόσμια επιστημονική κοινότητα αποτελεί και η πανδημία της νόσου Coronavirus (Covid-19). Τα δεδομένα κρουσμάτων που συλλέγονται και καταγράφονται καθημερινά εμπίπτουν στην ανάλυση χρονοσειρών. Διάφοροι μαθηματικοί μηχανισμοί και μοντέλα προτείνονται για τον έλεγχο και την πρόβλεψη της πορείας της πανδημίας. Στόχος της παρούσας μελέτης είναι να μελετηθούν οι τεχνικές πρόβλεψης χρονοσειρών και να εφαρμοστούν στη πρόβλεψη του ημερήσιου αριθμού κρουσμάτων Covid-19. Πιο συγκεκριμένα χρησιμοποιήθηκαν δεδομένα που αντλήθηκαν από τη βάση δεδομένων https://coronavirus.jhu.edu/map.html τα οποία περιλάμβαναν το συνολικό αριθμό κρουσμάτων σε Ευρώπη, Νότια Αμερική αλλά και παγκοσμίως. Τα δεδομένα αυτά αφορούσαν την χρονική περίοδο από τον Ιανουάριο του 2020 μέχρι και τον Σεπτέμβριο της ίδιας χρονιάς και υλοποιήθηκε πρόβλεψη για 95 μέρες δηλαδή μέχρι και το τέλος του 2020. Η πρόβλεψη έγινε με εφαρμογή 3 μεθόδων: της μεθόδου μικτών αυτοπαλινδρούμενων μοντέλων κινητού μέσου - Auto Regressive Integrated Moving Average (ARIMA), κυβικών τμηματικών πολυωνύμων (piecewise cubic splines) και ομαλοποιημένων κυβικών πολυωνύμων (cubic smoothing splines). Για την βέλτιστη επιλογή των παραμέτρων p,d,q στο μοντέλο ARIMA χρησιμοποιήθηκε η μέθοδος auto.arima. Η αξιολόγηση των προβλεπτικών μοντέλων πραγματοποιήθηκε τόσο με δείκτες Akaike Information Criteria (AIC) και Bayesian Information Criteria (BIC) για τα μοντέλα ARIMA όσο και με τους δείκτες Root Mean Square Error (RMSE) και Mean Absolute Error (MAE), καθώς και με αξιολόγηση των γραφικών αναπαραστάσεων της συνάρτησης αυτοσυσχέτισης Auto Correlation Function (ACF) και μερικής αυτοσυσχέτισης Partial ACF (PACF). Τα αποτελέσματα καταδεικνύουν ότι σε όλες τις περιπτώσεις η μέθοδος πρόβλεψης με μοντέλα ARIMA έχει καλύτερη επίδοση σε σχέση με τη μέθοδο κυβικών τμηματικών πολυωνύμων τόσο ως προς το σφάλμα επίδοσης όσο και σε σύγκριση με τις πραγματικές τιμές που είναι γνωστές για την τελευταία μέρα πρόβλεψης (95η ) και η οποία μπορεί να αποτελέσει μέτρο σύγκρισης.
author2 Loukopoulou, Aikaterini Amalia
author_facet Loukopoulou, Aikaterini Amalia
Λουκοπούλου, Αικατερίνη Αμαλία
author Λουκοπούλου, Αικατερίνη Αμαλία
author_sort Λουκοπούλου, Αικατερίνη Αμαλία
title Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
title_short Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
title_full Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
title_fullStr Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
title_full_unstemmed Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19
title_sort μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα covid-19
publishDate 2021
url http://hdl.handle.net/10889/14788
work_keys_str_mv AT loukopoulouaikaterinēamalia methodoiproblepsēschronoseirōnmededomenacovid19
AT loukopoulouaikaterinēamalia timeseriesforecastingusingcovid19data
_version_ 1771297336771739648
spelling nemertes-10889-147882022-09-05T20:34:36Z Μέθοδοι πρόβλεψης χρονοσειρών με δεδομένα Covid-19 Timeseries forecasting using Covid-19 data Λουκοπούλου, Αικατερίνη Αμαλία Loukopoulou, Aikaterini Amalia Πρόβλεψη χρονοσειρών Κρούσματα Covid-19 ARIMA Covid-19 Cubic splines Η Ανάλυση Χρονοσειρών στοχεύει στη διερεύνηση του μηχανισμού δημιουργίας των δεδομένων (ερμηνεία της συμπεριφοράς και της φύσης του εκάστοτε φαινομένου) και στην ανίχνευση επαναλαμβανόμενων προτύπων της χρονοσειράς που οδηγούν σε χρήσιμα μοντέλα πρόβλεψης. Για την επίτευξη των στόχων αυτών, χρησιμοποιούνται θεμελιώδεις αλλά και πιο σύγχρονες μαθηματικές μέθοδοι, αξιοποιώντας δεδομένα ακολουθίας που συλλέγονται διαχρονικά. Ένα σύγχρονο φαινόμενο που ταλανίζει την παγκόσμια επιστημονική κοινότητα αποτελεί και η πανδημία της νόσου Coronavirus (Covid-19). Τα δεδομένα κρουσμάτων που συλλέγονται και καταγράφονται καθημερινά εμπίπτουν στην ανάλυση χρονοσειρών. Διάφοροι μαθηματικοί μηχανισμοί και μοντέλα προτείνονται για τον έλεγχο και την πρόβλεψη της πορείας της πανδημίας. Στόχος της παρούσας μελέτης είναι να μελετηθούν οι τεχνικές πρόβλεψης χρονοσειρών και να εφαρμοστούν στη πρόβλεψη του ημερήσιου αριθμού κρουσμάτων Covid-19. Πιο συγκεκριμένα χρησιμοποιήθηκαν δεδομένα που αντλήθηκαν από τη βάση δεδομένων https://coronavirus.jhu.edu/map.html τα οποία περιλάμβαναν το συνολικό αριθμό κρουσμάτων σε Ευρώπη, Νότια Αμερική αλλά και παγκοσμίως. Τα δεδομένα αυτά αφορούσαν την χρονική περίοδο από τον Ιανουάριο του 2020 μέχρι και τον Σεπτέμβριο της ίδιας χρονιάς και υλοποιήθηκε πρόβλεψη για 95 μέρες δηλαδή μέχρι και το τέλος του 2020. Η πρόβλεψη έγινε με εφαρμογή 3 μεθόδων: της μεθόδου μικτών αυτοπαλινδρούμενων μοντέλων κινητού μέσου - Auto Regressive Integrated Moving Average (ARIMA), κυβικών τμηματικών πολυωνύμων (piecewise cubic splines) και ομαλοποιημένων κυβικών πολυωνύμων (cubic smoothing splines). Για την βέλτιστη επιλογή των παραμέτρων p,d,q στο μοντέλο ARIMA χρησιμοποιήθηκε η μέθοδος auto.arima. Η αξιολόγηση των προβλεπτικών μοντέλων πραγματοποιήθηκε τόσο με δείκτες Akaike Information Criteria (AIC) και Bayesian Information Criteria (BIC) για τα μοντέλα ARIMA όσο και με τους δείκτες Root Mean Square Error (RMSE) και Mean Absolute Error (MAE), καθώς και με αξιολόγηση των γραφικών αναπαραστάσεων της συνάρτησης αυτοσυσχέτισης Auto Correlation Function (ACF) και μερικής αυτοσυσχέτισης Partial ACF (PACF). Τα αποτελέσματα καταδεικνύουν ότι σε όλες τις περιπτώσεις η μέθοδος πρόβλεψης με μοντέλα ARIMA έχει καλύτερη επίδοση σε σχέση με τη μέθοδο κυβικών τμηματικών πολυωνύμων τόσο ως προς το σφάλμα επίδοσης όσο και σε σύγκριση με τις πραγματικές τιμές που είναι γνωστές για την τελευταία μέρα πρόβλεψης (95η ) και η οποία μπορεί να αποτελέσει μέτρο σύγκρισης. Τhe main goals of time series analysis are focused on the investigation of the data creation formula as well as on the investigation of repeated patterns of the sequence observed, in order to explain the underlying mathematical behavior, assess the evolution and forecast data values. For these purposes, fundamental and modern mathematical approaches have been formulated, exploiting data that have been collected over time. A relatively new phenomenon that afflicts the global scientific community is the Coronavirus (Covid-19) pandemic. Data cases of Covid-19 that are collected in a daily basis appertain to the time series analysis field. Mathematical mechanisms and models have been recently proposed for the management and the prediction of the pandemic evolution. The aim of this study is to study time series prediction techniques and apply them to the prediction of the daily number of Covid-19 cases. More specifically, data were extracted from the database https://coronavirus.jhu.edu/map.html, which included the total number of cases in Europe, South America and worldwide. These data concerned the period from January 2020 to September of the same year and a forecast was implemented for 95 days, i.e. until the end of 2020. The forecast was made by applying 3 methods: the Auto Regressive Integrated Moving Average (ARIMA) method, piecewise cubic splines and cubic smoothing splines. The auto.arima method was used for the optimal selection of the parameters p, d, q in the ARIMA model. The evaluation of the forecast models was performed with both Akaike Information Criteria (AIC) and Bayesian Information Criteria (BIC) indices for the ARIMA models and with the Root Mean Square Error (RMSE) and Mean Absolute Error (MAE) as well as with the evaluation of the Auto Correlation Function (ACF) and Partial ACF (PACF) plots. The results show that in all cases the method of prediction with ARIMA models has a better performance than the method of cubic splines both in terms of performance error and in comparison with the actual values known for the last day of prediction (95th) and which can be a measure of comparison. 2021-05-16T20:16:42Z 2021-05-16T20:16:42Z 2021-02 http://hdl.handle.net/10889/14788 gr application/pdf