Forecasting stock market movements : a sentiment aware approach

The aim of this thesis is to examine whether the integration of sentiment variables, ex tracted from Reuters, The Guardian and CNBC and quantified with the use of the NLP Sentiment Analysis tool VADER (Valence Aware Dictionary and sEntiment Reasoner), can enhance the forecasting performance of model...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ζούδιαρης, Ανδρέας
Άλλοι συγγραφείς: Zoudiaris, Andreas
Γλώσσα:English
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/15500
id nemertes-10889-15500
record_format dspace
institution UPatras
collection Nemertes
language English
topic Volatility
Realized volatility
Forecasting
Sentiment analysis
Natural language processing
Μεταβλητότητα
Πραγματοποιηθείσα μεταβλητότητα
Πρόβλεψη
Ανάλυση συναισθήματος
Επεξεργασία φυσικής γλώσσας
spellingShingle Volatility
Realized volatility
Forecasting
Sentiment analysis
Natural language processing
Μεταβλητότητα
Πραγματοποιηθείσα μεταβλητότητα
Πρόβλεψη
Ανάλυση συναισθήματος
Επεξεργασία φυσικής γλώσσας
Ζούδιαρης, Ανδρέας
Forecasting stock market movements : a sentiment aware approach
description The aim of this thesis is to examine whether the integration of sentiment variables, ex tracted from Reuters, The Guardian and CNBC and quantified with the use of the NLP Sentiment Analysis tool VADER (Valence Aware Dictionary and sEntiment Reasoner), can enhance the forecasting performance of models that target Realized Volatility of the S&P500 index and the VIX index. Utilizing data spanning from the 20th of March 2018 up until the 16th of July 2020, recursive one step ahead forecasting is implemented, using the period of the 20th of March 2018 up until the 31st of December 2019 as the in-sample period, while retaining the period from the 2nd of January 2020 up until the 16th of July for out-of-sample forecasting. A bench-marking approach is applied, where a Random Walk model is set as a floor, while the Heterogeneous Auto-regressive (HAR) model, well known in the literature for being robust in its forecasting capabilities, is set as a ceiling in performance. The methodology entails employing an AR(1) model, and then enhancing it, along with the HAR, with the aforementioned sentiment variables. The performance of the models created is then tested via a variety of evaluation functions, while the Diebold-Mariano test is also utilized as a second phase of evaluation. It is found that the sentiment variables generated do in fact provide a boost in forecasting perfor mance in several occasions, and even though when forecasting the VIX all models prove inferior even to the naive Random Walk in performance, a HAR variant enhanced with the sentiment variable extracted from Reuters is eventually proven to possess the best forecasting capabilities when targetting Realized Volatility, surpassing even the vanilla HAR.
author2 Zoudiaris, Andreas
author_facet Zoudiaris, Andreas
Ζούδιαρης, Ανδρέας
author Ζούδιαρης, Ανδρέας
author_sort Ζούδιαρης, Ανδρέας
title Forecasting stock market movements : a sentiment aware approach
title_short Forecasting stock market movements : a sentiment aware approach
title_full Forecasting stock market movements : a sentiment aware approach
title_fullStr Forecasting stock market movements : a sentiment aware approach
title_full_unstemmed Forecasting stock market movements : a sentiment aware approach
title_sort forecasting stock market movements : a sentiment aware approach
publishDate 2021
url http://hdl.handle.net/10889/15500
work_keys_str_mv AT zoudiarēsandreas forecastingstockmarketmovementsasentimentawareapproach
AT zoudiarēsandreas problepsēchrēmatistēriakōnkinēseōnmiaprosengisēpoulambaneiypopsintosynaisthēma
_version_ 1771297263754149888
spelling nemertes-10889-155002022-09-05T14:07:28Z Forecasting stock market movements : a sentiment aware approach Πρόβλεψη χρηματιστηριακών κινήσεων : μια προσέγγιση που λαμβάνει υπόψιν το συναίσθημα Ζούδιαρης, Ανδρέας Zoudiaris, Andreas Volatility Realized volatility Forecasting Sentiment analysis Natural language processing Μεταβλητότητα Πραγματοποιηθείσα μεταβλητότητα Πρόβλεψη Ανάλυση συναισθήματος Επεξεργασία φυσικής γλώσσας The aim of this thesis is to examine whether the integration of sentiment variables, ex tracted from Reuters, The Guardian and CNBC and quantified with the use of the NLP Sentiment Analysis tool VADER (Valence Aware Dictionary and sEntiment Reasoner), can enhance the forecasting performance of models that target Realized Volatility of the S&P500 index and the VIX index. Utilizing data spanning from the 20th of March 2018 up until the 16th of July 2020, recursive one step ahead forecasting is implemented, using the period of the 20th of March 2018 up until the 31st of December 2019 as the in-sample period, while retaining the period from the 2nd of January 2020 up until the 16th of July for out-of-sample forecasting. A bench-marking approach is applied, where a Random Walk model is set as a floor, while the Heterogeneous Auto-regressive (HAR) model, well known in the literature for being robust in its forecasting capabilities, is set as a ceiling in performance. The methodology entails employing an AR(1) model, and then enhancing it, along with the HAR, with the aforementioned sentiment variables. The performance of the models created is then tested via a variety of evaluation functions, while the Diebold-Mariano test is also utilized as a second phase of evaluation. It is found that the sentiment variables generated do in fact provide a boost in forecasting perfor mance in several occasions, and even though when forecasting the VIX all models prove inferior even to the naive Random Walk in performance, a HAR variant enhanced with the sentiment variable extracted from Reuters is eventually proven to possess the best forecasting capabilities when targetting Realized Volatility, surpassing even the vanilla HAR. Ο στόχος της παρούσας διπλωματικής εργασίας είναι να εξετάσει αν η ενσωμάτωση μεταβλητών συναισθήματος που έχουν εξαχθεί από τις εφημερίδες Reuters, The Guardian και CNBC και έχουν μαθηματικοποιηθεί με τη χρήση του εργαλείου Επεξεργασίας Φυσικής Γλώσσας (NLP) και ανάλυσης συναισθήματος VADER (Valence Aware Dictionary and sEntiment Reasoner), μπορεί να ενισχύσει την προβλεπτική ικανότητα μοντέλων που στοχοποιούν ως εξαρτημένες μεταβλητές την πραγματοποιηθείσα μεταβλητότητα του δείκτη S&P500, καθώς και τον δείκτη VIX. Χρησιμοποιώντας δεδομένα για την περίοδο μεταξύ της 20ης Μαρτίου 2018 μέχρι και την 16η Ιουλίου 2020, πραγματοποιήθηκαν επαναλαμβανόμενες προβλέψεις ενός βήματος προς το μέλλον, διατηρώντας την περίοδο από τις 20 Μαρτίου 2018 μέχρι τις 31 Δεκεμβρίου 2019 ως σετ εξάσκησης των μοντέλων και την περίοδο από τις 2 Ιανουαρίου 2020 μέχρι τις 16 Ιουλίου ως σετ δεδομένων για προβλέψεις εκτός δείγματος. Εφαρμόζεται μία προσέγγιση συγκριτικής αξιολόγησης, όπου ένα μοντέλο τυχαίου περιπάτου (Random Walk) τίθεται ως πάτωμα λόγω της κακής απόδοσης του, ενώ το Ετερογενές Αυτοπαλίνδρομο (Heterogeneous Auto-regressive) μοντέλο, γνωστό στην βιβλιογραφία για την αξιόπιστη προβλεπτική του ικανότητα, τίθεται ως ταβάνι ως προς την απόδοση. Η μεθοδολογία περιλαμβάνει την χρήση ενός αυτοπαλίνδρομου μοντέλου πρώτης τάξης AR(1), και κατόπιν την ενίσχυσή του, μαζί με το HAR, με τις προαναφερόμενες μεταβλητές συναισθήματος. Η απόδοση των μοντέλων που δημιουργούνται έπειτα δοκιμάζεται με τη χρήση διαφόρων συναρτήσεων αξιολόγησης, ενώ το τεστ Diebold Mariano επιπλέον εφαρμόζεται για μία δεύτερη φάση αξιολόγησης. Ανακαλύπτεται πως οι μεταβλητές συναισθήματος όντως προσφέρουν μια ενίσχυση στην προβλεπτική ικανότητα των μοντέλων σε πολλές περιπτώσεις, και ενώ όταν η μεταβλητή ενδιαφέροντος είναι ο VIX όλα τα μοντέλα έχουν χειρότερη απόδοση ακόμα και από το απλό μοντέλο Random Walk, η εκδοχή του HAR που ενισχύεται με την μεταβλητή συναισθήματος από την εφημερίδα Reuters τελικά καταλήγει να έχει την καλύτερη προβλεπτική ικανότητα όσον αφορά την πρόβλεψη της πραγματοποιηθείσας μεταβλητότητας, ξεπερνώντας ακόμα και το παραδοσιακό HAR. 2021-11-02T10:58:38Z 2021-11-02T10:58:38Z 2021-11-01 http://hdl.handle.net/10889/15500 en application/pdf