Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML

Η παρούσα εργασία προσομοιώνει σύστημα το οποίο συλλέγει και επεξεργάζεται δεδομένα από το διαδίκτυο πάνω στην αγορά κατοικιών και μετέπειτα εκπαιδεύει αλγορίθμους μάθησης μέσω του framework SparkML στην εκτίμηση της αξίας ακινήτων. Οι αλγόριθμοι μάθησης στόχο έχουν να μπορούν να εκτιμήσουν την αξία...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Skvortsov, Alexander
Άλλοι συγγραφείς: Σκβορτσόβ, Αλεξάντερ
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25414
id nemertes-10889-25414
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Εκτίμηση ακινήτων
Αλγόριθμοι μάθησης
Στεγαστικά ακίνητα
Residential properties evaluation
Machine learning
Web scrapers
SparkML
Spark
spellingShingle Εκτίμηση ακινήτων
Αλγόριθμοι μάθησης
Στεγαστικά ακίνητα
Residential properties evaluation
Machine learning
Web scrapers
SparkML
Spark
Skvortsov, Alexander
Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
description Η παρούσα εργασία προσομοιώνει σύστημα το οποίο συλλέγει και επεξεργάζεται δεδομένα από το διαδίκτυο πάνω στην αγορά κατοικιών και μετέπειτα εκπαιδεύει αλγορίθμους μάθησης μέσω του framework SparkML στην εκτίμηση της αξίας ακινήτων. Οι αλγόριθμοι μάθησης στόχο έχουν να μπορούν να εκτιμήσουν την αξία ακινήτων στις πόλεις: Αθήνα, Πάτρα & Θεσσ/νίκη, χρησιμοποιώντας δεδομένα από ιστοσελίδες πώλησης ακινήτων. Αν και γίνεται σε βάθος διερεύνηση των δεδομένων κι επαναληπτική εκπαίδευση των αλγορίθμων, με σκοπό την επίτευξη καλής ακρίβειας του τελικού μοντέλου, o κύριος στόχος της εργασίας είναι το στήσιμο των υποσυστημάτων και διαδικασιών, υπεύθυνων για την αυτοματοποίηση τόσο της ροής των δεδομένων, όσο και για τον έλεγχο της ποιότητάς τους. Αυτό, καθώς σε πραγματικά προβλήματα και συνθήκες, η διαχείριση των δεδομένων και η εκπαίδευση είναι μια επαναληπτική διαδικασία, γίνεται δηλαδή περιοδικά, και κύριο ρόλο έχει η σωστή ροή και η εξασφάλιση της ποιότητας των δεδομένων. Αρχικά, αποκτήθηκαν πραγματικά δεδομένα δέκα χιλιάδων ακινήτων κατοικίας διαφόρων ειδών από την ιστοσελίδα www.spitogatos.gr, τα οποία αποθηκεύτηκαν σε αρχεία parquet. Έγινε εξερεύνηση των συγκεκριμένων δεδομένων με σκοπό να κατανοηθούν καλύτερα οι τιμές και οι κατανομές τους. Μετέπειτα, υλοποιήθηκε πρόγραμμα pseudo – scraper το οποίο προσομοιώνει πραγματικό web scraper (για τον σπιτόγατο) και χρησιμοποιεί τα αρχικά πραγματικά δεδομένα για να παράγει νέα συνθετικά δεδομένα. Για την επεξεργασία των δεδομένων, υλοποιήθηκε πρόγραμμα σε pyspark (SparkML) το οποίο επεξεργάζεται και φιλτράρει τα εισερχόμενα δεδομένα (από τον pseudo scraper), ώστε να μπορούν να χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων μάθησης. Για την ενδοεπικοινωνία μεταξύ του web scraper και του προγράμματος pyspark χρησιμοποιήθηκε το Kafka. Για την αποθήκευση των επεξεργασμένων δεδομένων, ακρίβειας μοντέλων και οποιονδήποτε άλλων στατιστικών στήθηκε βάση δεδομένων PostgresQL. Για την υλοποίηση του αυτόματου ελέγχου, υλοποιήθηκε πρόγραμμα, το οποίο χρησιμοποιώντας τα δεδομένα από τη βάση δεδομένων, κάνει βασικούς στατιστικούς ελέγχους και ειδοποιεί αν κάτι δεν φαίνεται σωστό. Τέλος, για την οπτική παρακολούθησης κάποιων βασικών στατιστικών υλοποιήθηκε dashboard στο οποίο φαίνεται τόσο η ιστορική σύγκριση των δεδομένων, όσο και η ακρίβεια των μοντέλων.
author2 Σκβορτσόβ, Αλεξάντερ
author_facet Σκβορτσόβ, Αλεξάντερ
Skvortsov, Alexander
author Skvortsov, Alexander
author_sort Skvortsov, Alexander
title Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
title_short Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
title_full Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
title_fullStr Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
title_full_unstemmed Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML
title_sort εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης sparkml
publishDate 2023
url https://hdl.handle.net/10889/25414
work_keys_str_mv AT skvortsovalexander ektimēsētimōnstegastikōnakinētōnmesōalgorithmoumathēsēsmetēnboētheiatēsbibliothēkēssparkml
AT skvortsovalexander priceestimationofresidentialpropertiesbymachinelearningalgorithmwiththehelpofsparkmllibrary
_version_ 1771297159614824448
spelling nemertes-10889-254142023-07-08T03:53:36Z Εκτίμηση τιμών στεγαστικών ακινήτων μέσω αλγορίθμου μάθησης με την βοήθεια της βιβλιοθήκης SparkML Price estimation of residential properties by machine learning algorithm with the help of SparkML library Skvortsov, Alexander Σκβορτσόβ, Αλεξάντερ Εκτίμηση ακινήτων Αλγόριθμοι μάθησης Στεγαστικά ακίνητα Residential properties evaluation Machine learning Web scrapers SparkML Spark Η παρούσα εργασία προσομοιώνει σύστημα το οποίο συλλέγει και επεξεργάζεται δεδομένα από το διαδίκτυο πάνω στην αγορά κατοικιών και μετέπειτα εκπαιδεύει αλγορίθμους μάθησης μέσω του framework SparkML στην εκτίμηση της αξίας ακινήτων. Οι αλγόριθμοι μάθησης στόχο έχουν να μπορούν να εκτιμήσουν την αξία ακινήτων στις πόλεις: Αθήνα, Πάτρα & Θεσσ/νίκη, χρησιμοποιώντας δεδομένα από ιστοσελίδες πώλησης ακινήτων. Αν και γίνεται σε βάθος διερεύνηση των δεδομένων κι επαναληπτική εκπαίδευση των αλγορίθμων, με σκοπό την επίτευξη καλής ακρίβειας του τελικού μοντέλου, o κύριος στόχος της εργασίας είναι το στήσιμο των υποσυστημάτων και διαδικασιών, υπεύθυνων για την αυτοματοποίηση τόσο της ροής των δεδομένων, όσο και για τον έλεγχο της ποιότητάς τους. Αυτό, καθώς σε πραγματικά προβλήματα και συνθήκες, η διαχείριση των δεδομένων και η εκπαίδευση είναι μια επαναληπτική διαδικασία, γίνεται δηλαδή περιοδικά, και κύριο ρόλο έχει η σωστή ροή και η εξασφάλιση της ποιότητας των δεδομένων. Αρχικά, αποκτήθηκαν πραγματικά δεδομένα δέκα χιλιάδων ακινήτων κατοικίας διαφόρων ειδών από την ιστοσελίδα www.spitogatos.gr, τα οποία αποθηκεύτηκαν σε αρχεία parquet. Έγινε εξερεύνηση των συγκεκριμένων δεδομένων με σκοπό να κατανοηθούν καλύτερα οι τιμές και οι κατανομές τους. Μετέπειτα, υλοποιήθηκε πρόγραμμα pseudo – scraper το οποίο προσομοιώνει πραγματικό web scraper (για τον σπιτόγατο) και χρησιμοποιεί τα αρχικά πραγματικά δεδομένα για να παράγει νέα συνθετικά δεδομένα. Για την επεξεργασία των δεδομένων, υλοποιήθηκε πρόγραμμα σε pyspark (SparkML) το οποίο επεξεργάζεται και φιλτράρει τα εισερχόμενα δεδομένα (από τον pseudo scraper), ώστε να μπορούν να χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων μάθησης. Για την ενδοεπικοινωνία μεταξύ του web scraper και του προγράμματος pyspark χρησιμοποιήθηκε το Kafka. Για την αποθήκευση των επεξεργασμένων δεδομένων, ακρίβειας μοντέλων και οποιονδήποτε άλλων στατιστικών στήθηκε βάση δεδομένων PostgresQL. Για την υλοποίηση του αυτόματου ελέγχου, υλοποιήθηκε πρόγραμμα, το οποίο χρησιμοποιώντας τα δεδομένα από τη βάση δεδομένων, κάνει βασικούς στατιστικούς ελέγχους και ειδοποιεί αν κάτι δεν φαίνεται σωστό. Τέλος, για την οπτική παρακολούθησης κάποιων βασικών στατιστικών υλοποιήθηκε dashboard στο οποίο φαίνεται τόσο η ιστορική σύγκριση των δεδομένων, όσο και η ακρίβεια των μοντέλων. This project simulates a system that collects and processes data from the internet on the housing market in order to train learning algorithms through the SparkML framework to do real estate evaluation. The learning algorithms aim to be able to estimate the value of real estate in the cities: Athens, Patras & Thessalonica, using data from real estate sales websites. Although, an in-depth data exploration and iterative training of the algorithms were done, with the aim of achieving good accuracy of the final model, the main goal of this work is to set up the subsystems and processes, responsible for automating both the data flow and their quality control. As, in real market problems and conditions, data management and training is an iterative process, i.e. it is done periodically, the most critical part is the correct flow of the data and ensuring its quality. Initially, real data of ten thousand residential properties of various types were obtained from the website www.spitogatos.gr, which were stored in parquet files. The specific data were explored to better understand their values and distributions. Later, a pseudo-scraper script was implemented which simulates a real web scraper (for the spitogatos.gr) and uses the original real data to generate new synthetic data. To process the data, a program was implemented in pyspark (SparkML) which processes and filters the incoming data (from the pseudo scraper) so that it can be used to train learning algorithms. For the intercommunication between the web scraper and the pyspark program, a Kafka broker was utilized. A PostgresQL database was set up to store the processed data, model accuracy and statistics. To implement the automatic checks, a script was implemented, which using the data from the database, makes basic statistical checks and alerts if something doesn't look right. Finally, for the visual monitoring of some basic statistics, a dashboard was implemented that shows both the historical comparison of the data and the accuracy of the models. 2023-07-07T05:40:33Z 2023-07-07T05:40:33Z 2023-07-04 https://hdl.handle.net/10889/25414 el Attribution-NonCommercial-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nc-nd/3.0/us/ application/pdf