Περίληψη: | Η παρούσα εργασία προσομοιώνει σύστημα το οποίο συλλέγει και επεξεργάζεται δεδομένα από το
διαδίκτυο πάνω στην αγορά κατοικιών και μετέπειτα εκπαιδεύει αλγορίθμους μάθησης μέσω του framework
SparkML στην εκτίμηση της αξίας ακινήτων. Οι αλγόριθμοι μάθησης στόχο έχουν να μπορούν να
εκτιμήσουν την αξία ακινήτων στις πόλεις: Αθήνα, Πάτρα & Θεσσ/νίκη, χρησιμοποιώντας δεδομένα από
ιστοσελίδες πώλησης ακινήτων.
Αν και γίνεται σε βάθος διερεύνηση των δεδομένων κι επαναληπτική εκπαίδευση των αλγορίθμων, με σκοπό
την επίτευξη καλής ακρίβειας του τελικού μοντέλου, o κύριος στόχος της εργασίας είναι το στήσιμο των
υποσυστημάτων και διαδικασιών, υπεύθυνων για την αυτοματοποίηση τόσο της ροής των δεδομένων, όσο
και για τον έλεγχο της ποιότητάς τους. Αυτό, καθώς σε πραγματικά προβλήματα και συνθήκες, η διαχείριση
των δεδομένων και η εκπαίδευση είναι μια επαναληπτική διαδικασία, γίνεται δηλαδή περιοδικά, και κύριο
ρόλο έχει η σωστή ροή και η εξασφάλιση της ποιότητας των δεδομένων.
Αρχικά, αποκτήθηκαν πραγματικά δεδομένα δέκα χιλιάδων ακινήτων κατοικίας διαφόρων ειδών από την
ιστοσελίδα www.spitogatos.gr, τα οποία αποθηκεύτηκαν σε αρχεία parquet. Έγινε εξερεύνηση των
συγκεκριμένων δεδομένων με σκοπό να κατανοηθούν καλύτερα οι τιμές και οι κατανομές τους. Μετέπειτα,
υλοποιήθηκε πρόγραμμα pseudo – scraper το οποίο προσομοιώνει πραγματικό web scraper (για τον
σπιτόγατο) και χρησιμοποιεί τα αρχικά πραγματικά δεδομένα για να παράγει νέα συνθετικά δεδομένα.
Για την επεξεργασία των δεδομένων, υλοποιήθηκε πρόγραμμα σε pyspark (SparkML) το οποίο
επεξεργάζεται και φιλτράρει τα εισερχόμενα δεδομένα (από τον pseudo scraper), ώστε να μπορούν να
χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων μάθησης. Για την ενδοεπικοινωνία μεταξύ του web
scraper και του προγράμματος pyspark χρησιμοποιήθηκε το Kafka. Για την αποθήκευση των
επεξεργασμένων δεδομένων, ακρίβειας μοντέλων και οποιονδήποτε άλλων στατιστικών στήθηκε βάση
δεδομένων PostgresQL.
Για την υλοποίηση του αυτόματου ελέγχου, υλοποιήθηκε πρόγραμμα, το οποίο χρησιμοποιώντας τα
δεδομένα από τη βάση δεδομένων, κάνει βασικούς στατιστικούς ελέγχους και ειδοποιεί αν κάτι δεν φαίνεται
σωστό. Τέλος, για την οπτική παρακολούθησης κάποιων βασικών στατιστικών υλοποιήθηκε dashboard στο
οποίο φαίνεται τόσο η ιστορική σύγκριση των δεδομένων, όσο και η ακρίβεια των μοντέλων.
|