Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό

Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, κ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Kύρου, Παναγιώτης
Άλλοι συγγραφείς: Kyrou, Panayiotis
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25385
Περιγραφή
Περίληψη:Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, και συνεπώς δεν υπάρχει μια πιο γενικευμένη τεχνική για όλους τους ιστότοπους για την εξαγωγή δεδομένων αυτούς. Η εξαγωγή δεδομένων ιστού (web scraping) περιλαμβάνει τη χρήση προγραμμάτων υπολογιστή για την αυτοματοποιημένη εξαγωγή και οργάνωση δεδομένων από τον ιστό με σκοπό την περαιτέρω ανάλυση και χρήση δεδομένων. Χρησιμοποιείται συχνά από εμπορικές εταιρείες, αλλά έχει γίνει επίσης πολύτιμο εργαλείο στην επιδημιολογική έρευνα και στον σχεδιασμό της δημόσιας υγείας. Στην παρούσα εργασία σκοπός είναι η μελέτη ενός συστήματος εξαγωγής δεδομένων ιστού. Αρχικά γίνεται μια εννοιολογική περιγραφή της διαδικασίας της εξαγωγής δεδομένων ιστού, καθώς και state of the art βιβλιοθήκες και scrappers που χρησιμοποιούνται για το σκοπό αυτό. Μελετώνται τα αδύναμα και δυνατά σημεία τους, συγκρίνοντας το scraping με κώδικα και αυτό με οπτική διεπαφή. Στη συνέχεια αναφέρονται κάποιες τυπικές εφαρμογές τους και ακολουθεί η βασική περιγραφή σημαντικών εργαλείων που έχουν μελετηθεί σε άλλες εργασίες αναλύοντας τις εργασίες που σχετίζονται με τον τομέα της υγείας. Το κυρίως κομμάτι της εργασίας αφορά το σχεδιασμό και υλοποίηση ενός συστήματος το οποίο θα εστιάζει στην εύρεση τμημάτων σελίδων σχετικά με ιατρικούς όρους που έχουν δοθεί σαν είσοδο. Στο κομμάτι της υλοποίησης θα περιγραφεί ο τρόπος σκέψης, η γλώσσα υλοποίησης (python), τα εργαλεία που χρησιμοποιήθηκαν, καθώς και τυχόν και περιορισμοί που μπορεί να βρέθηκαν. Ακολουθούν τα συμπεράσματα που αποκομήθηκαν από την παρούσα μελέτη καθώς και πιθανές μελλοντικές επεκτάσεις.