Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό

Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, κ...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Kύρου, Παναγιώτης
Άλλοι συγγραφείς: Kyrou, Panayiotis
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25385
id nemertes-10889-25385
record_format dspace
spelling nemertes-10889-253852023-07-07T03:54:37Z Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό Medical bibliography content extraction system from the world wide web Kύρου, Παναγιώτης Kyrou, Panayiotis Άντληση περιεχομένου Διαδίκτυο Data extraction Internet Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, και συνεπώς δεν υπάρχει μια πιο γενικευμένη τεχνική για όλους τους ιστότοπους για την εξαγωγή δεδομένων αυτούς. Η εξαγωγή δεδομένων ιστού (web scraping) περιλαμβάνει τη χρήση προγραμμάτων υπολογιστή για την αυτοματοποιημένη εξαγωγή και οργάνωση δεδομένων από τον ιστό με σκοπό την περαιτέρω ανάλυση και χρήση δεδομένων. Χρησιμοποιείται συχνά από εμπορικές εταιρείες, αλλά έχει γίνει επίσης πολύτιμο εργαλείο στην επιδημιολογική έρευνα και στον σχεδιασμό της δημόσιας υγείας. Στην παρούσα εργασία σκοπός είναι η μελέτη ενός συστήματος εξαγωγής δεδομένων ιστού. Αρχικά γίνεται μια εννοιολογική περιγραφή της διαδικασίας της εξαγωγής δεδομένων ιστού, καθώς και state of the art βιβλιοθήκες και scrappers που χρησιμοποιούνται για το σκοπό αυτό. Μελετώνται τα αδύναμα και δυνατά σημεία τους, συγκρίνοντας το scraping με κώδικα και αυτό με οπτική διεπαφή. Στη συνέχεια αναφέρονται κάποιες τυπικές εφαρμογές τους και ακολουθεί η βασική περιγραφή σημαντικών εργαλείων που έχουν μελετηθεί σε άλλες εργασίες αναλύοντας τις εργασίες που σχετίζονται με τον τομέα της υγείας. Το κυρίως κομμάτι της εργασίας αφορά το σχεδιασμό και υλοποίηση ενός συστήματος το οποίο θα εστιάζει στην εύρεση τμημάτων σελίδων σχετικά με ιατρικούς όρους που έχουν δοθεί σαν είσοδο. Στο κομμάτι της υλοποίησης θα περιγραφεί ο τρόπος σκέψης, η γλώσσα υλοποίησης (python), τα εργαλεία που χρησιμοποιήθηκαν, καθώς και τυχόν και περιορισμοί που μπορεί να βρέθηκαν. Ακολουθούν τα συμπεράσματα που αποκομήθηκαν από την παρούσα μελέτη καθώς και πιθανές μελλοντικές επεκτάσεις. The amount of information available on the Internet is growing exponentially, and for this reason, obtaining the required information from such a large repository is a necessary but also a challenging task. In addition, the structure of web pages varies between sites, and thus there is no generalized technique for all sites to extract this data. Web scraping involves the use of computer programs to automatically extract and organize data from the web for further data analysis and use. It is often used by commercial companies, but has also become a valuable tool in epidemiological research and public health planning. In this work the aim is to study a web data extraction system. First, a conceptual description of the web data extraction process is given, as well as state of the art libraries and scrappers used for this purpose. Their weaknesses and strengths are studied, comparing scraping with code and scraping with a visual interface. Then some typical applications of them are mentioned, followed by the basic description of important tools that have been studied in other works analyzing the tasks related to the healthcare domain. The main part of the work is about the design and implementation of a system which will focus on finding parts of pages related to medical terms that have been given as input. The implementation part will describe the way of thinking, the implementation language (python), the tools used, as well as any limitations that may be found. Then the conclusions are following, drawn by the present study as well as possible future extensions. 2023-07-06T07:51:05Z 2023-07-06T07:51:05Z 2023-03-08 https://hdl.handle.net/10889/25385 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf
institution UPatras
collection Nemertes
language Greek
topic Άντληση περιεχομένου
Διαδίκτυο
Data extraction
Internet
spellingShingle Άντληση περιεχομένου
Διαδίκτυο
Data extraction
Internet
Kύρου, Παναγιώτης
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
description Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, και συνεπώς δεν υπάρχει μια πιο γενικευμένη τεχνική για όλους τους ιστότοπους για την εξαγωγή δεδομένων αυτούς. Η εξαγωγή δεδομένων ιστού (web scraping) περιλαμβάνει τη χρήση προγραμμάτων υπολογιστή για την αυτοματοποιημένη εξαγωγή και οργάνωση δεδομένων από τον ιστό με σκοπό την περαιτέρω ανάλυση και χρήση δεδομένων. Χρησιμοποιείται συχνά από εμπορικές εταιρείες, αλλά έχει γίνει επίσης πολύτιμο εργαλείο στην επιδημιολογική έρευνα και στον σχεδιασμό της δημόσιας υγείας. Στην παρούσα εργασία σκοπός είναι η μελέτη ενός συστήματος εξαγωγής δεδομένων ιστού. Αρχικά γίνεται μια εννοιολογική περιγραφή της διαδικασίας της εξαγωγής δεδομένων ιστού, καθώς και state of the art βιβλιοθήκες και scrappers που χρησιμοποιούνται για το σκοπό αυτό. Μελετώνται τα αδύναμα και δυνατά σημεία τους, συγκρίνοντας το scraping με κώδικα και αυτό με οπτική διεπαφή. Στη συνέχεια αναφέρονται κάποιες τυπικές εφαρμογές τους και ακολουθεί η βασική περιγραφή σημαντικών εργαλείων που έχουν μελετηθεί σε άλλες εργασίες αναλύοντας τις εργασίες που σχετίζονται με τον τομέα της υγείας. Το κυρίως κομμάτι της εργασίας αφορά το σχεδιασμό και υλοποίηση ενός συστήματος το οποίο θα εστιάζει στην εύρεση τμημάτων σελίδων σχετικά με ιατρικούς όρους που έχουν δοθεί σαν είσοδο. Στο κομμάτι της υλοποίησης θα περιγραφεί ο τρόπος σκέψης, η γλώσσα υλοποίησης (python), τα εργαλεία που χρησιμοποιήθηκαν, καθώς και τυχόν και περιορισμοί που μπορεί να βρέθηκαν. Ακολουθούν τα συμπεράσματα που αποκομήθηκαν από την παρούσα μελέτη καθώς και πιθανές μελλοντικές επεκτάσεις.
author2 Kyrou, Panayiotis
author_facet Kyrou, Panayiotis
Kύρου, Παναγιώτης
author Kύρου, Παναγιώτης
author_sort Kύρου, Παναγιώτης
title Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
title_short Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
title_full Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
title_fullStr Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
title_full_unstemmed Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
title_sort σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
publishDate 2023
url https://hdl.handle.net/10889/25385
work_keys_str_mv AT kyroupanagiōtēs systēmaantlēsēsperiechomenouiatrikēsbibliographiasapotonpankosmioisto
AT kyroupanagiōtēs medicalbibliographycontentextractionsystemfromtheworldwideweb
_version_ 1771297201308303360