Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό
Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, κ...
Κύριος συγγραφέας: | |
---|---|
Άλλοι συγγραφείς: | |
Γλώσσα: | Greek |
Έκδοση: |
2023
|
Θέματα: | |
Διαθέσιμο Online: | https://hdl.handle.net/10889/25385 |
id |
nemertes-10889-25385 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-253852023-07-07T03:54:37Z Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό Medical bibliography content extraction system from the world wide web Kύρου, Παναγιώτης Kyrou, Panayiotis Άντληση περιεχομένου Διαδίκτυο Data extraction Internet Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, και συνεπώς δεν υπάρχει μια πιο γενικευμένη τεχνική για όλους τους ιστότοπους για την εξαγωγή δεδομένων αυτούς. Η εξαγωγή δεδομένων ιστού (web scraping) περιλαμβάνει τη χρήση προγραμμάτων υπολογιστή για την αυτοματοποιημένη εξαγωγή και οργάνωση δεδομένων από τον ιστό με σκοπό την περαιτέρω ανάλυση και χρήση δεδομένων. Χρησιμοποιείται συχνά από εμπορικές εταιρείες, αλλά έχει γίνει επίσης πολύτιμο εργαλείο στην επιδημιολογική έρευνα και στον σχεδιασμό της δημόσιας υγείας. Στην παρούσα εργασία σκοπός είναι η μελέτη ενός συστήματος εξαγωγής δεδομένων ιστού. Αρχικά γίνεται μια εννοιολογική περιγραφή της διαδικασίας της εξαγωγής δεδομένων ιστού, καθώς και state of the art βιβλιοθήκες και scrappers που χρησιμοποιούνται για το σκοπό αυτό. Μελετώνται τα αδύναμα και δυνατά σημεία τους, συγκρίνοντας το scraping με κώδικα και αυτό με οπτική διεπαφή. Στη συνέχεια αναφέρονται κάποιες τυπικές εφαρμογές τους και ακολουθεί η βασική περιγραφή σημαντικών εργαλείων που έχουν μελετηθεί σε άλλες εργασίες αναλύοντας τις εργασίες που σχετίζονται με τον τομέα της υγείας. Το κυρίως κομμάτι της εργασίας αφορά το σχεδιασμό και υλοποίηση ενός συστήματος το οποίο θα εστιάζει στην εύρεση τμημάτων σελίδων σχετικά με ιατρικούς όρους που έχουν δοθεί σαν είσοδο. Στο κομμάτι της υλοποίησης θα περιγραφεί ο τρόπος σκέψης, η γλώσσα υλοποίησης (python), τα εργαλεία που χρησιμοποιήθηκαν, καθώς και τυχόν και περιορισμοί που μπορεί να βρέθηκαν. Ακολουθούν τα συμπεράσματα που αποκομήθηκαν από την παρούσα μελέτη καθώς και πιθανές μελλοντικές επεκτάσεις. The amount of information available on the Internet is growing exponentially, and for this reason, obtaining the required information from such a large repository is a necessary but also a challenging task. In addition, the structure of web pages varies between sites, and thus there is no generalized technique for all sites to extract this data. Web scraping involves the use of computer programs to automatically extract and organize data from the web for further data analysis and use. It is often used by commercial companies, but has also become a valuable tool in epidemiological research and public health planning. In this work the aim is to study a web data extraction system. First, a conceptual description of the web data extraction process is given, as well as state of the art libraries and scrappers used for this purpose. Their weaknesses and strengths are studied, comparing scraping with code and scraping with a visual interface. Then some typical applications of them are mentioned, followed by the basic description of important tools that have been studied in other works analyzing the tasks related to the healthcare domain. The main part of the work is about the design and implementation of a system which will focus on finding parts of pages related to medical terms that have been given as input. The implementation part will describe the way of thinking, the implementation language (python), the tools used, as well as any limitations that may be found. Then the conclusions are following, drawn by the present study as well as possible future extensions. 2023-07-06T07:51:05Z 2023-07-06T07:51:05Z 2023-03-08 https://hdl.handle.net/10889/25385 el Attribution 3.0 United States http://creativecommons.org/licenses/by/3.0/us/ application/pdf |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Άντληση περιεχομένου Διαδίκτυο Data extraction Internet |
spellingShingle |
Άντληση περιεχομένου Διαδίκτυο Data extraction Internet Kύρου, Παναγιώτης Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
description |
Ο όγκος των διαθέσιμων πληροφοριών στο Διαδίκτυο αυξάνεται εκθετικά και για αυτό το λόγο, η απόκτηση των αναζητούμενων πληροφοριών από ένα τόσο μεγάλο αποθετήριο είναι ένα απαραίτητο αλλά παράλληλα και απαιτητικό έργο, με προκλήσεις. Επιπλέον, η δομή των ιστοσελίδων ποικίλλει μεταξύ των ιστότοπων, και συνεπώς δεν υπάρχει μια πιο γενικευμένη τεχνική για όλους τους ιστότοπους για την εξαγωγή δεδομένων αυτούς. Η εξαγωγή δεδομένων ιστού (web scraping) περιλαμβάνει τη χρήση προγραμμάτων υπολογιστή για την αυτοματοποιημένη εξαγωγή και οργάνωση δεδομένων από τον ιστό με σκοπό την περαιτέρω ανάλυση και χρήση δεδομένων. Χρησιμοποιείται συχνά από εμπορικές εταιρείες, αλλά έχει γίνει επίσης πολύτιμο εργαλείο στην επιδημιολογική έρευνα και στον σχεδιασμό της δημόσιας υγείας.
Στην παρούσα εργασία σκοπός είναι η μελέτη ενός συστήματος εξαγωγής δεδομένων ιστού. Αρχικά γίνεται μια εννοιολογική περιγραφή της διαδικασίας της εξαγωγής δεδομένων ιστού, καθώς και state of the art βιβλιοθήκες και scrappers που χρησιμοποιούνται για το σκοπό αυτό. Μελετώνται τα αδύναμα και δυνατά σημεία τους, συγκρίνοντας το scraping με κώδικα και αυτό με οπτική διεπαφή. Στη συνέχεια αναφέρονται κάποιες τυπικές εφαρμογές τους και ακολουθεί η βασική περιγραφή σημαντικών εργαλείων που έχουν μελετηθεί σε άλλες εργασίες αναλύοντας τις εργασίες που σχετίζονται με τον τομέα της υγείας. Το κυρίως κομμάτι της εργασίας αφορά το σχεδιασμό και υλοποίηση ενός συστήματος το οποίο θα εστιάζει στην εύρεση τμημάτων σελίδων σχετικά με ιατρικούς όρους που έχουν δοθεί σαν είσοδο. Στο κομμάτι της υλοποίησης θα περιγραφεί ο τρόπος σκέψης, η γλώσσα υλοποίησης (python), τα εργαλεία που χρησιμοποιήθηκαν, καθώς και τυχόν και περιορισμοί που μπορεί να βρέθηκαν. Ακολουθούν τα συμπεράσματα που αποκομήθηκαν από την παρούσα μελέτη καθώς και πιθανές μελλοντικές επεκτάσεις. |
author2 |
Kyrou, Panayiotis |
author_facet |
Kyrou, Panayiotis Kύρου, Παναγιώτης |
author |
Kύρου, Παναγιώτης |
author_sort |
Kύρου, Παναγιώτης |
title |
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
title_short |
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
title_full |
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
title_fullStr |
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
title_full_unstemmed |
Σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
title_sort |
σύστημα άντλησης περιεχομένου ιατρικής βιβλιογραφίας από τον παγκόσμιο ιστό |
publishDate |
2023 |
url |
https://hdl.handle.net/10889/25385 |
work_keys_str_mv |
AT kyroupanagiōtēs systēmaantlēsēsperiechomenouiatrikēsbibliographiasapotonpankosmioisto AT kyroupanagiōtēs medicalbibliographycontentextractionsystemfromtheworldwideweb |
_version_ |
1771297201308303360 |