Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων

Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλου...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Αγιομαυρίτης, Φώτιος
Άλλοι συγγραφείς: Agiomavritis, Fotis
Γλώσσα:Greek
Έκδοση: 2021
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/14876
id nemertes-10889-14876
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Aνάκτηση πληροφορίας
Μηχανική μάθηση
Mηχανές αναζήτησης
Συστήματα συστάσεων
Επεξεργασία φυσικής γλώσσας
Μεγάλα δεδομένα
Ιnformation retrieval
Machine learning
Search engines
Recommendation systems
Natural language processing
Big data
spellingShingle Aνάκτηση πληροφορίας
Μηχανική μάθηση
Mηχανές αναζήτησης
Συστήματα συστάσεων
Επεξεργασία φυσικής γλώσσας
Μεγάλα δεδομένα
Ιnformation retrieval
Machine learning
Search engines
Recommendation systems
Natural language processing
Big data
Αγιομαυρίτης, Φώτιος
Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
description Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch.
author2 Agiomavritis, Fotis
author_facet Agiomavritis, Fotis
Αγιομαυρίτης, Φώτιος
author Αγιομαυρίτης, Φώτιος
author_sort Αγιομαυρίτης, Φώτιος
title Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_short Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_full Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_fullStr Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_full_unstemmed Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_sort ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
publishDate 2021
url http://hdl.handle.net/10889/14876
work_keys_str_mv AT agiomauritēsphōtios anaptyxētechnikōnanaktēsēsplērophoriasgiaylopoiēsēapodotikōnsystēmatōnsystaseōn
AT agiomauritēsphōtios developmentofinformationretrievaltechniquesforimplementationofefficientrecommendationsystems
_version_ 1771297276997664768
spelling nemertes-10889-148762022-09-05T20:32:20Z Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων Development of information retrieval techniques for implementation of efficient recommendation systems Αγιομαυρίτης, Φώτιος Agiomavritis, Fotis Aνάκτηση πληροφορίας Μηχανική μάθηση Mηχανές αναζήτησης Συστήματα συστάσεων Επεξεργασία φυσικής γλώσσας Μεγάλα δεδομένα Ιnformation retrieval Machine learning Search engines Recommendation systems Natural language processing Big data Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch. Search engines are information retrieval systems designed to assist in finding information stored in a computer's system. The search results usually appear in a list and they are known as "hits". Search engines contribute to the minimization of the time needed for the information finding and the volume of information the user needs to search in. In the field of medicine there are such specific target searching machines, which are used in daily bases and facilitate the needs of the medical stuff concerning information. In this work, it is stated that such an engine for medical scientific papers can be implemented with very accurate results using the model Named-entity recognition (NER), which aims to detect and classify entities referred in the text in predefined known categories, for example the name of a person, an organism, a location, medical terms etc. This engine is also created using Elasticsearch, which provides a distributed full text search engine with the ability of multiple input with web HTTP api and JSON documents, while also providing storing ability like a regular database and has BM25 similarity metric for relevance assessment of the documents given the elements in search. In order to handle the volume of the texts and actions on the data Apache Spark is used. In the final stage of the search engine we have a friendly interface for users and take into consideration the papers read by the user to create a recommender system. The document re-rank is based on a personal Linear Regression model which predicts in real time, whether is probable the document to be read by the user using the score metric of Elasticsearch. 2021-06-29T13:13:21Z 2021-06-29T13:13:21Z 2021-03-01 http://hdl.handle.net/10889/14876 gr application/pdf