Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων

Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλου...

Full description

Bibliographic Details
Main Author: Αγιομαυρίτης, Φώτιος
Other Authors: Agiomavritis, Fotis
Language:Greek
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/10889/14876
Description
Summary:Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch.