Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων

Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλου...

Full description

Bibliographic Details
Main Author:	Αγιομαυρίτης, Φώτιος
Other Authors:	Agiomavritis, Fotis
Language:	Greek
Published:	2021
Subjects:	Aνάκτηση πληροφορίας Μηχανική μάθηση Mηχανές αναζήτησης Συστήματα συστάσεων Επεξεργασία φυσικής γλώσσας Μεγάλα δεδομένα Ιnformation retrieval Machine learning Search engines Recommendation systems Natural language processing Big data
Online Access:	http://hdl.handle.net/10889/14876

id	nemertes-10889-14876
record_format	dspace
institution	UPatras
collection	Nemertes
language	Greek
topic	Aνάκτηση πληροφορίας Μηχανική μάθηση Mηχανές αναζήτησης Συστήματα συστάσεων Επεξεργασία φυσικής γλώσσας Μεγάλα δεδομένα Ιnformation retrieval Machine learning Search engines Recommendation systems Natural language processing Big data
spellingShingle	Aνάκτηση πληροφορίας Μηχανική μάθηση Mηχανές αναζήτησης Συστήματα συστάσεων Επεξεργασία φυσικής γλώσσας Μεγάλα δεδομένα Ιnformation retrieval Machine learning Search engines Recommendation systems Natural language processing Big data Αγιομαυρίτης, Φώτιος Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
description	Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch.
author2	Agiomavritis, Fotis
author_facet	Agiomavritis, Fotis Αγιομαυρίτης, Φώτιος
author	Αγιομαυρίτης, Φώτιος
author_sort	Αγιομαυρίτης, Φώτιος
title	Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_short	Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_full	Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_fullStr	Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_full_unstemmed	Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
title_sort	ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων
publishDate	2021
url	http://hdl.handle.net/10889/14876
work_keys_str_mv	AT agiomauritēsphōtios anaptyxētechnikōnanaktēsēsplērophoriasgiaylopoiēsēapodotikōnsystēmatōnsystaseōn AT agiomauritēsphōtios developmentofinformationretrievaltechniquesforimplementationofefficientrecommendationsystems
_version_	1771297276997664768
spelling	nemertes-10889-148762022-09-05T20:32:20Z Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων Development of information retrieval techniques for implementation of efficient recommendation systems Αγιομαυρίτης, Φώτιος Agiomavritis, Fotis Aνάκτηση πληροφορίας Μηχανική μάθηση Mηχανές αναζήτησης Συστήματα συστάσεων Επεξεργασία φυσικής γλώσσας Μεγάλα δεδομένα Ιnformation retrieval Machine learning Search engines Recommendation systems Natural language processing Big data Οι μηχανές αναζήτησης είναι συστήματα ανάκτησης πληροφοριών που έχουν σχεδιαστεί για να βοηθούν στην εύρεση πληροφοριών που είναι αποθηκευμένες σε ένα σύστημα υπολογιστή. Τα αποτελέσματα αναζήτησης συνήθως εμφανίζονται σε μια λίστα και ονομάζονται επιτυχίες (hits). Οι μηχανές αναζήτησης συμβάλλουν στην ελαχιστοποίηση του χρόνου που απαιτείται για την εύρεση πληροφοριών και του όγκου των πληροφοριών που ο χρήστης καλείται να ανατρέξει. Στον χώρο της Ιατρικής υπάρχουν τέτοιου είδους αναζητητές ειδικού σκοπού, που χρησιμοποιούνται καθημερινά και διευκολύνουν τις ανάγκες του ιατρικού προσωπικού γύρω από τις πληροφορίες. Στην παρούσα διπλωματική εργασία προτείνεται ότι μια τέτοια μηχανή για ιατρικά επιστημονικά κείμενα, μπορεί να υλοποιηθεί με μεγάλη ακρίβεια αποτελεσμάτων με την χρήση μοντέλου Named-entity recognition (NER), που επιδιώκει να εντοπίσει και να ταξινομήσει οντότητες που αναφέρονται στο κείμενο σε προκαθορισμένες γνωστές κατηγορίες, όπως ονόματα προσώπων, οργανισμών, τοποθεσίες, ιατρικές έννοιες και άλλες πολλές κατηγορίες. Η μηχανή αυτή επίσης έχει δημιουργηθεί με την βοήθεια της Elasticsearch που παρέχει μια κατανεμημένη μηχανή αναζήτησης πλήρους κειμένου με δυνατότητα πολλαπλής τροφοδοσίας με διεπαφή ιστού HTTP και έγγραφα JSON, καθώς επιπλέον παρέχει δυνατότητες αποθήκευσης όπως μια κανονική βάση δεδομένων και διαθέτει την BM25 μετρική ομοιότητας για την εκτίμηση της συνάφειας των εγγράφων με ένα δεδομένο ερώτημα αναζήτησης. Για την διαχείρηση του μεγάλου όγκου των κειμένων αυτών και ενεργειών πάνω στα δεδομένα γίνεται χρήση του Apache Spark. Στο τελικό στάδιο της μηχανής αναζήτησης γίνεται διεπαφή με τον χρήστη και λαμβάνονται υπόψη τα κείμενα που διαβάστηκαν, για να γίνει η δημιουργία ενός recommender system. Το re-rank των κείμενων γίνεται με βάση προσωπικού μοντέλου Linear regression που μαντεύει real time αν ένα κείμενο έχει πιθανότητα να διαβαστεί από τον χρήστη και γίνεται και χρήση της μετρικής score από την Elasticsearch. Search engines are information retrieval systems designed to assist in finding information stored in a computer's system. The search results usually appear in a list and they are known as "hits". Search engines contribute to the minimization of the time needed for the information finding and the volume of information the user needs to search in. In the field of medicine there are such specific target searching machines, which are used in daily bases and facilitate the needs of the medical stuff concerning information. In this work, it is stated that such an engine for medical scientific papers can be implemented with very accurate results using the model Named-entity recognition (NER), which aims to detect and classify entities referred in the text in predefined known categories, for example the name of a person, an organism, a location, medical terms etc. This engine is also created using Elasticsearch, which provides a distributed full text search engine with the ability of multiple input with web HTTP api and JSON documents, while also providing storing ability like a regular database and has BM25 similarity metric for relevance assessment of the documents given the elements in search. In order to handle the volume of the texts and actions on the data Apache Spark is used. In the final stage of the search engine we have a friendly interface for users and take into consideration the papers read by the user to create a recommender system. The document re-rank is based on a personal Linear Regression model which predicts in real time, whether is probable the document to be read by the user using the score metric of Elasticsearch. 2021-06-29T13:13:21Z 2021-06-29T13:13:21Z 2021-03-01 http://hdl.handle.net/10889/14876 gr application/pdf

Ανάπτυξη τεχνικών ανάκτησης πληροφορίας για υλοποίηση αποδοτικών συστημάτων συστάσεων

Similar Items