Περίληψη: | Η σημασιολογική διασύνδεση οντοτήτων με υποκείμενη εννοιολογική πληροφορία ή αλλιώς ονομαστική αποσαφήνιση οντοτήτων είναι από τα πλέον ενδιαφέροντα ανοικτά προβλήματα στην επεξεργασία φυσικής γλώσσας και αποτελεί σημαντικό βήμα προεπεξεργασίας δεδομένων στα πεδία της ανάκτησης πληροφορίας, της τεχνητής νοημοσύνης, της μηχανικής μάθησης κ.α.. Αποτελεί την ικανότητα αναγνώρισης της σωστής έννοιας των αναφορών μέσα σε ένα κείμενο με υπολογιστικό τρόπο. Η δυσκολία του προβλήματος έγκειται στο γεγονός ότι οι αναφορές αυτές πολλές φορές είναι αμφίσημες και πολύσημες ως προς τις οντότητες του κόσμου που αναπαριστούν. Μια εφαρμογή ονομαστικής αποσαφήνισης οντοτήτων είναι στο πρόβλημα του Wikification, το οποίο στοχεύει στην εύρεση των κυρίαρχων εννοιών μέσα σε ένα κείμενο και τη διασύνδεση αυτών με άρθρα της Wikipedia που έχουν αντίστοιχο εννοιολογικό περιεχόμενο με το εκάστοτε κείμενο.
Η παρούσα μεταπτυχιακή εργασία επικεντρώνεται στο πρόβλημα της σημασιολογικής διασύνδεσης οντοτήτων μέσα από τη χρήση τεχνικών πρόβλεψης κοινοτήτων και νευρωνικών δικτύων βαθιάς αρχιτεκτονικής. Η Wikipedia μπορεί να αναπαρασταθεί μέσω ενός γραφήματος με βαθύ σημασιολογικό περιεχόμενο, με κόμβους τα άρθρα και ακμές τους υπερσυνδέσμους μεταξύ των συ σχετιζόμενων άρθρων. Αντιμετωπίζοντας τα άρθρα σαν οντότητες, εφαρμόζουμε τεχνικές πρόβλεψης κοινοτήτων και τις ομαδοποιούμε με βάση το εννοιολογικό τους περιεχόμενο, με σκοπό να εξάγουμε τα κατάλληλα χαρακτηριστικά εκείνα που θα εκπαιδεύσουν την αρχιτεκτονική νευρωνικού δικτύου που επιλέχθηκε. Μέσα από την υλοποίηση και την αξιολόγηση μιας εγγενώς κατανεμημένης και βαθμωτής λύσης αποδεικνύεται η θετική συμβολή του χαρακτηριστικού της συνοχής της κοινότητας στο πρόβλημα της αποσαφήνισης οντοτήτων προσφέροντας ανταγωνιστικά αποτελέσματα, με ακρίβεια της τάξης του 81%.
|