Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή
Οι θεματολογικά προσανατολισμένοι προσκομιστές είναι εφαρμογές που έχουν στόχο την συλλογή ιστοσελίδων συγκεκριμένης θεματολογίας από τον Παγκόσμιο Ιστό. Αποτελούν ένα ανοικτό ερευνητικό πεδίο των τελευταίων χρόνων. Σε αυτήν την διπλωματική εργασία επιχειρείται η υλοποίηση ενός θεματολογικά προσανατ...
Main Author: | |
---|---|
Other Authors: | |
Published: |
2007
|
Subjects: | |
Online Access: | http://nemertes.lis.upatras.gr/jspui/handle/10889/134 |
id |
nemertes-10889-134 |
---|---|
record_format |
dspace |
spelling |
nemertes-10889-1342022-09-05T14:03:33Z Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή Lexical chain extraction for the creation of a topical focused crawler Κοκόσης, Παύλος Χριστοδουλάκης, Δημήτρης Χριστοδουλάκης, Δημήτρης Παυλίδης, Γιώργος Μπούρας, Χρήστος Kokosis, Pavlos Θεματικές αλυσίδες Θεματολογικά προσανατολισμένος προσκομιστής Μετρική θεματικής συνάφειας Μετρική σημασιολογικής ομοιότητας Lexical chains Topical focused crawler Topical cohesion metric Semantic similarity metric 025.04 Οι θεματολογικά προσανατολισμένοι προσκομιστές είναι εφαρμογές που έχουν στόχο την συλλογή ιστοσελίδων συγκεκριμένης θεματολογίας από τον Παγκόσμιο Ιστό. Αποτελούν ένα ανοικτό ερευνητικό πεδίο των τελευταίων χρόνων. Σε αυτήν την διπλωματική εργασία επιχειρείται η υλοποίηση ενός θεματολογικά προσανατολισμένου προσκομιστή με χρήση λεξικών αλυσίδων. Οι λεξικές αλυσίδες είναι ένα σημαντικό λεξιλογικό και υπολογιστικό εργαλείο για την αναπαράσταση της έννοιας ενός κειμένου. Έχουν χρησιμοποιηθεί με επιτυχία στην αυτόματη δημιουργία περιλήψεων για κείμενα, αλλά και στην κατηγοριοποίησή τους σε θεματικές κατηγορίες. Παρουσιάζουμε τις διαδικασίες βαθμολόγησης συνδέσμων και ιστοσελίδων, καθώς και τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ κειμένων με χρήση λεξικών αλυσίδων. Συνδυάζουμε και ενσωματώνουμε αυτές τις διαδικασίες σε έναν θεματολογικά προσανατολισμένο προσκομιστή, τα πειραματικά αποτελέσματα του οποίου είναι πολλά υποσχόμενα. Topical focused crawlers are applications that aim at collecting web pages of a specific topic from the Web. Building topical focused crawlers is an open research field. In this master thesis we develop a topical focused crawler using lexical chains. Lexical chains are an important lexical and computational tool which is used for representing the meaning of text. They have been used with success in automatic text summarization and text classification in thematic categories. We present the processes of hyperlink and web page scoring, as well as the computation of the semantic similarity between documents by using lexical chains. Combining the aforementioned methods we embody them in a topical focused crawler. Its results are very promising. 2007-05-16T08:25:11Z 2007-05-16T08:25:11Z 2005-10-11 2007-05-16T08:25:11Z http://nemertes.lis.upatras.gr/jspui/handle/10889/134 Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. application/pdf |
institution |
UPatras |
collection |
Nemertes |
topic |
Θεματικές αλυσίδες Θεματολογικά προσανατολισμένος προσκομιστής Μετρική θεματικής συνάφειας Μετρική σημασιολογικής ομοιότητας Lexical chains Topical focused crawler Topical cohesion metric Semantic similarity metric 025.04 |
spellingShingle |
Θεματικές αλυσίδες Θεματολογικά προσανατολισμένος προσκομιστής Μετρική θεματικής συνάφειας Μετρική σημασιολογικής ομοιότητας Lexical chains Topical focused crawler Topical cohesion metric Semantic similarity metric 025.04 Κοκόσης, Παύλος Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
description |
Οι θεματολογικά προσανατολισμένοι προσκομιστές είναι εφαρμογές που έχουν στόχο την συλλογή ιστοσελίδων συγκεκριμένης θεματολογίας από τον Παγκόσμιο Ιστό. Αποτελούν ένα ανοικτό ερευνητικό πεδίο των τελευταίων χρόνων. Σε αυτήν την διπλωματική εργασία επιχειρείται η υλοποίηση ενός θεματολογικά προσανατολισμένου προσκομιστή με χρήση λεξικών αλυσίδων. Οι λεξικές αλυσίδες είναι ένα σημαντικό λεξιλογικό και υπολογιστικό εργαλείο για την αναπαράσταση της έννοιας ενός κειμένου. Έχουν χρησιμοποιηθεί με επιτυχία στην αυτόματη δημιουργία περιλήψεων για κείμενα, αλλά και στην κατηγοριοποίησή τους σε θεματικές κατηγορίες. Παρουσιάζουμε τις διαδικασίες βαθμολόγησης συνδέσμων και ιστοσελίδων, καθώς και τον υπολογισμό της σημασιολογικής ομοιότητας μεταξύ κειμένων με χρήση λεξικών αλυσίδων. Συνδυάζουμε και ενσωματώνουμε αυτές τις διαδικασίες σε έναν θεματολογικά προσανατολισμένο προσκομιστή, τα πειραματικά αποτελέσματα του οποίου είναι πολλά υποσχόμενα. |
author2 |
Χριστοδουλάκης, Δημήτρης |
author_facet |
Χριστοδουλάκης, Δημήτρης Κοκόσης, Παύλος |
author |
Κοκόσης, Παύλος |
author_sort |
Κοκόσης, Παύλος |
title |
Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
title_short |
Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
title_full |
Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
title_fullStr |
Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
title_full_unstemmed |
Εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
title_sort |
εξόρυξη θεματικών αλυσίδων από ιστοσελίδες για την δημιουργία ενός θεματολογικά προσανατολισμένου προσκομιστή |
publishDate |
2007 |
url |
http://nemertes.lis.upatras.gr/jspui/handle/10889/134 |
work_keys_str_mv |
AT kokosēspaulos exoryxēthematikōnalysidōnapoistoselidesgiatēndēmiourgiaenosthematologikaprosanatolismenouproskomistē AT kokosēspaulos lexicalchainextractionforthecreationofatopicalfocusedcrawler |
_version_ |
1771297217330544640 |