Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα

Η δραματική εξάπλωση του διαδικτύου και η εξέλιξη της τεχνολογίας τις τελευταίες δεκαετίες, παρέχουν στον άνθρωπο καθημερινή πρόσβαση σε μία ραγδαία αυξανόμενη πο- σότητα πληροφορίας, με ένα μεγάλο τμήμα της να έχει τη μορφή κειμένου. Αυτός ο εκτετα- μένος όγκος κειμένου, αν και αποτελεί πολύτιμη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καντζάβελος, Σπυρίδων
Άλλοι συγγραφείς: Χατζηλυγερούδης, Ιωάννης
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12942
id nemertes-10889-12942
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Αυτὸματη περίληψη
Πολλαπλά άρθρα
Automatic summarization
Multi-document
spellingShingle Αυτὸματη περίληψη
Πολλαπλά άρθρα
Automatic summarization
Multi-document
Καντζάβελος, Σπυρίδων
Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
description Η δραματική εξάπλωση του διαδικτύου και η εξέλιξη της τεχνολογίας τις τελευταίες δεκαετίες, παρέχουν στον άνθρωπο καθημερινή πρόσβαση σε μία ραγδαία αυξανόμενη πο- σότητα πληροφορίας, με ένα μεγάλο τμήμα της να έχει τη μορφή κειμένου. Αυτός ο εκτετα- μένος όγκος κειμένου, αν και αποτελεί πολύτιμη πηγή πληροφορίας, είναι αδύνατο να ανα- γνωστεί και να αξιοποιηθεί στο σύνολό του από έναν άνθρωπο με περιορισμένο χρόνο, που αναζητά συγκεκριμένη πληροφορία και γνώση στο διαδίκτυο. Προκύπτει λοιπόν η ανάγκη για την ανάπτυξη μεθόδων και μηχανισμών για τη διευκόλυνση του αναγνώστη, προσφέρο- ντας την πληροφορία που τον ενδιαφέρει σε συμπιεσμένη μορφή. Τα συστήματα αυτόματης περίληψης κειμένων επιχειρούν να αντιμετωπίσουν το ζή- τημα, με την ανακάλυψη του περιεχομένου των κειμένων, και την κατασκευή κατανοητών περιλήψεων μικρού μήκους, που περιλαμβάνουν μόνο τη σημαντική πληροφορία της πηγής, χωρίς πλεονασμό. Έτσι, οι χρήστες ενημερώνονται συντόμως για τα θέματα που περι- γράφουν τα κείμενα, και μπορούν να επιλέξουν αυτά που τους ενδιαφέρουν. Η παρούσα διπλωματική εργασία πραγματεύεται τις τεχνικές αυτόματης περίληψης κειμένων και τα συστήματα που τις υλοποιούν, και παρουσιάζει την ανάπτυξη ενός ολοκλη- ρωμένου συστήματος, το οποίο πραγματοποιεί τη συλλογή άρθρων από ιστοσελίδες ειδησεο- γραφικού χαρακτήρα, την αυτόματη εξαγωγή περιλήψεων από πολλαπλά άρθρα κοινής θεμα- τολογίας, και την παρουσίαση των περιλήψεων στους χρήστες. Το σύστημα, εφαρμόζοντας δύο τεχνικές εξαγωγής περίληψης, δημιουργεί δύο περι- λήψεις για κάθε σύνολο άρθρων που περιγράφουν το ίδιο θέμα ή γεγονός. Η πρώτη τεχνική βασίζεται στη λανθάνουσα σημασιολογική ανάλυση, και η δεύτερη σε αναπαράσταση του κειμένου με γράφημα. Τα αποτελέσματα της αξιολόγησης των περιλήψεων οδηγούν στο συ- μπέρασμα, πως η αξιοποίηση των σχέσεων μεταξύ των προτάσεων του κειμένου αντί της ανακάλυψης θεμάτων μέσω της συχνότητας όρων, συμβάλλει στην παραγωγή περιλήψεων καλύτερης ποιότητας.
author2 Χατζηλυγερούδης, Ιωάννης
author_facet Χατζηλυγερούδης, Ιωάννης
Καντζάβελος, Σπυρίδων
format Thesis
author Καντζάβελος, Σπυρίδων
author_sort Καντζάβελος, Σπυρίδων
title Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
title_short Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
title_full Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
title_fullStr Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
title_full_unstemmed Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
title_sort αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα
publishDate 2020
url http://hdl.handle.net/10889/12942
work_keys_str_mv AT kantzabelosspyridōn automatēexagōgēperilēpsēsapopollaplaarthra
AT kantzabelosspyridōn automaticextractivemultidocumentsummarization
_version_ 1771297134462631936
spelling nemertes-10889-129422022-09-05T04:59:58Z Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα Automatic extractive multi-document summarization Καντζάβελος, Σπυρίδων Χατζηλυγερούδης, Ιωάννης Μακρής, Χρήστος Kantzavelos, Spyridon Αυτὸματη περίληψη Πολλαπλά άρθρα Automatic summarization Multi-document Η δραματική εξάπλωση του διαδικτύου και η εξέλιξη της τεχνολογίας τις τελευταίες δεκαετίες, παρέχουν στον άνθρωπο καθημερινή πρόσβαση σε μία ραγδαία αυξανόμενη πο- σότητα πληροφορίας, με ένα μεγάλο τμήμα της να έχει τη μορφή κειμένου. Αυτός ο εκτετα- μένος όγκος κειμένου, αν και αποτελεί πολύτιμη πηγή πληροφορίας, είναι αδύνατο να ανα- γνωστεί και να αξιοποιηθεί στο σύνολό του από έναν άνθρωπο με περιορισμένο χρόνο, που αναζητά συγκεκριμένη πληροφορία και γνώση στο διαδίκτυο. Προκύπτει λοιπόν η ανάγκη για την ανάπτυξη μεθόδων και μηχανισμών για τη διευκόλυνση του αναγνώστη, προσφέρο- ντας την πληροφορία που τον ενδιαφέρει σε συμπιεσμένη μορφή. Τα συστήματα αυτόματης περίληψης κειμένων επιχειρούν να αντιμετωπίσουν το ζή- τημα, με την ανακάλυψη του περιεχομένου των κειμένων, και την κατασκευή κατανοητών περιλήψεων μικρού μήκους, που περιλαμβάνουν μόνο τη σημαντική πληροφορία της πηγής, χωρίς πλεονασμό. Έτσι, οι χρήστες ενημερώνονται συντόμως για τα θέματα που περι- γράφουν τα κείμενα, και μπορούν να επιλέξουν αυτά που τους ενδιαφέρουν. Η παρούσα διπλωματική εργασία πραγματεύεται τις τεχνικές αυτόματης περίληψης κειμένων και τα συστήματα που τις υλοποιούν, και παρουσιάζει την ανάπτυξη ενός ολοκλη- ρωμένου συστήματος, το οποίο πραγματοποιεί τη συλλογή άρθρων από ιστοσελίδες ειδησεο- γραφικού χαρακτήρα, την αυτόματη εξαγωγή περιλήψεων από πολλαπλά άρθρα κοινής θεμα- τολογίας, και την παρουσίαση των περιλήψεων στους χρήστες. Το σύστημα, εφαρμόζοντας δύο τεχνικές εξαγωγής περίληψης, δημιουργεί δύο περι- λήψεις για κάθε σύνολο άρθρων που περιγράφουν το ίδιο θέμα ή γεγονός. Η πρώτη τεχνική βασίζεται στη λανθάνουσα σημασιολογική ανάλυση, και η δεύτερη σε αναπαράσταση του κειμένου με γράφημα. Τα αποτελέσματα της αξιολόγησης των περιλήψεων οδηγούν στο συ- μπέρασμα, πως η αξιοποίηση των σχέσεων μεταξύ των προτάσεων του κειμένου αντί της ανακάλυψης θεμάτων μέσω της συχνότητας όρων, συμβάλλει στην παραγωγή περιλήψεων καλύτερης ποιότητας. The dramatic proliferation of the Internet and the evolution of technology in recent decades, gives people daily access to a rapidly increasing amount of information, with a large part of it being in the form of text. This vast volume of text is a valuable source of informa- tion, yet it is impossible to be read and utilized in its entirety by a person with limited time, searching for specific information and knowledge online. Hence, the need arises to develop methods and mechanisms to facilitate the reader, by providing information of interest to him in a condensed form. Automatic text summarization systems attempt to address the issue, by discovering the content of documents and constructing comprehensible short summaries that contain only the important information of the source, without redundancy. Thus, the users are briefed on the topics described in the documents, and can choose the ones that interest them. The present thesis studies the techniques for automatic text summarization and the systems that implement them, and presents the development of an integrated system that cre- ates a collection of news articles from various websites, automatically extracts summaries from multiple articles with overlapping content, and presents the summaries to the users. The system, by applying two extractive summarization techniques, generates two summaries for each set of articles describing the same topic or event. The first technique is based on latent semantic analysis, and the second on a graph representation of the text. The summaries’ evaluation results lead to the conclusion that, utilizing the relations between the text sentences instead of discovering themes through term frequency, contributes to the pro- duction of better quality summaries. 2020-01-14T16:41:03Z 2020-01-14T16:41:03Z 2019-10-10 Thesis http://hdl.handle.net/10889/12942 gr 0 An error occurred getting the license - uri. application/pdf