Αυτόματη εξαγωγὴ περίληψης από πολλαπλά άρθρα

Η δραματική εξάπλωση του διαδικτύου και η εξέλιξη της τεχνολογίας τις τελευταίες δεκαετίες, παρέχουν στον άνθρωπο καθημερινή πρόσβαση σε μία ραγδαία αυξανόμενη πο- σότητα πληροφορίας, με ένα μεγάλο τμήμα της να έχει τη μορφή κειμένου. Αυτός ο εκτετα- μένος όγκος κειμένου, αν και αποτελεί πολύτιμη...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Καντζάβελος, Σπυρίδων
Άλλοι συγγραφείς: Χατζηλυγερούδης, Ιωάννης
Μορφή: Thesis
Γλώσσα:Greek
Έκδοση: 2020
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/12942
Περιγραφή
Περίληψη:Η δραματική εξάπλωση του διαδικτύου και η εξέλιξη της τεχνολογίας τις τελευταίες δεκαετίες, παρέχουν στον άνθρωπο καθημερινή πρόσβαση σε μία ραγδαία αυξανόμενη πο- σότητα πληροφορίας, με ένα μεγάλο τμήμα της να έχει τη μορφή κειμένου. Αυτός ο εκτετα- μένος όγκος κειμένου, αν και αποτελεί πολύτιμη πηγή πληροφορίας, είναι αδύνατο να ανα- γνωστεί και να αξιοποιηθεί στο σύνολό του από έναν άνθρωπο με περιορισμένο χρόνο, που αναζητά συγκεκριμένη πληροφορία και γνώση στο διαδίκτυο. Προκύπτει λοιπόν η ανάγκη για την ανάπτυξη μεθόδων και μηχανισμών για τη διευκόλυνση του αναγνώστη, προσφέρο- ντας την πληροφορία που τον ενδιαφέρει σε συμπιεσμένη μορφή. Τα συστήματα αυτόματης περίληψης κειμένων επιχειρούν να αντιμετωπίσουν το ζή- τημα, με την ανακάλυψη του περιεχομένου των κειμένων, και την κατασκευή κατανοητών περιλήψεων μικρού μήκους, που περιλαμβάνουν μόνο τη σημαντική πληροφορία της πηγής, χωρίς πλεονασμό. Έτσι, οι χρήστες ενημερώνονται συντόμως για τα θέματα που περι- γράφουν τα κείμενα, και μπορούν να επιλέξουν αυτά που τους ενδιαφέρουν. Η παρούσα διπλωματική εργασία πραγματεύεται τις τεχνικές αυτόματης περίληψης κειμένων και τα συστήματα που τις υλοποιούν, και παρουσιάζει την ανάπτυξη ενός ολοκλη- ρωμένου συστήματος, το οποίο πραγματοποιεί τη συλλογή άρθρων από ιστοσελίδες ειδησεο- γραφικού χαρακτήρα, την αυτόματη εξαγωγή περιλήψεων από πολλαπλά άρθρα κοινής θεμα- τολογίας, και την παρουσίαση των περιλήψεων στους χρήστες. Το σύστημα, εφαρμόζοντας δύο τεχνικές εξαγωγής περίληψης, δημιουργεί δύο περι- λήψεις για κάθε σύνολο άρθρων που περιγράφουν το ίδιο θέμα ή γεγονός. Η πρώτη τεχνική βασίζεται στη λανθάνουσα σημασιολογική ανάλυση, και η δεύτερη σε αναπαράσταση του κειμένου με γράφημα. Τα αποτελέσματα της αξιολόγησης των περιλήψεων οδηγούν στο συ- μπέρασμα, πως η αξιοποίηση των σχέσεων μεταξύ των προτάσεων του κειμένου αντί της ανακάλυψης θεμάτων μέσω της συχνότητας όρων, συμβάλλει στην παραγωγή περιλήψεων καλύτερης ποιότητας.