Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας

Η αυτόματη σύνοψη κειμένων είναι μια υποεργασία της Επεξεργασίας Φυσικής Γλώσσας που αναφέρεται στην αυτόματη δημιουργία μιας συνοπτικής και εύληπτης περίληψης που αποτυπώνει τις κύριες ιδέες και τα θέματα ενός ή περισσότερων εγγράφων. Παλαιότερες βιβλιογραφικές έρευνες επικεντρώνονται σε εξαγόμενες...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Μαστροκώστας, Χαράλαμπος
Άλλοι συγγραφείς: Mastrokostas, Charalampos
Γλώσσα:Greek
Έκδοση: 2023
Θέματα:
Διαθέσιμο Online:https://hdl.handle.net/10889/25377
id nemertes-10889-25377
record_format dspace
institution UPatras
collection Nemertes
language Greek
topic Επεξεργασία φυσικής γλώσσας
Αυτόματη σύνοψη κειμένων
Natural language processing
Text summarization
spellingShingle Επεξεργασία φυσικής γλώσσας
Αυτόματη σύνοψη κειμένων
Natural language processing
Text summarization
Μαστροκώστας, Χαράλαμπος
Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
description Η αυτόματη σύνοψη κειμένων είναι μια υποεργασία της Επεξεργασίας Φυσικής Γλώσσας που αναφέρεται στην αυτόματη δημιουργία μιας συνοπτικής και εύληπτης περίληψης που αποτυπώνει τις κύριες ιδέες και τα θέματα ενός ή περισσότερων εγγράφων. Παλαιότερες βιβλιογραφικές έρευνες επικεντρώνονται σε εξαγόμενες προσεγγίσεις, οι οποίες κατατάσσουν τις πιο σημαντικές προτάσεις του εγγράφου εισόδου και στη συνέχεια τις συνδυάζουν για να σχηματίσουν μια περίληψη. Ωστόσο, οι περιλήψεις αυτών των προσεγγίσεων δεν έχουν την ίδια λεξιλογική ροή ή συνοχή με τις περιλήψεις που παράγονται χειροκίνητα από ανθρώπους συγγραφείς. Σε μεταγενέστερες έρευνες, παρουσιάζονται οι αφαιρετικές προσεγγίσεις, οι οποίες δημιουργούν μια σύνοψη που μπορεί να περιέχει νέες φράσεις και προτάσεις σε σύγκριση με το έγγραφο εισόδου. Οι αφαιρετικές προσεγγίσεις δημιουργούν συνόψεις που μοιάζουν περισσότερο με αυτές που παράγονται από ανθρώπους συγγραφείς. Ωστόσο, εξακολουθούν να έχουν αρκετές ελλείψεις όσον αφορά την αναπαράσταση των συμφραζομένων του κειμένου, οι οποίες είναι απαραίτητες για τη διαμόρφωση εύγλωττων συνόψεων. Οι πρόσφατες εξελίξεις στη βαθιά μάθηση και τα προ-εκπαιδευμένα γλωσσικά μοντέλα οδηγούν στη βελτίωση πολλών εργασιών επεξεργασίας φυσικής γλώσσας, συμπεριλαμβανομένης της αφαιρετικής σύνοψης. Συνολικά, οι έρευνες που έχουν πραγματοποιηθεί δεν παρουσιάζουν ένα ολοκληρωμένο πλαίσιο αξιολόγησης που να αξιολογεί τις προαναφερθείσες προσεγγίσεις. Ακόμη, η έρευνα του πεδίου για την Ελληνική γλώσσα είναι περιορισμένη. Λαμβάνοντας υπόψη τα παραπάνω, η συμβολή της παρούσας εργασίας είναι τετραπλή: (i) παρέχει μια ολοκληρωμένη επισκόπηση των πιο πρόσφατων προσεγγίσεων αυτόματης σύνοψης κειμένου, τόσο για την Αγγλική όσο και την Ελληνική γλώσσα, (ii) παρέχει μια συγκριτική αξιολόγηση αυτών των προσεγγίσεων, χρησιμοποιώντας γνωστά σύνολα δεδομένων της βιβλιογραφίας, καθώς και δημοφιλείς βαθμολογίες αξιολόγησης, όπως οι ROUGE-1, ROUGE-2, ROUGE-L, ROUGE-LSUM, BLEU-1, BLEU-2 και SACREBLEU, (iii) συνεισφέρει σε ιδέες σχετικά με διάφορες πτυχές της σύνοψης κειμένου, συμπεριλαμβανομένων των προσεγγίσεων, των συνόλων δεδομένων, της αξιολόγησης, των ανοικτών ζητημάτων και των μελλοντικών ερευνητικών κατευθύνσεων, (iv) τα σύνολα δεδομένων και ο κώδικας που χρησιμοποιήθηκαν στα πειράματά είναι δημόσια διαθέσιμα, σε μια προσπάθεια να αυξηθεί η αναπαραγωγιμότητα της παρούσας εργασίας και να διευκολυνθεί η μελλοντική έρευνα στον τομέα.
author2 Mastrokostas, Charalampos
author_facet Mastrokostas, Charalampos
Μαστροκώστας, Χαράλαμπος
author Μαστροκώστας, Χαράλαμπος
author_sort Μαστροκώστας, Χαράλαμπος
title Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
title_short Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
title_full Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
title_fullStr Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
title_full_unstemmed Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας
title_sort αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της βιβλιογραφίας
publishDate 2023
url https://hdl.handle.net/10889/25377
work_keys_str_mv AT mastrokōstascharalampos automatēsynopsēkeimenōnseanglikakaiellēnikakeimenamiaepiskopēsētēsbibliographias
AT mastrokōstascharalampos automatictextsummarizationinenglishandgreektextsaliteratureoverview
_version_ 1771297202728075264
spelling nemertes-10889-253772023-07-07T03:54:30Z Αυτόματη σύνοψη κειμένων σε αγγλικά και ελληνικά κείμενα : μια επισκόπηση της Βιβλιογραφίας Automatic text summarization in English and Greek texts, a literature overview Μαστροκώστας, Χαράλαμπος Mastrokostas, Charalampos Επεξεργασία φυσικής γλώσσας Αυτόματη σύνοψη κειμένων Natural language processing Text summarization Η αυτόματη σύνοψη κειμένων είναι μια υποεργασία της Επεξεργασίας Φυσικής Γλώσσας που αναφέρεται στην αυτόματη δημιουργία μιας συνοπτικής και εύληπτης περίληψης που αποτυπώνει τις κύριες ιδέες και τα θέματα ενός ή περισσότερων εγγράφων. Παλαιότερες βιβλιογραφικές έρευνες επικεντρώνονται σε εξαγόμενες προσεγγίσεις, οι οποίες κατατάσσουν τις πιο σημαντικές προτάσεις του εγγράφου εισόδου και στη συνέχεια τις συνδυάζουν για να σχηματίσουν μια περίληψη. Ωστόσο, οι περιλήψεις αυτών των προσεγγίσεων δεν έχουν την ίδια λεξιλογική ροή ή συνοχή με τις περιλήψεις που παράγονται χειροκίνητα από ανθρώπους συγγραφείς. Σε μεταγενέστερες έρευνες, παρουσιάζονται οι αφαιρετικές προσεγγίσεις, οι οποίες δημιουργούν μια σύνοψη που μπορεί να περιέχει νέες φράσεις και προτάσεις σε σύγκριση με το έγγραφο εισόδου. Οι αφαιρετικές προσεγγίσεις δημιουργούν συνόψεις που μοιάζουν περισσότερο με αυτές που παράγονται από ανθρώπους συγγραφείς. Ωστόσο, εξακολουθούν να έχουν αρκετές ελλείψεις όσον αφορά την αναπαράσταση των συμφραζομένων του κειμένου, οι οποίες είναι απαραίτητες για τη διαμόρφωση εύγλωττων συνόψεων. Οι πρόσφατες εξελίξεις στη βαθιά μάθηση και τα προ-εκπαιδευμένα γλωσσικά μοντέλα οδηγούν στη βελτίωση πολλών εργασιών επεξεργασίας φυσικής γλώσσας, συμπεριλαμβανομένης της αφαιρετικής σύνοψης. Συνολικά, οι έρευνες που έχουν πραγματοποιηθεί δεν παρουσιάζουν ένα ολοκληρωμένο πλαίσιο αξιολόγησης που να αξιολογεί τις προαναφερθείσες προσεγγίσεις. Ακόμη, η έρευνα του πεδίου για την Ελληνική γλώσσα είναι περιορισμένη. Λαμβάνοντας υπόψη τα παραπάνω, η συμβολή της παρούσας εργασίας είναι τετραπλή: (i) παρέχει μια ολοκληρωμένη επισκόπηση των πιο πρόσφατων προσεγγίσεων αυτόματης σύνοψης κειμένου, τόσο για την Αγγλική όσο και την Ελληνική γλώσσα, (ii) παρέχει μια συγκριτική αξιολόγηση αυτών των προσεγγίσεων, χρησιμοποιώντας γνωστά σύνολα δεδομένων της βιβλιογραφίας, καθώς και δημοφιλείς βαθμολογίες αξιολόγησης, όπως οι ROUGE-1, ROUGE-2, ROUGE-L, ROUGE-LSUM, BLEU-1, BLEU-2 και SACREBLEU, (iii) συνεισφέρει σε ιδέες σχετικά με διάφορες πτυχές της σύνοψης κειμένου, συμπεριλαμβανομένων των προσεγγίσεων, των συνόλων δεδομένων, της αξιολόγησης, των ανοικτών ζητημάτων και των μελλοντικών ερευνητικών κατευθύνσεων, (iv) τα σύνολα δεδομένων και ο κώδικας που χρησιμοποιήθηκαν στα πειράματά είναι δημόσια διαθέσιμα, σε μια προσπάθεια να αυξηθεί η αναπαραγωγιμότητα της παρούσας εργασίας και να διευκολυνθεί η μελλοντική έρευνα στον τομέα. Automatic text summarization is a sub-process of Natural Language Processing that refers to the automatic creation of a concise and easy-to-understand summary that captures the main ideas and themes of one or more documents. Earlier literature studies focus on extractive approaches, which rank the most important sentences of the input document and then combine them to form a summary. However, the summaries of these approaches do not have the same lexical flow or consistency as summaries produced manually by human authors. Later research presents abstractive approaches, which generate a summary that contains possible new phrases and sentences, compared to the input document. The abstractive approaches create summaries that are more similar to those produced by human writers. However, they still have several shortcomings in terms of representing the context of the text, which is necessary to form fluent summaries. Recent developments, in deep learning and pre-trained language models, are leading to the improvement of many natural language processing tasks, including abstract summarization. Overall, previously conducted research does not present a comprehensive evaluation framework that assesses the aforementioned approaches. Furthermore, research in the field of automatic summarization for Greek texts is limited. Considering the above, the contribution of this paper is fourfold: (i) it provides a comprehensive overview of the most recent automatic text summarization approaches for both English and Greek; (ii) it provides a comparative evaluation of these approaches, using well-known datasets in the literature, as well as popular evaluation scores such as ROUGE-1, ROUGE-2, ROUGE-L, ROUGE-LSUM, BLEU-1, BLEU-2 and SACREBLEU; (iii) this thesis contributes insights on various aspects of text summarization, including approaches, datasets, evaluation, open issues and future research directions; (iv) the datasets and code used in the experiments are publicly available in an effort to increase the reproducibility of this work and facilitate future research in the field. 2023-07-06T06:53:49Z 2023-07-06T06:53:49Z 2023-07-05 https://hdl.handle.net/10889/25377 el CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ application/pdf