Summary: | Η αυτόματη σύνοψη κειμένων είναι μια υποεργασία της Επεξεργασίας Φυσικής Γλώσσας που αναφέρεται στην αυτόματη δημιουργία μιας συνοπτικής και εύληπτης περίληψης που αποτυπώνει τις κύριες ιδέες και τα θέματα ενός ή περισσότερων εγγράφων. Παλαιότερες βιβλιογραφικές έρευνες επικεντρώνονται σε εξαγόμενες προσεγγίσεις, οι οποίες κατατάσσουν τις πιο σημαντικές προτάσεις του εγγράφου εισόδου και στη συνέχεια τις συνδυάζουν για να σχηματίσουν μια περίληψη. Ωστόσο, οι περιλήψεις αυτών των προσεγγίσεων δεν έχουν την ίδια λεξιλογική ροή ή συνοχή με τις περιλήψεις που παράγονται χειροκίνητα από ανθρώπους συγγραφείς. Σε μεταγενέστερες έρευνες, παρουσιάζονται οι αφαιρετικές προσεγγίσεις, οι οποίες δημιουργούν μια σύνοψη που μπορεί να περιέχει νέες φράσεις και προτάσεις σε σύγκριση με το έγγραφο εισόδου. Οι αφαιρετικές προσεγγίσεις δημιουργούν συνόψεις που μοιάζουν περισσότερο με αυτές που παράγονται από ανθρώπους συγγραφείς. Ωστόσο, εξακολουθούν να έχουν αρκετές ελλείψεις όσον αφορά την αναπαράσταση των συμφραζομένων του κειμένου, οι οποίες είναι απαραίτητες για τη διαμόρφωση εύγλωττων συνόψεων. Οι πρόσφατες εξελίξεις στη βαθιά μάθηση και τα προ-εκπαιδευμένα γλωσσικά μοντέλα οδηγούν στη βελτίωση πολλών εργασιών επεξεργασίας φυσικής γλώσσας, συμπεριλαμβανομένης της αφαιρετικής σύνοψης. Συνολικά, οι έρευνες που έχουν πραγματοποιηθεί δεν παρουσιάζουν ένα ολοκληρωμένο πλαίσιο αξιολόγησης που να αξιολογεί τις προαναφερθείσες προσεγγίσεις. Ακόμη, η έρευνα του πεδίου για την Ελληνική γλώσσα είναι περιορισμένη. Λαμβάνοντας υπόψη τα παραπάνω, η συμβολή της παρούσας εργασίας είναι τετραπλή: (i) παρέχει μια ολοκληρωμένη επισκόπηση των πιο πρόσφατων προσεγγίσεων αυτόματης σύνοψης κειμένου, τόσο για την Αγγλική όσο και την Ελληνική γλώσσα, (ii) παρέχει μια συγκριτική αξιολόγηση αυτών των προσεγγίσεων, χρησιμοποιώντας γνωστά σύνολα δεδομένων της βιβλιογραφίας, καθώς και δημοφιλείς βαθμολογίες αξιολόγησης, όπως οι ROUGE-1, ROUGE-2, ROUGE-L, ROUGE-LSUM, BLEU-1, BLEU-2 και SACREBLEU, (iii) συνεισφέρει σε ιδέες σχετικά με διάφορες πτυχές της σύνοψης κειμένου, συμπεριλαμβανομένων των προσεγγίσεων, των συνόλων δεδομένων, της αξιολόγησης, των ανοικτών ζητημάτων και των μελλοντικών ερευνητικών κατευθύνσεων, (iv) τα σύνολα δεδομένων και ο κώδικας που χρησιμοποιήθηκαν στα πειράματά είναι δημόσια διαθέσιμα, σε μια προσπάθεια να αυξηθεί η αναπαραγωγιμότητα της παρούσας εργασίας και να διευκολυνθεί η μελλοντική έρευνα στον τομέα.
|