Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές
Η δημιουργία της νοηματικής γλώσσας επέτρεψε στα άτομα με προβλήματα ακοής να επικοινωνούν μεταξύ τους, καθώς και να μοιράζονται τις ανάγκες, τις ιδέες και τους προβληματισμούς τους. Ωστόσο, η επικοινωνία αυτών των ανθρώπων με τη μάζα απαιτούσε την εκμάθηση της νοηματικής γλώσσας από όλους, γεγονός...
Main Author: | |
---|---|
Other Authors: | |
Language: | Greek |
Published: |
2023
|
Subjects: | |
Online Access: | https://hdl.handle.net/10889/25340 |
id |
nemertes-10889-25340 |
---|---|
record_format |
dspace |
institution |
UPatras |
collection |
Nemertes |
language |
Greek |
topic |
Μηχανική μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση εικόνων Κατηγοριοποίηση εικόνων Machine learning Convolutional neural networks Image recognition Image classification Contrastive learning |
spellingShingle |
Μηχανική μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση εικόνων Κατηγοριοποίηση εικόνων Machine learning Convolutional neural networks Image recognition Image classification Contrastive learning Σφατίδης, Γεώργιος Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
description |
Η δημιουργία της νοηματικής γλώσσας επέτρεψε στα άτομα με προβλήματα ακοής να
επικοινωνούν μεταξύ τους, καθώς και να μοιράζονται τις ανάγκες, τις ιδέες και τους
προβληματισμούς τους. Ωστόσο, η επικοινωνία αυτών των ανθρώπων με τη μάζα απαιτούσε
την εκμάθηση της νοηματικής γλώσσας από όλους, γεγονός το οποίο δημιουργεί άμεσα
περιορισμούς και δυσκολίες. Συνεπώς, καλούμαστε να αντιμετωπίσουμε αυτό τον
προβληματισμό, μέσω της ανάλυσης και της αναγνώρισης της νοηματικής γλώσσας, με
έμφαση στις χειρομορφές, διευκολύνοντας με αυτόν τον τρόπο την επικοινωνία μεταξύ των
δύο πλευρών. Σε αυτή τη διπλωματική εργασία προσεγγίζουμε την ανάλυση αυτή, μέσω του
πλέον αποδοτικότερου τρόπου κατηγοριοποίησης εικόνων, χρησιμοποιώντας τις δυνατότητες
της Μηχανικής Μάθησης (Machine Learning, ML) και πιο συγκεκριμένα των Συνελικτικών
Νευρωνικών Δικτύων (Convolutional Neural Networks, CNN). Με την τεχνολογία αυτή
δίνουμε τη δυνατότητα σε όλους τους ανθρώπους να ξεπεράσουν τις δυσκολίες στην
κατανόηση και στη χρήση της νοηματικής γλώσσας προσφέροντας την ευκαιρία της
επικοινωνίας. Ωστόσο, για την καλύτερη και αποδοτικότερη εκπαίδευση των συγκεκριμένων
δικτύων, η ύπαρξη ενός υπερβολικά μεγάλου όγκου δεδομένων από φωτογραφίες
χειρομορφών κρίνεται απαραίτητη. Στο πρώτο κεφάλαιο της συγκεκριμένης διπλωματικής
εργασίας παρουσιάζεται το πρόβλημα που κληθήκαμε να αντιμετωπίσουμε, οι δυσκολίες που
εμφανίζονται στην αναγνώριση των εικόνων από τον υπολογιστή και ο τρόπος με τον οποίο
εργαστήκαμε για να τις ξεπεράσουμε. Εν συνεχεία, στο δεύτερο κεφάλαιο παραθέτονται οι
πλέον σύγχρονες τεχνικές υλοποιήσεις (state-of-the-art) των δομών ενός αποδοτικού
Νευρωνικού Δικτύου. Ακολούθως, στο τρίτο κεφάλαιο θα παρουσιαστούν η μεθοδολογία και
οι τεχνικές εκπαίδευσης του δικτύου μαζί με λεπτομέρειες πάνω στην αρχιτεκτονική του
Συνελικτικού μοντέλου που εκπαιδεύσαμε. Τα πειράματα, που διενεργήθηκαν, σε συνδυασμό
με όλα τα τεχνικά χαρακτηριστικά, καθώς και οι λεπτομέρειες των παραμέτρων μαζί με τα
συμπεράσματα που προέκυψαν από αυτά, αναλύονται στο τέταρτο κεφάλαιο. Τέλος, η
διπλωματική εργασία ολοκληρώνεται στο πέμπτο κεφάλαιο, στο οποίο παρουσιάζουμε τα
μελλοντικά βήματα που θα οδηγήσουν στην εξέλιξη και στην ανάπτυξη του συγκεκριμένου
τομέα ερευνών. |
author2 |
Sfatidis, Georgios |
author_facet |
Sfatidis, Georgios Σφατίδης, Γεώργιος |
author |
Σφατίδης, Γεώργιος |
author_sort |
Σφατίδης, Γεώργιος |
title |
Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
title_short |
Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
title_full |
Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
title_fullStr |
Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
title_full_unstemmed |
Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
title_sort |
επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές |
publishDate |
2023 |
url |
https://hdl.handle.net/10889/25340 |
work_keys_str_mv |
AT sphatidēsgeōrgios epexergasiabinteogiaanalysēnoēmatikēsglōssasmeemphasēstischeiromorphes AT sphatidēsgeōrgios videoeditingforsignlanguageanalysiswithanemphasisonhandgestures |
_version_ |
1771297152164691968 |
spelling |
nemertes-10889-253402023-07-06T03:53:30Z Επεξεργασία βίντεο για ανάλυση νοηματικής γλώσσας με έμφαση στις χειρομορφές Video editing for sign language analysis with an emphasis on hand gestures Σφατίδης, Γεώργιος Sfatidis, Georgios Μηχανική μάθηση Συνελικτικά νευρωνικά δίκτυα Αναγνώριση εικόνων Κατηγοριοποίηση εικόνων Machine learning Convolutional neural networks Image recognition Image classification Contrastive learning Η δημιουργία της νοηματικής γλώσσας επέτρεψε στα άτομα με προβλήματα ακοής να επικοινωνούν μεταξύ τους, καθώς και να μοιράζονται τις ανάγκες, τις ιδέες και τους προβληματισμούς τους. Ωστόσο, η επικοινωνία αυτών των ανθρώπων με τη μάζα απαιτούσε την εκμάθηση της νοηματικής γλώσσας από όλους, γεγονός το οποίο δημιουργεί άμεσα περιορισμούς και δυσκολίες. Συνεπώς, καλούμαστε να αντιμετωπίσουμε αυτό τον προβληματισμό, μέσω της ανάλυσης και της αναγνώρισης της νοηματικής γλώσσας, με έμφαση στις χειρομορφές, διευκολύνοντας με αυτόν τον τρόπο την επικοινωνία μεταξύ των δύο πλευρών. Σε αυτή τη διπλωματική εργασία προσεγγίζουμε την ανάλυση αυτή, μέσω του πλέον αποδοτικότερου τρόπου κατηγοριοποίησης εικόνων, χρησιμοποιώντας τις δυνατότητες της Μηχανικής Μάθησης (Machine Learning, ML) και πιο συγκεκριμένα των Συνελικτικών Νευρωνικών Δικτύων (Convolutional Neural Networks, CNN). Με την τεχνολογία αυτή δίνουμε τη δυνατότητα σε όλους τους ανθρώπους να ξεπεράσουν τις δυσκολίες στην κατανόηση και στη χρήση της νοηματικής γλώσσας προσφέροντας την ευκαιρία της επικοινωνίας. Ωστόσο, για την καλύτερη και αποδοτικότερη εκπαίδευση των συγκεκριμένων δικτύων, η ύπαρξη ενός υπερβολικά μεγάλου όγκου δεδομένων από φωτογραφίες χειρομορφών κρίνεται απαραίτητη. Στο πρώτο κεφάλαιο της συγκεκριμένης διπλωματικής εργασίας παρουσιάζεται το πρόβλημα που κληθήκαμε να αντιμετωπίσουμε, οι δυσκολίες που εμφανίζονται στην αναγνώριση των εικόνων από τον υπολογιστή και ο τρόπος με τον οποίο εργαστήκαμε για να τις ξεπεράσουμε. Εν συνεχεία, στο δεύτερο κεφάλαιο παραθέτονται οι πλέον σύγχρονες τεχνικές υλοποιήσεις (state-of-the-art) των δομών ενός αποδοτικού Νευρωνικού Δικτύου. Ακολούθως, στο τρίτο κεφάλαιο θα παρουσιαστούν η μεθοδολογία και οι τεχνικές εκπαίδευσης του δικτύου μαζί με λεπτομέρειες πάνω στην αρχιτεκτονική του Συνελικτικού μοντέλου που εκπαιδεύσαμε. Τα πειράματα, που διενεργήθηκαν, σε συνδυασμό με όλα τα τεχνικά χαρακτηριστικά, καθώς και οι λεπτομέρειες των παραμέτρων μαζί με τα συμπεράσματα που προέκυψαν από αυτά, αναλύονται στο τέταρτο κεφάλαιο. Τέλος, η διπλωματική εργασία ολοκληρώνεται στο πέμπτο κεφάλαιο, στο οποίο παρουσιάζουμε τα μελλοντικά βήματα που θα οδηγήσουν στην εξέλιξη και στην ανάπτυξη του συγκεκριμένου τομέα ερευνών. The creation of sign language has helped hearing impaired people to communicate with each other as well as share their need, ideas and concerns. However, the communication of these people with the mass required the learning of sign language by everyone, which immediately creates limitations and difficulties. Therefore, we are called to address this concern, through the analysis and recognition of sign language, emphasizing on hand gestures, thus facilitating communication between both sides. Through this diploma thesis we approach this analysis by the most efficient way of categorizing images using the capabilities of Machine Learning (ML) and more specifically of Convolutional Neural Networks (CNNs). Through this technology we enable all people to overcome difficulties in understanding and using sign language by offering everyone the opportunity to communicate. Nevertheless, for the best and most efficient training for the specific networks, the existence of an excessively large amount of data from photographs of hand gestures is deemed necessary. The thesis begins with the first chapter where we analyze the problem we were asked to face, the difficulties that appear in the recognition of images by the computer and the way we worked to overcome them. Then, in the second chapter, the most modern and state-of-the-art technical implementations of the structures of an efficient Neural Network are listed. In the third chapter, the methodology and the training techniques will be presented together with details on the network architecture we trained. Τhe experiments carried out in combination with all the technical characteristics and details of the parameters together with the conclusion obtained of these, are analyzed in the fourth chapter. Finally, the thesis concludes with the fifth chapter, in which we state the future steps that will lead to the evolution and development of the specific field of research. 2023-07-05T06:24:33Z 2023-07-05T06:24:33Z 2023-07-04 https://hdl.handle.net/10889/25340 el Attribution-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nd/3.0/us/ application/pdf |