Human pose estimation using convolutional neural networks

Human Pose Estimation is an ongoing research topic in Computer Vision, the aim of which is to locate a sparse set of points in a given image, corresponding to the human body joints. It is of wide interest to the fields of Automatic Human Behavior Understanding and Human Computer Interaction, wit...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Ντίνου, Ιωάννα
Άλλοι συγγραφείς: Οικονόμου, Γεώργιος
Μορφή: Thesis
Γλώσσα:English
Έκδοση: 2018
Θέματα:
Διαθέσιμο Online:http://hdl.handle.net/10889/11344
id nemertes-10889-11344
record_format dspace
institution UPatras
collection Nemertes
language English
topic Pose estimation
Convolutional neural networks
Εκτίμηση πόζας
Συνελικτικά νευρωνικά δίκτυα
006.37
spellingShingle Pose estimation
Convolutional neural networks
Εκτίμηση πόζας
Συνελικτικά νευρωνικά δίκτυα
006.37
Ντίνου, Ιωάννα
Human pose estimation using convolutional neural networks
description Human Pose Estimation is an ongoing research topic in Computer Vision, the aim of which is to locate a sparse set of points in a given image, corresponding to the human body joints. It is of wide interest to the fields of Automatic Human Behavior Understanding and Human Computer Interaction, with applications ranging from animation to medical aid. Like many other Computer Vision disciplines, the field of Human Pose Estimation has benefited from the advent and development of Deep Learning and Convolutional Neural Networks, and has been boosted to attain impressive results in challenging datasets. The state of the art methods for Human Pose Estimation build on deep networks that produce heatmaps, in a loosely way to spatially locate the joints. One of the appealing factors behind the success of Human Pose Estimation methods relies on the fact that very good results can be obtained from just a single monocular RGB image, making them suitable for most portable camera systems, such as those embedded in mobile phones. However, the use of monocular RGB images has an important drawback, as it incurs in a loss of information that seems crucial for a full scene understanding. To wit: human vision locates objects within the 3D space thanks to the stereo vision and the parallax effect, tools that do not apply when working with monocular static images. While there is plenty of research in both depth and human pose estimation, the combination of them is yet to be unearthed. This thesis proposes a simple yet effective method for human pose estimation, which applies a preprocessing step to the monocular images, tasked with generating the depth maps. Namely, this thesis joins both approaches in a single framework that augments the input RGB images with their corresponding depth maps, in a cascaded manner. First, this thesis uses a network that generates a pixel-wise depth map from an input monocular image. This depth map is concatenated along with the color information, and subsequently forwarded to another network that estimates the heatmaps corresponding to the joint locations. The input to the latter network is the 4D volume made up of the RGB+Depth information, and the topology of both networks build upon the newly introduced hourglass architecture. The proposed approach is evaluated in one of the most recent and extensive benchmarks in Human Pose Estimation, showing the importance of using the depth maps to achieve better performance.
author2 Οικονόμου, Γεώργιος
author_facet Οικονόμου, Γεώργιος
Ντίνου, Ιωάννα
format Thesis
author Ντίνου, Ιωάννα
author_sort Ντίνου, Ιωάννα
title Human pose estimation using convolutional neural networks
title_short Human pose estimation using convolutional neural networks
title_full Human pose estimation using convolutional neural networks
title_fullStr Human pose estimation using convolutional neural networks
title_full_unstemmed Human pose estimation using convolutional neural networks
title_sort human pose estimation using convolutional neural networks
publishDate 2018
url http://hdl.handle.net/10889/11344
work_keys_str_mv AT ntinouiōanna humanposeestimationusingconvolutionalneuralnetworks
AT ntinouiōanna ektimēsēpozasmesyneliktikaneurōnikadiktya
_version_ 1771297302093234176
spelling nemertes-10889-113442022-09-05T20:52:09Z Human pose estimation using convolutional neural networks Εκτίμηση πόζας με συνελικτικά νευρωνικά δίκτυα Ντίνου, Ιωάννα Οικονόμου, Γεώργιος Αναστασόπουλος, Βασίλειος Φωτόπουλος, Συρίδων Ntinou, Ioanna Pose estimation Convolutional neural networks Εκτίμηση πόζας Συνελικτικά νευρωνικά δίκτυα 006.37 Human Pose Estimation is an ongoing research topic in Computer Vision, the aim of which is to locate a sparse set of points in a given image, corresponding to the human body joints. It is of wide interest to the fields of Automatic Human Behavior Understanding and Human Computer Interaction, with applications ranging from animation to medical aid. Like many other Computer Vision disciplines, the field of Human Pose Estimation has benefited from the advent and development of Deep Learning and Convolutional Neural Networks, and has been boosted to attain impressive results in challenging datasets. The state of the art methods for Human Pose Estimation build on deep networks that produce heatmaps, in a loosely way to spatially locate the joints. One of the appealing factors behind the success of Human Pose Estimation methods relies on the fact that very good results can be obtained from just a single monocular RGB image, making them suitable for most portable camera systems, such as those embedded in mobile phones. However, the use of monocular RGB images has an important drawback, as it incurs in a loss of information that seems crucial for a full scene understanding. To wit: human vision locates objects within the 3D space thanks to the stereo vision and the parallax effect, tools that do not apply when working with monocular static images. While there is plenty of research in both depth and human pose estimation, the combination of them is yet to be unearthed. This thesis proposes a simple yet effective method for human pose estimation, which applies a preprocessing step to the monocular images, tasked with generating the depth maps. Namely, this thesis joins both approaches in a single framework that augments the input RGB images with their corresponding depth maps, in a cascaded manner. First, this thesis uses a network that generates a pixel-wise depth map from an input monocular image. This depth map is concatenated along with the color information, and subsequently forwarded to another network that estimates the heatmaps corresponding to the joint locations. The input to the latter network is the 4D volume made up of the RGB+Depth information, and the topology of both networks build upon the newly introduced hourglass architecture. The proposed approach is evaluated in one of the most recent and extensive benchmarks in Human Pose Estimation, showing the importance of using the depth maps to achieve better performance. Η εκτίμηση πόζας συνιστά ένα θεμελιώδες πρόβλημα στο χώρο της Μηχανικής Όρασης, ο στόχος του οποίου είναι ο αυτόματος εντοπισμός ενός συνόλου σημείων που αντιστοιχούν στις αρθρώσεις του ανθρωπίνου σώματος. Έχει μεγάλο ενδιαφέρον για τα πεδία «Αυτόματης Κατανόησης της Ανθρώπινης Συμπεριφοράς» καθώς και «Αλληλεπίδρασης Ανθρώπου-Υπολογιστή», με εφαρμογές που κυμαίνονται από κινούμενα σχέδια ως και ιατρική βοήθεια. Μία από τις σημαντικότερες επιτυχίες των συστημάτων εκτίμησης πόζας είναι ο επιτυχής εντοπισμός των αρθρώσεων του ανθρωπίνου σώματος χρησιμοποιώντας αποκλειστικά μία έγχρωμη εικόνα, καθιστώντας τα κατάλληλα για φορητά συστήματα κάμερας όπως τα κινητά τηλέφωνα. Ωστόσο, η αποκλειστική χρήση έγχρωμων εικόνων έχει ένα σημαντικό μειονέκτημα, την απώλεια πληροφορίας από την προβολή του τρισδιάστατου χώρου στη δισδιάστατη εικόνα. Αυτή η απώλεια φαίνεται να είναι ζωτικής σημασίας δεδομένου ότι τα περισσότερα συστήματα εκτίμησης πόζας εντοπίζουν αντικείμενα εντός του τρισδιάστατου χώρου εξαιτίας της στερεοφωνικής όρασης και του φαινομένου parallax. Με αυτό το κίνητρο, η παρούσα εργασία προτείνει την ενσωμάτωση εικόνων βάθους σε συστήματα εκτίμησης πόζας με έγχρωμες εικόνες για αποδοτικότερο προσδιορισμό των αρθρώσεων του ανθρωπίνου σώματος. Συγκεκριμένα, προτείνεται μια τοπολογία Συνελικτικών Νευρωνικών Δικτύων δύο επιπέδων. Το πρώτο δίκτυο εκτιμά βάθος από έγχρωμες εικόνες , παράγοντας εικόνες βάθους. Η έξοδος του δικτύου αυτού τοποθετείται σε στοίβα με την έγχρωμη εικόνα και εν συνεχεία χρησιμοποιείται σαν είσοδος σε ένα δεύτερο δίκτυο που εκτιμά πόζα. Η τοπολογία και των δύο δικτύων βασίζεται στα νεοεισαχθείσα αρχιτεκτονική κλεψύδρας. Η προτεινόμενη προσέγγιση αξιολογείται σε μία από τις πιο πρόσφατες και εκτεταμένες βάσεις δεδομένων για την εκτίμηση πόζας δείχνοντας τη σημασία της χρήσης εικόνων βάθους στα συστήματα εκτίμησης πόζας. 2018-06-08T15:27:20Z 2018-06-08T15:27:20Z 2018-02-25 Thesis http://hdl.handle.net/10889/11344 en_US 0 application/pdf