
Dilated temporal convolutions을 이용하여 비디오에서 3D pose를 측정하는 논문입니다.
Abstract
Unlabeled video data를 이용한 semi-supervised learning을 이용했습니다. unlabeled video에서 예측한 2d keypoints를 이용하여 3D pose를 예측하고 이를 다시 2d keypoint로 back-project합니다.
Introduction
이 논문은 비디오에서 3D pose를 예측하는 것에 집중하고 있습니다. 기존의 방법들은 2D keypoint가 가지고 있는 애매모호함 때문에 3D pose를 정확히 예측하지 못했습니다. 그래서 이를 해결하기 위해 RNN 같은 모델을 이용했습니다. 또한, CNN 모델도 temporal 정보를 모델링하는 것에 성공적인 모습을 보여주고 있습니다. Figure 1처럼 Fully convolutional 모델 구조를 이용하여 2d keypoint로부터 3D pose를 예측하는 모델을 제안했습니다.
라벨링된 데이터가 부족하기 때문에 semi-supervised learning을 이용했습니다. 이를 위해 cycle consistency를 이용했습니다.

그림 3처럼 projection을 통해 2D MPJPE loss를 이용할 수 있습니다.
자세한 내용은 아래의 유튜브 영상을 참고해주세요.
https://www.youtube.com/watch?v=lhP6BCeHj0g
'딥러닝 논문' 카테고리의 다른 글
ControlNet 논문 자세한 정리 (1) | 2024.09.04 |
---|---|
PARE: Part Attention Regressor for 3D Human Body Estimation 리뷰 (0) | 2022.06.20 |
Dynamic Surface Function Networks for Clothed Human Bodies 리뷰 (0) | 2022.03.28 |
Semantics-Guided Neural Networks for Efficient Skeleton-BasedHuman Action Recognition 리뷰 (0) | 2022.03.22 |
Multi-Instance Pose Networks: Rethinking Top-Down Pose Estimation 리뷰 (0) | 2022.03.22 |