본문 바로가기
딥러닝 논문

3D human pose estimation in video with temporal convolutions andsemi-supervised training 리뷰

by 루루트 2022. 4. 19.
반응형

Dilated temporal convolutions을 이용하여 비디오에서 3D pose를 측정하는 논문입니다.

 

Abstract

Unlabeled video data를 이용한 semi-supervised learning을 이용했습니다. unlabeled video에서 예측한 2d keypoints를 이용하여 3D pose를 예측하고 이를 다시 2d keypoint로 back-project합니다. 

 

Introduction

이 논문은 비디오에서 3D pose를 예측하는 것에 집중하고 있습니다. 기존의 방법들은 2D keypoint가 가지고 있는 애매모호함 때문에 3D pose를 정확히 예측하지 못했습니다. 그래서 이를 해결하기 위해 RNN 같은 모델을 이용했습니다. 또한, CNN 모델도 temporal 정보를 모델링하는 것에 성공적인 모습을 보여주고 있습니다. Figure 1처럼 Fully convolutional 모델 구조를 이용하여 2d keypoint로부터 3D pose를 예측하는 모델을 제안했습니다.

 

라벨링된 데이터가 부족하기 때문에 semi-supervised learning을 이용했습니다. 이를 위해 cycle consistency를 이용했습니다.

그림 3처럼 projection을 통해 2D MPJPE loss를 이용할 수 있습니다.

 

자세한 내용은 아래의 유튜브 영상을 참고해주세요.

https://www.youtube.com/watch?v=lhP6BCeHj0g 

 

반응형