- 2021년 2월 22일 오후 10:19
- 조회수: 3871
INFORMATION
- 2021년 2월 26일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
[1] Dang, Q., Yin, J., Wang, B., & Zheng, W. (2019). Deep learning based 2d human pose estimation: A survey. Tsinghua Science and Technology, 24(6), 663-676.
[2] Toshev, A., & Szegedy, C. (2014). Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1653-1660).
[3] Wei, S. E., Ramakrishna, V., Kanade, T., & Sheikh, Y. (2016). Convolutional pose machines. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 4724-4732).
[4] He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 2961-2969).
발표자 후기
금일 세미나 주제는 Human pose estimation였다. 해당 주제를 선정하게 된 배경은 Computer vision 주요 벤치마크인 Microsoft Common Objects in Context (MS COCO)에 존재하는 문제(Task)별 알고리즘 설명을 마무리해보자는 것이었다. 해당 벤치마크에 존재하는 문제는 크게 세 가지(Object detection, Instance segmentation, Human pose estimation) 라 할 수 있다. 연구실에 입학 후 문제별로 Mask R-CNN, Weakly supervised semantic segmentation, human pose estimation 각각을 진행했다는 것에 이번 세미나의 큰 의의를 두고 싶다. 이미지 관련 딥러닝 연구는 모델 학습 시간도 많이 필요하며 가장 중요하게 여겨지고 있는 분야이다. 신입생들과 다른 연구원들이 이미지 데이터에 대한 관심을 가지게 할 수 있고, 함께 연구할 수 있는 디딤돌이 되는 세미나였으면 하는 조그마한 바람이 이루어지길 기대하며 세미나 후기를 마무리한다.
청취자 후기
금일 세미나는 용원이형이 "Introduction to Human Pose Estimation" 주제로 발표를 해주었다. 개인적으로 Human Pose Estimation(HPE)는 생소한 연구 분야였지만 용원이형이 친절하게 설명해주어 이해하는데 큰 어려움이 없었다. HPE는 사람의 관절 위치 정보를 추정하기 위한 것으로 자세 교정이나 애니메이션 생성과 같은 실제 산업 분야에서 활발하게 이용되고 있는 연구였다. HPE를 하기 위해서는 일반적인 RGB 이미지가 입력되고 이미지내 사람의 바운딩 박스와 관절 위치(x,y) 좌표가 출력된다고 한다. HPE를 학습하기 위한 모델은 입력 이미지 내 사람의 수에 따라 Single person pose estimation과 Multi-person pose estimation으로 구분된다. 금일 세미나에서는 Single person pose estimation에서 관절 별 좌표를 예측하는 Direct regression과 Multi-person pose estimation에서 우선적으로 사람의 위치를 탐지 후에 관절별 좌표를 예측하는 Top-down approach에 대해 중점적으로 설명해주었다. 개인적으로 Single person pose estimation 설명에서 Percent of Detected Joints(PDJ) 지표가 인상깊었는데 모델이 예측한 위치가 사전에 정의한 특정 범위의 원 내에 위치되어 있는지에 대해 계산을 하고 이를 Detection rate로 표기한다고 한다. PDJ는 처음 알게된 지표인데 추후에 유용하게 사용될 수 있는 지표라고 생각된다. 이후 Object Detection , Instance segmentation, Human pose estimation을 하나의 모델로 해결해줄 수 있는 Mask R-CNN에 대해 소개해주었고 기존 Mask R-CNN 모듈에서 Human pose estimation을 위한 모듈을 추가하여 이미지 내 사람의 종류와 각 사람의 관절 위치까지 최종적으로 출력해주는 모델이였다. 매번 용원이형의 세미나를 들으면서 느끼는 점은 용원이형은 항상 청취자의 이해를 돕기 위해 많은 고민과 노력을 한다는 것이 발표자료에서 느껴진다. 생소한 이론에 대해서도 청취자들이 이해하기 쉽도록 직관적인 예시와 시각적인 자료를 준비해주는데 이런 점에서 나도 많이 배워야 하는 부분이라고 생각된다. 오늘도 유익한 이론에 대해 이해하기 쉽게 설명해준 용원이형에게 감사하다고 전하고 싶다.
금일은 Human pose estimation을 주제로 세미나가 진행되었다. 개인적으로 Human pose estimation에 대해 처음 접했던 경험은 코엑스에서 열렸던 2019 ICCV 학회였다. 당시 학회에서 사람의 여러 관절 마디를 예측하는 연구들을 보면서 ‘저렇게 많은 부분을 어떻게 한 번에 예측하는 것인가?’라는 의문이 들었었다. 이후 개인적 연구 방향성과 멀어지면서 이 부분에 대해서는 잊고 지냈던 것 같다. 이번 세미나는 과거에 호기심을 가졌었던 연구에 대해서 자세하게 설명을 들을 수 있어서 좋았다. 먼저 Single person pose estimation 중 딥러닝을 Human pose estimation 분야에 최초로 적용한 DeepPose 연구를 중심으로 세미나가 진행되었다. DeepPose 모델은 이미지 내에서 사람이 존재하는 Bounding Box를 찾아 사람 이미지를 추출한 뒤, 고정 크기로 변환해서 관절별 좌표를 예측하게 된다. 이 때, 관절의 대략적인 위치를 파악하고 이 후, 관절별로 개별적인 모형을 사용해 관절 위치를 탐지하게 된다. 하지만 이 방법론은 관절별로 모형을 학습하기 때문에 학습 및 추론 시간이 오래 걸린다는 단점과 관절 사이의 관계가 고려되지 않는다는 단점이 존재한다. 이후 Mask R-CNN을 활용한 Multi-person pose estimation 연구가 소개되었다. 이 연구의 핵심은 Human pose estimation에 도움이 되는 유사한 Task를 동시에 수행하여 모델 성능을 높이는 것이다. 이미지 내에서 사람의 위치를 찾고, 위치와 픽셀별로 어떤 사람인지를 찾는 것이 사람별 관절 위치를 탐지하는데 도움이 되는 task라는 점을 활용해 함께 학습하며 모델 성능 향상을 도모한다. 이번 세미나에서는 2019 ICCV 학회에서 가졌던 개인적 궁금증을 자세하면서도 하나하나 따라가며 이해하기 쉽게 설명해 준 좋은 세미나였다. Human pose estimation에서 딥러닝이 적용된 최초의 논문과 Mask R-CNN을 적용한 비교적으로 최근 논문 2개를 비교하면서 내용을 듣다 보니 Human pose estimation 연구의 큰 흐름을 알 수 있어서 좋았다. 좋은 세미나를 준비해 준 용원이에게 감사함을 표한다.
이번 세미나는 "Introduction to Human Pose Estimation"라는 주제로 진행되었다. Human pose estimation은 사람이 포함된 이미지가 주어졌을 때 사람의 관절을 잘 예측하는 것을 목적으로 하는 분야이며 사람의 관절 위치를 잘 파악함으로써 헬스케어와 관련된 분야에서 다양하게 활용될 수 있다. Human pose estimation은 이미지 내에 한 명의 사람만 존재하는 경우인 single person pose estimation과 여러 사람이 존재하는 multi-person pose estimation으로 구분된다. 이번 세미나에서는 single person pose estimation에서 관절 별 좌표를 바로 예측하는 모델인 DeepPose 모델과 multi-person pose estimation에서 사람을 탐지한 후 관절 별 좌표를 예측(Top-down approach)하는 모델 중 하나인 Mask R-CNN 모델에 관해서 소개되었다. DeepPose는 human pose estimation에 처음 딥러닝을 적용한 사례로 2단계를 거쳐 학습을 진행하게 된다. 첫 번째 단계에서는 이미지 내에서 사람을 추출한 후 해당 이미지에서 관절의 위치를 예측하는 단계이다. 이를 통해 모델은 관절의 대략적 위치를 파악할 수 있게 된다. 두 번째 단계에서는 관절 별로 개별적인 모형을 학습해 관절의 위치를 더욱 정밀하게 탐색할 수 있도록 하는 단계이다. 관절 별로 모델을 학습하기 때문에 필요한 모델의 수가 증가하며 추론 시간이 오래 걸린다는 단점이 존재한다. 다음으로 소개된 Mask R-CNN은 instance segmentation을 위해 제안된 모델이지만 약간의 변형을 통해 human pose estimation에도 활용할 수 있게 된다. 기존의 Mask R-CNN은 이미지에서 객체가 존재할 것으로 예상되는 영역을 먼저 탐지한다. 각 영역에서 실제 사람이 존재하는 bounding box와 bounding box 내에서 실제 사람이 존재하는지에 대한 픽셀별 binary classification을 통해 instance segmentation을 수행하게 된다. 이때 객체가 존재할 것으로 예상되는 영역을 활용해 사람의 관절을 탐지하는 가지를 하나 더 생성하면 Mask R-CNN을 활용해 human pose estimation을 수행할 수 있게 된다. 이는 multi-task learning의 일종으로 볼 수 있으며 유사한 task를 동시에 수행하기 때문에 각 task에 대한 성능이 증가할 수 있게 된다. 이번 세미나를 통해 human pose estimation이라는 새로운 분야에 대해 접할 수 있게 되어 의미 있는 세미나였다. 세미나를 위해 고생해준 용원이형에게 감사의 뜻을 전한다.
Computer Vision 분야에는 Classification, Localization, Object Detection, Segmentation 등의 다양한 task가 있다. 상기의 task들에 대한 연구는 몇 번 들어봤을 정도로 익숙하지만, Key point detection/Human Pose estimation 에 대한 모델은 잘 알지 못했다. 오늘 세미나는 객체가 하나/ 여럿일 때에 쓰이는 Human Pose Estimation 방법론에 대해 알아보았다. 객체 개수에 따라 접근 방식이 확연히 달라지는 것이 놀라웠다.
Single-Person Pose Estimation 은 DeepPose 모델에 대해 알아보았다. Human Pose Estimation 에서 최초로 Deep learning을 적용한 것으로 의의는 크지만, 세미나 중간에 용원이형께서 말씀하셨다시피, CNN 초기 모델인 AlexNet으로 진행했다는 점, 그리고 예측해야하는 관절 갯수에 따라 Inference Time이 크게 증가한다는 한계점이 보였다. 그래서 ResNet 등의 비교적 최근 모델로 backbone을 구축하고 Inference Time을 줄인 논문은 어떤 것이 있는지 관심을 가지게 되었다.
Multi-Person Pose Estimation 은 Instance Segmentation 에 익숙한 Mask-RCNN 에 HPE Module 을 하나 추가하였다. Mask RCNN 은 Object Detection, Instance Segmentation, Human Pose Estimation 등 다양한 task에 적용할 수 있는데, 이는 Proposal Region 으로부터 각각의 task 에 맞는 모듈을 간단히 임베딩함으로써 가능하다. Mask RCNN은 Two-Stage 기반으로 성능이 좋은 대신 추론 속도가 느리다. RetinaNet 같은 one stage 기반 모델에 HPE 를 접목시킨 연구는 어떤 것이 있을까 궁금하게 되었다.
오늘의 세미나로 인해 HPE 에 대한 대표적인 방법론 2가지에 대해 알게 되었는데, 이로 인해 더 많은 궁금증이 생기게 되었고, 안목을 넓힐 수 있었다. 세미나를 준비한다고 고생하신 용원이형께 감사의 말씀을 드린다.
오늘은 용원이가 "Human pose estimation"에 대해 소개해주었다. Human pose estimation은 이미지 내 사람의 관절좌표를 예측하는 문제를 말한다. 사람의 자세를 인식하여 운동 자세 관련 솔루션이나 물리치료사에게 정보 제공, 관절의 위치를 인식하여 애니메이션을 생성할 수 있는 것도하는 등 여러 응용분야가 있다. 입력데이터는 이미지, 출력데이터는 사람의 Bounding box 및 관절 위치로, 요즘 관절 위치를 지정하여 출력데이터를 생성할 수 있는 무료 Tool로 일반인들도 무료로 사용할 수 있는 "supervisely"도 있다. 입력이미지 내 사람이 한명있는 경우, 그렇지 않은 경우를 각각 (1) simgle person pose estimation, (2) multiperson pose estimation 문제로 정의 한다. (1) simgle person pose estimation은 direct regression method, heatmap-based estimation 접근이 있고, (2) multiperson pose estimation은 top down (사람 탐지 후 관절별 좌표 예측), bottom up apprach (관절 예측 후 사람별로 나누는 과정) 접근이 있다. 오늘 세미나에선 각 접근 법마다 한개씩 대표 방법론을 소개해 주었다. (1) simgle person pose estimation 을 위한 direct regression method 접근법에서 대표 방법론으로는 "DeepPose: human pose estimation via deep neural networks" 논문을 소개해 주었다. 본 논문은 딥러닝 방법론을 활용해 pose 예측을 수행한 최초 연구로, 입력 이미지를 고정된 이미지 크기로 변환기 위해 관절별 좌표를 재정의한 후 합성곱신경망 기반 두 단계 학습과정을 거쳐 사람이 위치하는 영역(bounding box)을 예측한다. 여기서 두 단계 학습과정은 입력이미지 내 대략적 위치을 파악하는 단계, 관절별 개별모형을 사용하여 보다 정확한 관절 위치를 예측하는 목적으로 이루어진다. (2) multiperson pose estimation을 위한 top down 접근으로는 "Mask RCNN" 방법론을 소개해 주었다. Mask RCNN은 객체인식을 위해 널리 사용되는 방법론이다. 사람이 여러명 있는 경우 그 들의 위치를 서로 구분할 수 있는 방법론으로 주목할 만한 점은 이미지 내 관절이 가려진 경우, 보이는 경우가 다수 있는데 출력데이터(좌표)에 그러한 경우를 나타내는 변수를 추가하여 해결한다. 오늘 이미지 데이터 기반 객체인식 응용분야 중 하나인 Human pose estimation 분야에 대해 쉬운 설명자료와 함께 이해할 수 있는 시간이었다.
사람은 200여개의 단단한 뼈(edge)와 그 교차점인 관절(vertex)로 환원하여 현 자세(posture)를 기술 가능하다. 휘날리는 머리카락, 옷과 같은 연속적이고 세밀한 요소를 근사하기에는 부족한 부분이 있을지 몰라도, 이러한 (뼈대/관절)이라는 Inductive Bias로의 환원은 세부 Motion analysis로 발전 하기 전 초석이자 불필요한 계산량을 줄여주는 좋은 근사법이기에 현실적으로도 중요한 주제이다. 금일 소개된 '사람'의 모션을 분석하는 HPE(Human Pose Estimation)는 단순 Object Detection에서 조금 더 나아가 관절(vertex) 위치 파악이 목표다. 흥미로웠던 부분은 HPE 모듈을 Mask RCNN 뒷단에 병렬적 배치하고 HPE_Loss를 전체 손실함수에 더했을 때 소위 'Multi-task learning' 순효과가 나타난다는 것이었는데, 성능 향상이라는 결과를 놓고 봤을 때 HPE가 기존 Object Detection과 '유사한' 작업이었다는 해석이 재미있었다. 디테일에 대한 능숙한 완급조절로 HPE 분야에 대해서 잘 모르는 청중에게도 이해하기 쉽게 발표를 구성해주고, 정성스러운 보조자료까지 준비해준 용원이형에게 많은 부분 배우며 감사하다는 말을 전한다.
이번 세미나는 "Human Pose Estimation(HPE)"을 주제로 진행되었다.
HPE의 경우 사람을 관절 기준으로 측정하여 피드백, 애니메이션 생성 등 다양한 분야에 활용되고 있다. 기본적으로 이미지 데이터에서 각 관절을 탐지하여 좌표를 예측하게 된다. 이를 여러 상황에 따라 기술을 적용하게 되는데, 사람이 한 명일 때는 Single person pose estimation 기법인 Direct regression(관절 별 좌표 예측) 혹은 Heatmap based estimation(특정 관절이 존재할 만한 곳을 Heatmap 형태로 출력)으로 탐지하게 되며, 두 명 이상일 때에는 Multi-person pose estimation 기법인 Top-down approach(사람 우선 탐색 후 관절 좌표 예측) 혹은 Bottom-up approach(관절 우선 예측 후 사람별 분류) 등을 활용하게 된다. 결국 Object detection, Instance segmentation, Human pose estimation 등을 해야 하며, Mask R-CNN과 Human pose estimation을 위한 모듈을 함께 사용함으로써 보다 일원화된 모델로 문제를 해결해 나갈 수 있었다.
이전에 opencv와 openpose를 활용하여 간단한 프로젝트를 진행해보았는데 이번 세미나를 통해 좀 더 깊게 알 수 있었고, 적절한 예시를 통한 설명 덕분에 쉽게 들어온 것 같았다. 청취 후 2d dataset으로만 하는 것이 한계가 있을 것이라 생각하여 검색을 해보았고, 그 과정에서 3d dataset을 활용한 연구도 활발하게 진행하고 있음을 알 수 있었지만 2d dataset으로도 충분히 정확한 estimation을 진행하고 있음을 알 수 있었다.
끝으로 HPE를 설명해주시기 위해 고생해주신 용원이형께 감사의 말씀을 전합니다.
이번 세미나에선 조용원 연구원이 Human pose estimation(HPE) 분야의 베이스 모델이라 할 만한 2가지 모델을 소개해줬다.
HPE는 이미지, 영상으로부터 사람의 자세를 인식하는 과제다. 인물이 위치한 영역과 함께, 인물의 자세를 나타낼 수 있는 관절 포인트 16곳을 탐지하는 식으로 이뤄진다. 이미지 속 인물이 1인 또는 다수인지에 따라 single person PE, multi-person PE로 나뉜다.
첫번째 설명해 준 DeepPose 모델의 경우 single person PE에 속한다. 그중에서도 관절 포인트의 좌표를 regression으로 구하는 방식의 모델 중 하나이다. 관절 별 대략적인 좌표를 구하는 1단계와 이후 더욱 정확한 위치를 예측하는 2단계를 순차적으로 진행하게 된다.
두번째 설명된 모델은 Mask R-CNN으로, 원래 Instance segmentation을 위해 개발된 모델이지만 모듈을 추가할 경우 multi-person PE도 수행 가능하다. 기본 Mask R-CNN에서는 탐지하려는 객체가 위치한 영역 별로 segmentation을 진행하는데, 이와 함께 관절 포인트를 찾아내는 작업을 병렬적으로 진행하는 식이다.
그외에도 각 과제에서 사용 되는 평가지표 등을 자세히 설명해 줘서 HPE에 관한 전반적인 이해도를 높일 수 있는 시간이었다. 예전 세미나 때도 그랬지만 용원이는 해당 분야를 처음 접하는 청자도 쉽게 이해할 수 있게 자료를 만들고 발표를 진행한다고 느꼈다. HPE에 대한 지식뿐 아니라 발표에 관해서도 많은 걸 배우게 해 준 용원이에게 감사 인사를 전한다.
이번 세미나는 Human Pose Estimation에 대한 소개를 주제로 하여 진행되었다. 주제를 처음 봤을 때는 사람의 자세를 예측하는 문제가 어디에 쓰일 수 있을지 의아했는데, HPE의 응용 분야에 대한 설명을 듣고 충분히 중요한 문제가 될 수 있겠다는 생각이 들었다. 설명해준 응용 분야 외에도 산업 현장에서의 작업자 자세를 인식하여 안전사고를 예방하는 데에도 적용될 수 있겠다는 생각이 든다. HPE 모델을 일반적으로 분류하면, 입력 이미지 내 사람이 한 명만 존재하는 경우(Single person pose estimation)와 두 명 이상이 존재하는 경우(Multi-person pose estimation)으로 나눌 수 있고, Single person은 다시 관절별 좌표를 직접 예측하는 Direct regression과 관절이 존재할만한 곳을 Heatmap으로 출력하는 Heatmap based estimation으로 나눌 수 있다. Multi-person도 다시 두 가지 분류로 나뉘는데, 사람을 우선 탐지하고 그 결과내에서 관절을 예측하는 Top-down 방식과 관절을 먼저 예측하고 사람별로 나누는 Bottom-up 방식이 있다. 이번 세미나에서는 Single person에서의 Direct regression과 Multi-person의 Top-down 방식에 대해 알아보는 시간을 가졌다. 먼저 Single person pose estimation에 대한 모델로 구글에서 발표한 DeepPose라는 모델이 소개되었다. 딥러닝을 HPE 분야에 최초로 적용한 논문이다. DeepPose는 Stage가 나뉘어 학습이 진행되는데 먼저 Stage 1에서는 입력 이미지 내 관절의 대략적인 위치를 파악하기 위한 모델로 AlexNet을 기반으로 하여 관절 좌표를 예측한다. Stage 2 이후에서는 Stage 1에서 산출된 대략적인 위치를 실제 이미지 내 위치로 예측하기 위해 관절별로 개별적인 모형을 사용하게 된다. 탐지하고자 하는 관절 수가 k개라면 모형 개수도 k개가 되는 것이기 때문에 많은 학습 시간과 추론 시간이 필요하다는 단점이 있고, 또한 여러 관절 사이의 관계를 고려한다고는 할 수 없다는 문제점이 있다. 하지만 기존 HPE 모델보다 관절 탐지 성능이 증가함을 실험을 통해 확인할 수 있었고 시각화된 결과를 봐도 관절 탐지가 잘 되는 모습을 볼 수 있었다. 두번째로 소개된 Mask R-CNN은 HPE를 위해 만들어진 모델은 아니지만 Object detection, Instance segmentation과 함께 Multi-person pose estimation까지 한꺼번에 예측할 수 있는 모델로 확장시킨 내용을 소개해주었다. 즉, 기존 Mask R-CNN 구조에 HPE 모듈을 추가하여 Multi-task learning이 되도록 하였고, 실험결과 Object detection과 Instance segmentation 성능을 유지하면서도 HPE 성능이 향상되는 결과를 확인할 수 있었다. 시각화된 예측 결과를 보면, 수작업으로 만들어도 다를 게 없는 결과물인 것 같다. 이미지 분야의 연구를 시작하면서 다양한 모델을 접하고 있는데, 이번 세미나를 통해 HPE에 대한 전반적인 흐름과 대표적인 모델을 알 수 있게 되어 좋았다. 발표해준 조용원 연구원에게 수고했다는 말과 함께 감사의 말을 전한다.
이번 세미나는 Human Pose Estimation에 관하여 조용원 연구원께서 소개해주었다.
Human Pose Estimation은 인간의 눈을 대체할 수 있는 시각 기능을 통해 자세에 대한 정보를 얻는 것이다.
HPE의 모델 계층은 크게 입력 이미지 내 사람이 한 명만 존재하는 경우(Single person pose estimation) 와 두 명 이상 존재하는 경우(Multi-person pose estimation)로 나뉜다. Single person PE에서는 Direct regression method에 바탕을 두어 두가지 단계로 이루어진다. Bounding Box를 통해 사람이 존재하는 영역만 추출하고, 기존 이미지의 좌표에서 관절별 좌표를 변환하여 대략적 위치를 파악하는 Stage1, 이후, 관절별 개별 모형을 통해 정확한 위치를 학습 및 예측하는 Stage2로 구성된다.
Multi-person PE에서는 Top-down approach로 Mask R-CNN이 있다. Object detection 및 Instance segmentation에 기반한 총 4가지 모듈을 기본 구조로 하고, HPE를 추가하여 여러 사람들을 구분 후, 출력데이터를 형성한다. 그리고 유사한 Task를 동시에 수행하면 성능이 증가하는 Multi-task learning 개념을 적용한 손실함수를 사용한다.
HPE에 대한 개괄을 잘 담아냄과 동시에 각 내용마다 이해에 부족함이 없도록 세미나 및 자료를 준비해주신 용원이형께 감사의 말을 전한다. 또한, 향후 세미나 준비 시에 발표 구성 전반에 있어 이번 세미나를 잘 참고해야겠다는 생각이다.
금일 세미나는 인간의 자세를 탐지할 수 있는 Human pose estimation을 용원이 형이 다루어주었다. Human pose estimation이 무엇인지와 응용 분야부터 콕 집고 넘어가주어 주제 전달이 명확한 세미나였다. 또한, 입출력 데이터 요소와 human pose estimation task의 계층적 구조를 잘 전달해주어 처음 듣는 분야임에도 불구하고 명쾌하게 이해되었다. 크게 두 가지 꼭지를 두고 세미나가 진행되었다. 첫번째는 Deep pose 모델로 single person에 대한 관절별 (x,y) 위치 좌표를 예측한다. 모델의 예측 과정, 손실함수, 평가 지표를 전달해주었으며 모델의 실제 예측 결과를 함께 소개해주었다. Deep pose 모델의 2-stage 예측 단계를 포함해 컴퓨터 비전의 여러 multi-stage 예측 단계 아이디어들은 당연해 보이지만 창의적이여서, 본받아야 하겠다는 생각이 들었다. 두번째는 Multi person에 대한 관절별 (x,y) 위치 좌표 예측을 Mask R-CNN 모델로 수행하는 과정을 소개해주었다. 본래 Mask R-CNN의 학습 과정을 human pose estimation과 연관 지어 설명해주었는데, Mask R-CNN이 어떤 것인지 잘 모르는 사람들도 쉽게 이해할 수 있는 설명이였다. 관련있는 데이터셋 소개와 평가 지표, 예측 성능을 소개해주며 세미나를 마무리하였다. 멋진 세미나였다! 컴퓨터 비전에 깊은 지식이 없더라도 Human pose estimation을 명확하게 알아갈 수 있어 용원이 형의 발표 노하우를 본받아야 겠다 생각했다 ~
이번 세미나는 Human Pose Estimation(HPE)을 주제로 진행되었다. HPE는 인간의 자세를 인식하여 운동 자세를 교정해 주거나 물리치료에 도움을 줄 수 있고, 인간의 움직임을 따서 Animation을 생성할 수도 있다. Animation을 생성할 때 사람의 신체에 특수 장치를 부착해야 관절의 움직임을 파악할 수 있다고만 생각했었는데 보여주신 예시를 통해 별도의 장치가 없어도 움직임을 파악할 수 있다는 것이 새로웠다. HPE는 이미지가 입력되면 사람의 위치를 표현하는 Bounding Box와 관절의 좌표를 출력한다. HPE에서도 Direct regression과 Top-down approach에 대해 자세하게 다루어주셨는데, Direct regression은 입력 이미지 내 사람이 한 명만 존재하는 경우의 관절별 좌표 예측 알고리즘으로 2개 이상의 stage를 통해 진행된다. Top-down approach는 입력 이미지 내 사람이 두 명 이상 존재하는 경우 사람을 먼저 탐지한 후에 관절별 좌표를 예측한다. Direct regression의 대표적인 모델인 DeepPose와 Top-down approach의 대표적인 모델 Mask R-CNN에 대해 자세하게 설명해 주셔서 각 알고리즘이 실제로 어떻게 구현되는지 이해할 수 있었다. 이미지에서 사람이 위치한 부분을 찾고 또 그 사람이 누구인지를 분류하는 문제도 신기하게 느껴졌었는데 이번 세미나를 통해 관절의 위치 정보까지 파악된다는 것이 놀라웠다. 세미나가 체계적으로 구성되어 부담 없이 들을 수 있었고 조용원 연구원님께서 지난 세미나의 겨울왕국 캐릭터들에 이어 슬램덩크 캐릭터들의 이미지를 사용해 청중이 흥미를 느낄 수 있을만한 예시를 잘 활용하시는 점이 개인적으로 좋게 느껴졌다.
이번 세미나는 HPE로 사람의 관절을 파악할 수 있는 모델을 주제로 진행되었다. 듣고보니 Image 내에서도 원하는 타겟(인간 관절)에 대해서 구체적으로 포커싱해서 분류하여 예측할 수 있는 것으로, 이 자체만으로 스포츠 분야에서 굉장히 광범위하게 쓰일수도 있고, 또 유사한 컨셉으로 포커싱만 다르게 한다면 다양한 분야에도 넓게 쓰일 수 있겠다는 생각이 들었다.
개념은 크게 두 Stage 로 나눌 수 있었는데, 일단 사람의 위치 bounding box를 찾는것, 그리고 그 안에서 관절의 위치를 찾는 것이다. 고정된 크기로 변환된 img와 그에 맞는 레이블 변환값을 통해서 관절은 x,y좌표 data로 계산하고, 실제 관절위치와의 유클리디언 거리가 일정 범위 안에 들어온다면 올바르게 예측한 것을 기준으로 학습해 나가는 것이었다.
세미나에서는, 한사람인 경우로 Deep pose를 통해 설명하고, 이후에는 여러사람일 경우에는 사람먼저 찾고 관절을 찾도록 좀더 확장된 Mask R-CNN 을 설명해주었다. 사람별로 bounding box를 찾아낸 다음 classfy하고, 그 다음에 각각에 대해 관절을 찾아내는 모듈을 추가한점에서 달랐는데, 결론적으로는 사람별로 mask를 나누어 학습한다는 점에서 차이가 있었다.
HPE에 대해서 어떤 컨셉으로 Data를 가공하고 학습하는지 전반적으로 이해할 수 있고, 궁금한점이 더 생길정도로 굉장히 흥미롭게 들었다. 쉽게 이해할 수 있도록 준비해준 용원에게 감사하다.
이번 세미나는 'Human Pose Estimation'을 주제로 진행되었다. 'Human Pose Estimation(HPE)'은 사람의 관절 위치를 예측하여 자세를 인지하는 것을 말한다. HPE가 AI 헬스 코칭이나 물리치료사들에게 추가적인 정보를 제공하는 것에 응용될 수 있다는 것을 언급해주시면서 주제에 대한 흥미를 가지게 해 주셔서 더 재미있게 들을 수 있었다.
HPE방법 중에서도 입력 이미지 내 사람이 한명만 존재할 경우 관절 별 좌표를 예측하는 'Direct regression'과 사람이 두 명 이상 존재하는 경우 사용하는 'Top-down approach'를 집중적으로 설명해 주셨다.
먼저 Direct regression 방법인 DeepPose모델은 먼저 Bounding Box를 사용해 사람이 존재하는 영역을 추출한다. 다음으로 AlexNet기반 추출기를 사용해 Representation벡터를 산출하고, 이를 Fully connected layer에 입력해 k개 관절별 위치 예측값을 산출한다. 이를 통해 관절의 대략적 위치를 파악한다. 여기서 더 들어가 관절별로 개별적인 모형을 사용해 학습하면 좀 더 정확한 위치를 탐색할 수 있지만, 관절 사이의 관계를 고려한다고 볼 수 없다는 문제점이 존재한다.
입력이미지 내에 사람이 두명 이상 존재할때는 'Top-down approach'를 통해 사람을 우선적으로 탐지한후 그 결과 내에서 관절별 좌표를 예측할 수 있다. 그 중에서도 Mask R-CNN모델에 대해 소개해주셨다. 이모델은 먼저 이미지내에서 객체가 있을만한 영역을 탐지하고, RPN을 통해 범주를 예측하고 픽셀별로 범주인지 아닌지를 분류해 범주 안에서 픽셀별로 관절인지 아닌지를 분류하는 방식으로 이루어진다. 이렇게 인간에 대한 여러 정보를 사용해 학습하면 성능이 증가하는 것도 확인할 수 있었다.
요즘 코로나로 인해 사람들이 많은 장소에 가는것이 어려워져 운동을 하고싶어도 하지 못하는 사람들이 주변에 많이 있는데, HPE분야가 더 많이 연구되고 발전하면 앞으로 다양한 분야에서 유용하게 쓰일 수 있을 것 같다. 이번 세미나를 통해 이쪽 분야에 대해서도 공부해보고 싶은 생각이 들었다. 재미있는 세미나를 진행해주신 연구원님께 감사의 마음을 전하고 싶다.
이번 세미나는 "Human Pose Estimation"이라는 주제로 진행되었다. Human Pose Estimation은 사람의 관절을 기준으로 하여서 인간의 자세를 인식하는 운동/물리치료 및 Animation과 같은 다양한 분야에서 활용되고 있다. Human Pose Estimation은 RGB 이미지가 입력되게 되면, 사람의 Bounding Box와 각 관절에 해당하는 좌표가 출력된다. 또한, 이미지내의 한명의 사람이 존재하는 경우와 두명이상의 사람이 존재하는 경우로 나뉘게 되는데, Single Person의 경우에는 2단계를 거치며 진행되는데 관절별로의 대략적인 좌표를 구하는 작업을 수행하는 1단계. 관절별로 개별적인 모형을 사용하여 보다 정확한 위치를 예측해내는 2단계의 과정을 거치게 된다. Multi-Person의 경우에는 사람을 우선적으로 탐지하고 관절별 좌표를 예측하는 Top-down approach 및 관절의 위치를 예측 후 사람을 그 후에 나누게 되는 Bottom-up approach의 방법이 존재한다. Single Person에서의 DeepPose, Multi-Person에서의 Mask R-CNN에 대해서 어떠한 방향성을 가지고 진행되는지에 대해 이해하기 쉬운 설명들로 이루어진 세미나로 처음 들어보는 분야임에도 내용을 이해하기에 매우 좋았다. Human Pose Estimation 과 관련하여 재밌고 유익한 세미나를 준비해준 용원이형에게 감사의 말씀을 전하고 싶다.
이번 세미나는 'Introduction to Human Pose Estimation’이라는 주제로 진행되었다. Human Pose Estimation 분야는 인간의 자세를 인식하여 운동 관련 솔루션과 의학 관련 솔루션 등에 적용된다. 이는 즉 인간의 관절 별 좌표를 예측하는 문제로서 입력데이터는 일반적으로 RGB 이미지, 출력데이터는 사람에 해당되는 바운딩 박스와 관절별 좌표로 구성되어 있다. 해당 문제는 Single person estimation과 Multi-person estimation으로 크게 구분되는데, 본 세미나에서는 Single person estimation에서 관절 별 좌표를 바로 예측하는 방법인 Direct regression과 Multi-person estimation에서 사람을 우선적으로 탐지 후 탐지 결과 내에서 관절별 좌표를 예측하는 Top down approach에 대해 다루었다. Single person estimation의 대표 알고리즘인 DeepPose 모델은 Stage 1에서 관절별로 한번에 대략적인 위치를 파악하는 모델을 학습한 뒤, Stage 2 이상인 경우에 관절별로 더 세세하게 찾는, 관절별로 모형을 학습하는 모델이다. 반면 Multi-person estimation의 대표 알고리즘인 Mask R-CNN 모델은 기존 instance segmentation을 위해서 개발되었던 Mask R-CNN에 human pose estimation 가지를 추가해서 원하는 task를 잘 수행할 수 있다. 데이터 형태부터 모델 학습 방법까지 처음 접하게 된 내용이었지만 유쾌한 예시자료와 깔끔한 설명으로 연구 흐름을 쉽게 파악할 수 있었다. 열심히 세미나를 준비해주신 조용원 연구원께 감사의 말씀을 전하고 싶다.
이번 세미나는 Human Pose Estimation에 대하여 진행되었다. HPE는 인간의 관절 별 좌표를 예측하는 것으로, 인간의 자세를 인식하는 각종 솔루션에 활용할 수 있다. HPE의 모델 계층에 따라 입력 이미지 내에 사람이 한 명만 존재하는 경우(single person pose estimation)와 두 명 이상이 존재하는 경우(Multi-person pose estimation)로 나눌 수 있다. Single person pose estimation에는 관절 별 좌표를 예측하는 direct regression, 특정 관절이 존재하는 곳을 히트맵으로 표현하는 heatmap based estimation이 있다. Direct regression의 알고리즘에는 DeepPose가 있다. 딥러닝을 최초로 HPE분야에 사용하였다는 특징이 있고 Stage 1과 추후 Stage로 구성된다. stage 1에서는 관절 별 대략적인 위치를 파악하고 stage 2에서는 관절 별 위치를 보다 정확하게 예측하도록 학습한다. Multi-person pose estimation에는 Top-down approach와 Bottom-up approach가 있다. Top-down approach에는 Mask R-CNN이 있다. Mask R-CNN은 사람 별 구분과, bounding box 내 어디가 사람에 속하는지, 사람 별로 주요 관절이 어딘지 찾는 것이 가능하다.
구체적인 예시와 함께 설명해주셔서 HPE에 대한 연구의 흐름을 보다 쉽게 이해할 수 있었다. 유익한 세미나를 진행해 주신 용원 오빠에게 감사의 말씀을 전한다.
이번 세미나는 “Introduction to Human Pose Estimation”을 주제로, 인간의 관절별 좌표를 예측하는 문제인 Human Pose Estimation에 대하여 알 수 있었다. 인간의 자세가 주요한 정보로 활용되는 다양한 분야에서 이용되는 연구로, 입력 데이터(이미지)에 대한 사람의 Bounding Box와 그 사람에서 탐지하고자 하는 관절의 좌표값을 출력하는 형태로 모델이 구성된다.
우선 Single person pose estimation의 Direct regression 방식 중 가장 대표적인 DeepPose 모델의 경우 이미지와 관절별 좌표에 대한 변환을 진행한 후, AlexNet 기반 특징 추출기와 Full connected layer를 활용하여 관절별 예측값을 산출하게 된다. 관절의 대략적인 위치 파악을 진행한 후에는 실제 이미지 내에서 관절별로 위치를 예측하는 개별적인 모델을 사용한다. 또한, 입력 이미지 내 여러 사람이 존재하는 경우에 활용되는 Multi-person pose estimation, 그 중에서는 사람을 먼저 탐지하는 Top-down approach에서는 Mask R-CNN 방법론을 활용하고 있다. 기존의 Mask R-CNN 알고리즘에 Human pose estimation을 위한 추가적인 모듈을 추가하여 해당 픽셀이 관절에 속하는지를 함께 예측하도록 모델을 구성한 것이다.
이번 세미나를 통하여 Human Pose Estimation이라는 분야와 여러 방법론들을 활용하는 방법에 대하여 충분히 이해할 수 있었다. 실제 이미지를 활용하며 이해하기 쉽도록 발표자료와 내용을 구성하는 용원오빠만의 노하우도 다시 살펴보면서 배워야겠다고 느꼈다.
이번 세미나는 "Human Pose Estimation" 이라는 주제로 용원이형이 발표해 주었다. 최근 의료 분야와 헬스케어 분야에서 AI의 성능이 좋아지며 AI를 활용한 운동 솔루션, 물리치료 솔루션 등이 개발되었다. 이 기술을 구현하기 위해서 가장 중요한 것은 '어떻게 인간의 움직임을 보고 표현할 것이냐' 라고 생각한다.
Human Pose Estimation(HPE)은 영상이나 이미지에서 인간과 그 인간의 관절의 위치를 예측해서 인간의 움직임을 보고 표현한다. 이 HPE는 크게 사람의 수를 기준으로 두 가지로 나눌 수 있다. 우선 한 사람만이 존재할 경우 이를 Single person pose estimation이라고 하며 여러 사람이 존재할 경우 Multi-person pose estimation이라고 한다.
Single person pose estimation은 관절 별 좌표를 예측하는 Direct regression과 특정 관절이 존재할 만한 곳을 Heatmap으로 출력해주는 Heatmap based estimation이 있으며 Multi-person pose estimation은 사람을 우선 탐지 후 사람 별 관절 좌표를 예측하는 Top-down approach와 관절의 위치를 예측한 후 사람별로 나누는 Bottom-up approach 두 가지 접근법이 있다.
모델의 평가 지표로는 Percent of Detected Joints를 사용하여 관절별로 특정 반지름을 가진 원형 박스 안에 예측한 좌표가 있는지를 확인한다.
세미나를 들으며 흥미로웠던 점은 HPE는 n-stage로 진행되며 stage 1에서 대략적인 관절의 위치를 파악하고 stage 2부터는 각 관절별 개별적으로 모형을 적용해 그 정확도를 높였다는 점이다. 예전에 헬스케어 AI 영상을 보며 모델의 동작원리가 궁금했는데 이번 세미나 덕분에 궁금증을 해결 할 수 있었다. 재미있는 주제로 세미나를 해준 용원이형에게 감사를 전하며 세미나 후기를 마친다.
이번 세미나는 용원이형이 ‘Introduction to Human Pose Estimation’이라는 주제를 가지고 진행하였다. Human Pose Estimation(HPE)을 말 그대로 인간의 눈을 대체할 수 있는 시각 기능을 통해 회득한 사람들의 자세에 대한 정보를 가지고 예측을 진행하며 다양한 분야에서 사용되고 있다. HPE의 입력데이터는 일반적인 RGB이미지가 들어가게 되며 출력데이터는 bounding box와 관절의 x, y 좌표이다. HPE의 대표적인 논문으로는 DeepPose: Human Pose Estimation vis Deep Neural Networks라는 논문이 있다. 해당 논문에서는 RGB이미지를 입력받아 bounding box를 이용해 사람이 존재하는 영역만 추출한다. 추출한 이미지를 고정된 크기로 변화하여 관절들의 좌표를 생성해 낸다. DeepPose 모델은 alexnet을 사용하였으며 관절별 대략적인 위치를 통해 관절별 위치 예측모델을 학습하였다. 이렇게 학습된 결과를 통해 평가를 해야하는데 평가지표는 percent of detected joints(PDJ)를 사용하여 구해준다. PDJ는 원 내부에 있는 경우에 대해 전체 관절수로 나누어 주어 해당 관절에 대해 잘 예측했는지를 평가해준다. 이번 세미나를 통해 기존에 알고있었던 연구 분야가 아닌 색다른 연구분야에 대해 알게 되었고 새로운 분야에 대한 설명이였지만 예시를 들어가며 발표를 진행해준 용원이형에게 감사하다는 말을 전하고 싶다.