- 2022년 2월 4일 오후 3:05
- 조회수: 6716
INFORMATION
- 2022년 2월 4일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
발표자 후기

금일 세미나는 'Skeleton-based Human Action Recognition'이라는 주제로 진행하였다. Skeleton 기반 인간 행동 인식(Human action recognition, HAR) 문제는 Human pose estimation 결과인 Skeleton을 입력받아 행동을 분류하는 문제를 말한다. 이번 세미나에서는 HAR 문제와 Graph convolutional networks(GCN) 기반 심층 학습 모델을 소개하였다. 추후, 이 분야에 대해 많은 연구를 할 수 있으리라 생각한다. 우선 이상 탐지(정상/ 이상)를 구분하는 형태로 범주를 구분하는 연구를 할 수 있을 것이다. 다음으로 사전에 정의한 범주 이외의 Skeleton이 입력되면 이를 보지 못한 데이터라고 이야기할 수 있는 Openest recognition 분야로 확장할 수 있을 것으로 생각한다. 연구실 내부에서 Sensor-based HAR 문제를 많은 인원이 해결하려고 연구하고 있다. 또한 Graph 데이터에 관해 관심을 가지고 연구하고 있는 연구원들은 많다. 하지만 컴퓨터 비전 기반 HAR 문제에 관심을 가지는 연구원은 극소수이다. 이번 세미나를 발판으로 많은 연구원이 Skeleton-based HAR 문제를 GCN으로 해결하는 연구를 했으면 좋겠다.
청취자 후기

이번 세미나는 'Skeleton-based Human Activity Recognition'을 주제로 용원이형이 발표해 주었다. 인간의 행동을 인지하는 HAR(Human Activity Recongnition) 분야는 크게 가속도계와 같은 시그널 센서를 입력 데이터로 사용하여 모델을 구축하는 것과 영상이나 이미지와 같은 이미지를 입력 데이터로 사용하는 것 두 가지로 나눌어 볼 수 있고, skeleton-based HAR은 영상이나 이미지를 입력 데이터로 사용하는 분야이다.
이 skeleton-based HAR은 HPE(Human Pose Estimation)과 매우 관련이 깊은데 HPE를 기반으로 각 관절의 좌표를 찾고 이를 통해 인간의 행동을 예측하기 때문이다. 또한, 관절의 좌표를 통해 예측을 하면 촬영 각도, 배경과 사람의 체구 변화 같은 여러 변화에도 강건한 성능을 보인다고 알려져 있다.
각 관절은 특정 관절과 연결되어 있는 구조로 그래프 형식으로 표현이 가능하다. 그리고 만약 영상을 통해 HAR 모델을 구축한다면 각 영상 프레임 별 관절의 좌표가 입력데이터로 사용되기 때문에 공간적인 요소와 시간적인 요소가 모두 반영되어야 한다. 이번 세미나에서는 이 문제를 Graph Convolutional Networks로 해결하는 'Spatial Temporal Graph Convolutional Networks for Skeleton-based AR' 논문을 소개했다.
해당 논문의 아이디어는 꽤 간단했는데 각 프레임 별 관절을 노드로 하고 공간적으로 노드를 연결하는 Intra-body connection와 시간적으로 노드를 연결하는 Inter-frame connection을 통해 그레프를 구성하였다. 그리고 GCN을 적용하는데 인접 노드를 선택할 때 공간적인 인접 노드와 시간적인 인접 노드의 hop을 다른 하이퍼 파라미터로 두고 이웃 노드를 구성하여 모델의 업데이트를 진행한다.
이번 세미나를 통해서 Skeleton-based HAR이외에도 그래프에서 시간적인 요소를 반영하는 방법론과 다양한 application들을 볼 수 있어서 재미있게 볼 수 있었다. 좋은 세미나를 준비해준 용원이형에게 감사인사를 전하며 세미나 후기를 마친다.

금일 세미나는 용원이 형이 Skeleton-based 사람 자체 추정 인식을 주제로 진행해주셨다. 세미나의 내용과 발표 스타일이 너무 깔끔하여 향후 세미나 진행 시 용원이 형 장표를 적극 참고해야겠다고 생각했다. 사람 자세 추정 태스크의 정의와 목표부터 설명하여 세미나가 더 흥미로웠다. 금일 세미나에서는 사람 자체 추정 인식에서 어떠한 연구 방향이 있는지 (연구 계층도)와 그래프 네트워크 기반 skeleton-based 사람 자세 추정 방법론 ST-GCN을 알 수 있었다. skeleton 관점 사람 데이터를 그래프 데이터로 간주해 ST-GCN 입력 데이터 요소를 명확하게 이해할 수 있었다. 또한, 입력 데이터에서 Spatial-Temporal한 특징을 모델이 어떻게 추출해가는지 본 세미나를 통해서 이해할 수 있었다. 실험 데이터셋에 대한 특징 설명과 실험 결과 해석도 꼼꼼하게 다루어졌다. 끝으로 본 세미나의 결론과 응용 분야를 소개해주셨다. 사회적으로도 큰 기여를 할 연구 방법론으로 생각되는데 용원이 형이 해당 분야에서 꼭 멋진 연구를 하셨으면 좋겠다.

Human action recognition(HAR)은 시그널 또는 영상을 활용하여 사람의 행동 종류를 인식하는 문제이다. 이 중 skeleton-based HAR은 입력 영상의 프레임 별 skeleton을 추출하고 이를 총체적으로 고려하여 행동을 분류하는 방식이다. Skeleton은 관절과 관절간의 연결로 구성되기 때문에 그래프의 형태로 이해할 수 있다. 그래프로 표현된 skeleton을 위한 graph convolutional network로는 Spatial Temporal Graph Convolutional Networks(ST-GCN)이 있다. ST-GCN은 skeleton의 특정 관절과 지역적, 시간적으로 연결된 관절에 대해 GCN을 수행한다. 이 때, 지역적으로 연결된 관절은 같은 프레임 내에서 연결된 인근 관절을 의미하며 특정 거리 내의 관절들이 선택된다. 시간적으로 연결된 관절은 특정 시점만큼 떨어져 있는 다른 프레임 skeleton의 관절을 의미한다. 최근 graph 데이터 방법론에 대해 공부를 하고 있었는데 human action recognition 분야에 적용된 사례를 소개해 주셔서 흥미로운 세미나였다.