- 2023년 3월 17일 오전 4:26
- 조회수: 12987
INFORMATION
- 2023년 3월 17일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
Human Action Recognition (HAR)은 사람의 행동 정보를 다양한 방법으로 수집 및 처리하여 수행 중인 행동을 인식하고 분류하는 기술이다. 안전, 범죄, 스포츠 등 여러 응용 분야에서 적용 되어 활발하게 연구가 진행되고 있다. HAR을 수행하기 위한 데이터는 여러가지가 존재하며 크게 이미지 기반 데이터와 이미지가 아닌 데이터로 나뉜다. 이미지 기반 데이터는 RGB, 3D skeletons, depth, 적외선, point cloud, evant stream 등이 있으며, 이미지가 아닌 정보는 audio, acceleration, radar, WiFi 등이 존재한다. 다양한 데이터가 존재하는 만큼 RNN 기반, CNN 기반, GCN 기반, Transformer 기반 등 다양한 학습 방법이 존재한다. 본 세미나에서는 HAR에 대한 기초와 각각의 Modality에 정보와 수집 과정 그리고 장단점에 대하여 소개하고 연구가 가장 활발한 modality에 대한 알고리즘에 대하여 소개하고자 한다.
발표자 후기

현재 Human Action Recognition (HAR)을 주제로 논문을 작성하고 있다. Modality로 skeleton과 skeleton에서 계산된 angle을 사용하고 있는데, HAR 분야에서 어떠한 modality를 활용한 연구가 진행중인지 궁금하여 해당 내용으로 세미나를 진행하게 되었다. 평소 궁금하긴 했으나 이번 세미나를 계기로 다양한 modality에 대하여 공부할 수 있었던 의미 있는 시간이었다. 이 분야를 공부하며 다음 세미나에서는 다양한 모델에 집중하여 다뤄볼 수 있도록 하면 좋을 것 같다. 그리고 촬영본을 확인해보니 발표할 때 안 좋은 습관이 있던데 신경써서 고쳐야겠다~!
청취자 후기

이번 세미나는 HAR(Human Action Recognition)에 대해 진행되었다. HAR은 사람의 현재 행동을 인식하는 방법론으로 다양한 분야에서 적용되고 있다. 예를 들어, 몇 년 전부터 축구 경기에서도 VAR을 통해 보다 정확한 판정이 이루어지고 있는데, 오프사이드를 판정하는 과정에서도 HAR이 적용되고 있다고 한다.
HAR에 사용되는 modarlity에는 다양한 종류가 있는데 기존에 들었던 RGB, skeleton 말고도 infrared, event stream등 알지 못했던 modarlity들에 대해서도 본 세미나에 잘 설명이 되어있어서 새롭게 학습할 수 있었다. 각 modarlity들은 서로 다른 장단점을 가지고 있어 이를 적절히 결합하여 사용한 multi-modarlity 방법론들에 대해 많은 연구가 진행되고 있다고 한다. 서로 다른 modarlity들을 결합 학습하는 방식에는 크게 Feature fusion과 Score fusion 방식이 존재하고 Feature fusion은 각 modarlity들의 특징들을 모델 연산 중 결합하지만 Score fusion은 각각의 modarlity들을 따로 학습 후 앙상블처럼 결합하는 방식이라는 차이가 존재한다.
입학할 때, 상민이형과 시후형의 연구 미팅을 들으면서 HAR 분야에 흥미를 갖게 됐었는데, 관련하여 연구를 진행하지는 않다 보니 접할 기회가 많이 없었다. 그러다가 저번 달에 한화 시스템과의 세미나를 준비하면서 multi-modarlities팀의 내용을 들었었는데 그 때 HAR 분야에서의 multi-modarlities의 연구를 예로 들어주었어서 그 때의 설명을 떠올리면서 세미나를 들을 수 있었다. 사람의 행동을 분석하면서 스포츠 경기, 범죄 예방 등에 매우 실용적으로 적용이 되고 있어 매우 의미 있는 분야라 생각하고 기회가 된다면 해당 연구들에 대해서도 공부해보고싶다. 좋은 세미나를 준비해주신 시후형께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 "Human Action Recognition"을 주제로 진행되었다. Human Action Recognition (HAR)은 현재 행동을 인식하는 방법론이다. 본 세미나에서는 현실에서 사용된 HAR의 예시 설명을 시작으로 입력으로 사용되는 여러 modality의 수집 방법 그리고 장단점에 관해 소개되어 있고 관련 방법론 2가지, 두 개 이상의 modality를 결합하는 방식에 관해 소개하고 있다. 관련 논문에 관한 간략한 소개는 아래와 같다. 먼저, 첫 번째 논문 3D CNN for Human Action Recognition은 기존 2차원 이미지 데이터를 입력으로 사용하지 않고 시간 차원을 고려하여 3D convolution을 사용한 것이 핵심이다. 두 번째 논문 ST-GCN은 이미지에서 openPose 방법론을 사용해 추출한 skeleton 데이터에 그래프 연산 과정을 거쳐 최종적으로 행동 인식을 하는 방법론이다.
HAR에 관해서 관련 과제를 참여하면서 대략 알고 있었지만, 실제 현실에 적용된 사례를 본 적은 처음이다. 최근 여러 방법론을 공부하면서 실제 현실에서는 어떻게 적용될까 혹은 어떻게 적용하면 좋을까도 고민해본 적이 있는데 본 세미나에서 실제 적용 사례를 함께 설명해주어 만족스럽게 세미나를 들을 수 있었다. 여러 modality와 관련 방법론 그리고 두 개 이상의 modality를 결합하는 기법 등 관련 분야에 관해 다양한 설명을 해준 안시후 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

Human Action Recognition(이하 HAR)은 이미 일상생활에 매우 친밀하게 다가온 분야입니다. 오늘은 HAR에 주로 사용되는 데이터들과 이를 활용한 예측 모델에 대해 소개되었습니다.
먼저 동작 인식에 사용되는 데이터로는 동작, 움직임 시 발생하는 감각 등을 센싱한 데이터를 modality라고 하며 modality는 크게 visual modality와 non-visual modality로 구분됩니다. visual modality는 크게 RGB, SKeleton, Depth, Infrared, Point Cloud 등이 있으며, non-visual modality로는 audio, acceleration, radar, wifi를 예로 들 수 있습니다. 이 중 연구에 주로 언급된 데이터는 RGB와 skeleton 데이터이며 이를 이용한 연구로는 3D CNN for HAR과 ST-GCN for skeleton-based action recongnition을 들 수 있습니다. 3D CNN 은 일반적인 CNN에 시간축을 추가한 입력 데이터를 활용하여 각각의 동작을 분류 문제로 접근한 방법이며, ST-GCN은 각 관절의 pose estimation 결과를 graph 형태의 입력 데이터로 활용하여 각각의 동작을 분류 문제로 접근한 방법입니다.
최근에는 2개 이상의 입력 데이터를 활용한 multi-modalities 방법도 연구되고 있는데 모델 연산 중 결합하는 feature fusion 방식과 각 모델의 연산이 종료된 후 score 값들을 활용하여 종합적으로 판단하는 score fusion 방식에 대해서로 소개되었습니다.
HAR은 생산 시 근골력계 질환의 예방이라던지 작업자의 동작을 분석하여 생산성을 개선하는 등 제조영역에서도 이를 활용한 다양한 접근이 존재합니다. 오늘 HAR의 입력 데이터와 모델의 구조, 연구 방향에 대해 알 수 있어서 매우 유익했습니다. 수고 많으셨습니다.

HAR(Human Action Recognition)은 인간이 현재 수행하고 있는 동작을 인식하는 데 사용되는 인공지능 방법론입니다. 이를 위해 영상이나 센서 등의 데이터 수집 형태인 Modality 데이터를 수집하여 학습을 수행하게 됩니다. 해당 학습 모델은 입력 값이 어떤 동작을 수행하고 있는지에 대한 Label 을 출력합니다. HAR은 게임, 실시간 감시, 축구 경기에서 오프사이드 판정 등 다양한 분야에서 적용 되어 가고 있습니다. 특히 사람의 주관이 많이 반영 되는 축구 오프사이드 판정에서 HAR을 이용한 알고리즘 판정이 도입되었다는 사실은 매우 흥미로웠습니다.
입력 데이터로는 크게 Visual Modality data / Non-Visual Modality data로 분류가 가능하고 세부적으로는 Visual Modality : RGB / Skeleton / Depth 등 Non Visual Modality : Radar / Wifi 등 으로 나뉩니다.
RGB 데이터로 학습을 한다고 할 때 일반적인 2D CNN 에서 시간에 대한 정보를 포함한 3D CNN 을 수행하는 연구가 진행 되고 있으며, 다양한 Modality 를 결합한 Feature Fusion 및 Score Fusion 을 통한 방법론도 많이 연구되고 있는 추세입니다.
흥미로운 예시로 HAR 분야에 대해 쉽게 설명해준 안시후 연구원께 감사 드리며 세미나 후기를 마치겠습니다.

이번 세미나는 Human Action Recognition(이하 HAR)에 대한 다양한 Modality와 최근 연구 동향에 대해 설명해주었다. HAR은 실제로 다양한 분야에서 적용되어 사용되고 있고, 어떻게 보면 일상생활에서 가장 잘 체감할 수 있기 때문에 많은 연구도 진행되고, 많은 사람들이 흥미도 가지고 있을 것 같다.
HAR에 사용되는 Modality는 크게 Visual과 Non-visual로 나눌 수 있는데, Visual에는 RGB, Skeleton, Depth, Infrared, Point Cloud, Event Stream 등이 있고 Non-visual에는 Audio, Accleration, Radar, WiFi등이 있다. 몇년 전에 직접 마이크로 녹음한 Audio 파일을 가지고 음성 명령을 구분하는 실습을 해본 적이 있었는데, 직접 데이터를 만들어서 하다보니 재미있었던 기억이 떠올랐다. 당시에는 이렇게 많은 Human Action에 대한 연구가 존재하는지 몰랐는데 이번 세미나로 특히 Visual 쪽에서도 많은 연구가 진행 된다는걸 알게 되었고, 무엇보다 카타르 월드컵에 오프사이드 판정을 대신 할 정도로 신뢰성이 높다니 굉장히 놀라웠다.
이 세미나에서는 각 Modality에 대한 장단점을 알려주며, 특히 가장 많이 활용되는 RGB와 Skeleton 분야의 3D CNN과 ST-GCN 모델에 대해 자세히 설명해줬는데 그 두 모델에 전부 Temporal 개념을 추가해서 활용한다는게 신기했다. 이 부분이 연속적인 Action을 하나의 행동으로 판단하게끔 하는 것 같다. 또한 다양한 Modality가 있는만큼 Multi-Modalities에 대한 연구가 활발히 진행중이며 실제로 범죄 예방,스포츠,게임 등에서 활용중이라고 한다. 흥미로운 주제를 알기 쉽게 설명해준 안시후 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

Human Action Recognition (HAR)은 사람의 “현재 행동을 인식” 하는 방법론으로 “미래 행동을 예측” 하는 Human Action Prediction (HAP) 과는 다른 방법입니다. HAR의 학습을 위해서는 학습 모델, 입력 값, 출력 값이 필요한데 입력 값을 얻기 위해서는 modality 데이터를 수집해야 합니다.
Modality는 Visual modality와 non-visual modality로 분류 가능하며, 본 세미나에서는 그 다양한 예시들의 개념과 장점, 단점에 대해 설명해 주었습니다. Modality는 이처럼 특성이 매우 다양하기 때문에 어떤 데이터를 학습하느냐에 따라서 성능의 차이가 발생합니다. Modality 중 RGB와 Skeleton에 관한 연구가 가장 활발한데, RGB의 경우 2D CNN에 시간 정보까지 더해진 3D CNN을 수행하는 연구가 진행되고 있으며, Skeleton 정보는 pose estimation 기법을 활용하여 ST-GCNs로 결과를 인식하는 방법에 대한 연구가 있습니다. 최근에는 두 가지 이상을 활용한 Multi-Modalities 등의 연구가 많이 수행되고 있습니다.
Modality 데이터들의 특성과 관련 연구들에 대해 상세히 들을 수 있어서 흥미로웠고, 실생활의 문제들을 정말 사람처럼 정확하게 판단하기 위해서는 다양한 Multi-Modalities 연구들이 진행되어야 할 것 같습니다. 좋은 내용 전달해주신 안시후 연구원님께 감사드립니다.

이번 세미나는 Human Action Recognition(HAR)에 대하여 진행되었다. HAR은 주어진 데이터를 활용하여 사람이 어떠한 행동을 하고 있는지를 맞추는 문제로써 현실 세계에서 다양하게 적용될 수 있는 활용도가 매우 높은 분야이다. 특히 단순히 이미지를 통해서 분류 문제를 푸는 것이 아니라 다양한 형태의 데이터를 사용하여 사람의 행동을 인식하는 것이 핵심으로 modarlity에 대한 개념을 알 수 있었다. 이미지라고 하였을때 일반적으로 떠올리는 RGB 형태 뿐만 아니라 굉장히 다양한 방법으로 사람의 행동을 촬영할 수 있다는 사실이 재밌었고 각 방법에 대하여 장단점을 설명해주어 흥미롭게 들을 수 있었다. 각각의 촬영 방법에 따라서 피사체를 표현하는 정보의 깊이가 다르므로 실생활에 딥러닝 방법론을 적용하고 활용하기 위해서는 다양한 형태의 데이터를 결합해야하는 필요성을 충분히 느낄수 있었다. 마지막으로 3D-CNN을 활용한 방법론과(시간 정보 추가) 이미지에서 skeleton 정보를 추출하고 graph 연산을 통해서 행동을 인식하는 방법론을 소개해주었다. 특정 문제를 해결하기 위하여 고민할때 정해진 하나의 데이터셋 뿐만 아니라 다양한 정보를 활용하는 것을 보다 적극적으로 고려하고 관련된 공부를 해야겠다는 생각이 들어 유익하였다. 지루하지 않게 예시를 들어가며 HAR 이라는 분야에 대해 쉽게 설명해준 안시후 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 HAR(Human Action Recognition)을 주제로 진행되었습니다. HAR은 다양한 형태의 modality를 입력값으로 받아서 학습하고, 현실행동을 이해하여 labeling하는 방식으로 학습을 진행합니다. 이번 세미나에서는 HAR에서 사용되는 10가지 양식의 modality의 수집 방식과 장단점에 대한 소개와 함께, 그 중 가장 활발하게 연구가 진행되고 있는 대표 modality인 RGB와 Skeleton 분야의 방법론과 2개 이상의 modlity를 결합하는 방식이 소개되었습니다. 기존에 알고 있었던 RGB, Skeleton 외에도 다양한 형태의 modality들이 입력값으로 활용될 수 있다는 점이 신선하게 다가왔으며, 발표자의 코맨트대로 이 데이터들을 어떻게 선택하느냐에 따라 성능에서 큰 차이를 보일 것이기 때문에 연구자나 엔지니어의 입장에서는 각각의 modality에 대해 충분히 이해하고 데이터의 수집단계부터 세심하게 실험을 설계하는 역량이 더욱 중요해질 것 같다는 생각이 들었습니다.
추가로, 예시로 소개된 카타르월드컵에서의 반자동 판독기술(Semi-Automated Offside Technology, SAOT)에 HAR이 적용되었다는 내용 덕분에 더 흥미를 가지고 세미나를 들을 수 있었습니다. VAR 기술의 도입에도 불구하고 오프사이드 판정은 여전히 가장 큰 이슈거리입니다. 하지만 이번 월드컵에선 SAOT의 적용을 통한 깔끔한 판정 덕분에 억울하게 득점이 취소되거나 실점당하는 일이 줄어들었으며, 그 판단 시간 또한 매우 짧아서 경기의 흐름에도 영향을 주지 않아 극찬을 받았던 것으로 기억합니다. 이번 SAOT의 성공을 기점으로 다양한 HAR 방법론이 적용된 기술들이 더 많은 영역에서 연구와 상용화가 가속되고 각 분야에서 많은 변화를 불러올 것 같다는 생각이 들었습니다.
쉬운 설명과 적절한 예시를 통해 처음 접하는 HAR 분야를 흥미있게 받아들일 수 있도록 세미나를 진행해주신 안시후 연구원께 감사드립니다.

이번 세미나는 Human Action Recognition를 주제로 진행되었다. HAR은 modality 데이터를 입력하여 행동을 예측하는 것으로 일반적으로 연속적인 시점에서 하나의 행동을 추출한다. Modality는 카메라 기술 기반인지 아닌지 따라 Visual modality와 Non-visual modality로 구분할 수 있다. 특히, RGB, Skeleton 데이터가 많이 사용되며 HAR은 modality를 2가지 이상 활용하여 학습에 사용한다. Multi-modalities 결합 방식에는 모델 연산 중 결합하는 Feature 방식과 각각 학습 후 결합하는 Score 방식이 존재한다.
HAR 분야는 실생활에서 가장 많이 접해볼 수 있음에도 불구하고 기존에 인식하지 못하던 분야였는데 현실에서 활용 가능성이 가장 높다는 부분이 공감 갔으며, 다수의 modality를 쓰면 쓸수록 성능이 더 잘 나오는지 개인적으로 궁금증이 생겼다. 좋은 세미나 준비한 안시후 연구원님께 무척 수고했다는 얘기를 전하며 세미나 후기를 마친다

이번 세미나는 인간이 수행하는 동작을 인식하는데 사용되는 Human Action Recognition(이하 HAR)에 대한 세미나였다.
카타르 월드컵 등에 이미 활용되고 있는 HAR연구는 다양한 modality가 사용되고 있다. modality는 카메라 기술을 기반으로한 visual modality, 그리고 non-visual modality로 나뉠 수 있다.
RGB를 기반한 visual을 기반한데이터로 행동을 촬영, 인식하는 것 뿐만아니라 다양한 방식을 통해 인식할 수 있다는 것에 많은 흥미를 느꼈다. 특히 3D-CNN을 활용한 방법에서 이미지를 통한 skeleton 정보 추출 -> graph 연산을 통한 행동인식하는 방법이 흥미로웠다.
이러한 접근이 다른 도메인에서도 많이 진행되어있을 것이라는 생각이든다. 특히 최근 자율 주행을 개발하기위해 차량 등의 동작인식을 진행할 때 Lidar, radar, vision등을 활용한다고 하는데, 이러한 것에 대한 연구를 적용해보면 더 많은 응용을 할 수을 기대해본다.
재미있고 흥미로운 주제를 전달해준 안시후 연구원에게 감사함을 표시합니다.

이번 세미나는 Human Action Recognition에 대하여 진행되었다. 이는 사람이 어떠한 행동을 하고있는지 인식하는 방법론이다. 이때, 입력값으로는 인간의 행동에 영향을 미치는 다양한 요소들이 활용되며, 출력값으로는 인간의 행동 종류가 매핑된다. 예를 들어, 인간의 행동을 찍은 이미지나, 인간의 행동에서 나오는 센서 및 소리 등의 데이터가 입력값으로 활용된다. 본 세미나에 의하면, 이미지와 Skeleton 두 가지를 멀티모달 형태로 활용하는 연구들이 다수 진행되고 있다고 한다. 이미지의 경우는 CNN을 활용하며, Skeleton의 경우 GNN을 활용한다.
본 세미나를 통해 Human Action Recognition 분야에 대해 접할 수 있었다. 해당 분야의 전체적인 배경을 잡는데 큰 도움이 되었고, 활용되는 다양한 데이터를 장/단점 및 예시를 통해 소개해준 부분이 인상깊었다. 현실에서 이러한 모든 정보를 반영하여 모델링을 진행하면 좋겠지만, 이는 현실적인 제약이 따른다. 개인적인 생각으론 각 Depth 이미지나 Infrared Sequence 등을 개별적으로 구하기 보다는, 각 RGB이미지에서 이러한 정보를 추정할 수는 없을까 궁금하다. 컴퓨터 비전 측면에서 이러한 정보를 100%는 아니더라도 일부 추정할 수 있다면, Modality가 부족한 상황에서 이를 극복할 수 있지 않을까 생각했다. 양질의 세미나를 준비해주신 안시후 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

사람 행동 인식(Human Activity Recognition)에 관한 세미나를 청취하였다. HAR은 사람이 어떠한 행동을 하고 있는지 실시간 분석, 분류하는(미래 예측 X) 태스크로, 굉장히 실용적이며 활용 분야가 넓은 태스크이다(2022년 카타르 월드컵 오프사이드 판정에도 활용됨). HAR 분석을 위해 사용되는 여러 가지 Modality 데이터들도 함께 소개되어 있어 유익하였다. 이 부분은 향후 HAR 분석을 하게 된다면 어떠한 Feature를 가진 데이터 수집이 분석에 유리할 지 판단하는데 많은 도움이 될 것 같다. 예를 들어, HAR 하면 이미지 데이터가 가장 많이 사용되고 효과적일 것이라 생각하였는데, 스포츠와 같이 역동적인 모습 한 가운데 정교한 HAR이 가능하려면 가속도 및 위치 모달 데이터 추가도 필수일 것 같다는 생각이 들었다. 그리고 복수 개의 모달 데이터를 합치게 되면 더욱 정확한 HAR이 가능할 것으로 예상되기에 멀티 모달 학습 방법론과 궁합이 매우 좋을 것 같다고 생각한다. 좋은 세미나를 준비하느라 고생한 시후에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.