[학회 후기]

11월 4일 인천대학교에서 대한산업공학회 추계학술대회가 열렸다. DMQA 연구실의 교수님, 선후배 및 동기 연구원에게는 발표를 해본 적이 있었지만 외부 인원에게 내가 했던 연구를 소개하는 첫 자리여서 그런지 많이 긴장되었던 것 같다. 내 Session은 B Session으로 10시 40분부터 시작이어서 09시부터 시작되었던 동기 김성수 연구원의 석사논문경진대회를 참관하였다. 확실히 경진대회에 참가하는 사람들의 연구의 depth나 contribution이 굉장했던 것 같다. 사실 대부분의 발표 내용이 산업공학의 정수라고 할 수 있는 optimization과 관련된 내용인지라 관심 분야가 아닌 나로서는 이해하기 힘든 것도 사실이었다. 그렇게 김성수 연구원의 발표를 청취하고, 나는 내 세션 발표장으로 이동하여 발표를 준비했다. 사실 동일 내용의 프로젝트로 바로 앞 순서에 심세진 연구원의 발표가 있어서, 동일한 내용(데이터 설명, 전반적인 task 등등)을 반복하는 것이 청중을 지겹게 하지는 않을까 걱정되었다. 그래서 가능하면 심세진 연구원이 언급했던 부분들은 다시 한번 remind 시키는 정도로 가볍게 넘어가고, 내 연구만의 contribution에 대해서 깊게 설명하려고 노력했던 것 같다. 내 발표 차례가 시작되고 단상 앞으로 갈 때는 정말 많이 떨렸다. 하지만 내 연구 배경을 소개하면서 뭔지 모를 자신감이 붙었고, 내 나름대로 대학원에 진학하여 했던 발표 중 가장 잘한 발표였다고 내 자신 스스로 생각한다. 주변 선배 연구원들에게 전해 들었던 것 보다 정말 많은 청중이 와서 많이 떨렸지만, 내 발표에 집중해주시는 몇몇의 청중을 보면서 나도 더욱 집중할 수 있었고, 발표를 성공적으로 마칠 수 있었다.


[발표 후기]

발표 제목 - 전기 자동차 소음 예측을 위한 스펙트로그램 오토인코더 기반 자기지도학습

최근 저소음 차량에 대한 수요가 급증하면서 전기자동차가 차량 산업에서 급부상하고 있다. 도메인 측면에서 접근했을 때, 전기 자동차의 경우 기존에 경유 및 휘발유 차량에 있던 엔진, 변속기 등이 배터리로 교체되면서 이로 인해 유발되던 전반적인 소음은 어느 정도 해결이 되었다. 하지만 자동차의 고질적인 소음 유발 원인인 조향 장치(handle)의 회전에서 발생하는 소음은 여전한 골칫거리이다. 이는 조향 장치를 돌림으로써 발생하는 가속도에 의한 소음인데, 본 연구는 해당 가속도 센서 데이터를 바탕으로 차량 소음을 예측하는 task이다. 차량 산업에서 소음 데이터를 얻는 것은 매우 번거롭다. 매번 도메인 전문가가 직접 차량에 탑승해서 고가의 센서를 부착하고, 핸들을 돌려가면서 직접 소음을 계측해야 하기 때문이다. 이러한 번거로움을 극복하기 위해, 차량과 매우 유사하게 구축된 시험 환경에서 수집 용이한 가속도 센서 데이터를 활용하는 방법을 사용하였다. 시험 환경에서의 데이터는 소음 정보(Y)는 없지만, 가속도 센서 정보(X)는 존재한다. 이러한 데이터를 바탕으로 자기지도학습(Self-supervised learning)을 통해 가속도 센서 정보를 합성곱 오토인코더 기반으로 복원하도록 하여 feature를 학습시키고, 학습된 오토인코더를 transfer learning하여 적은 양의 소음 정보가 존재하는 실차 데이터를 활용한 소음 예측 task를 진행하였다. 본 연구는 적은 양의 labeled data(소음 정보가 존재하지 않는 데이터)만 존재하는 경우에도 차량 소음 수준을 비교적 정확히 예측할 수 있다는 점이 contribution이라고 할 수 있다.

 

질문 1.) Waveform 형태의 가속도 데이터를 Spectrogram으로 변환하였는데, Spectrogram의 size는 어떻게 되는가?

답변 1.) 차량 산업에 종사하는 도메인 전문가의 의견에 따라 0 ~ 2,000Hz의 정보를 Spectrogram으로 변환하였다. 이 과정을 거치게 되면 129 * 129의 size를 갖는 Spectrogram이 나오게 된다.


질문 2.) 기존 Waveform 형태를 고수하지 않고 Spectrogram으로 변환하는 특별한 이유가 있는가?

답변 2.) Spectrogram을 사용하는 큰 이유는 두 가지 존재한다. 첫째로, Waveform을 사용했을 때 보다 전반적인 regression의 performance가 좋았다. 그리고 둘째로, 본 연구는 4개의 주파수 대역에 대한 소음 수준을 예측하는 multi-output 문제인데, waveform의 경우 시간에 따른 신호의 세기 정보를 담고 있기 때문에, 시간에 따른 주파수 대역의 정보를 나타내는 Spectrogram으로 변환이 필요하다고 생각했다.


질문 3.) Self-supervised learning의 효용성을 검증하기 위해 train data의 비율을 1%와 5%의 경우로 선정했는데, labeled data와 unlabeled data의 개수는 어떻게 되는가?

답변 3.) unlabeled data의 경우 약 23,000개 정도의 sample이 존재하고, labeled data의 경우는 13,000개 정도의 sample이 존재한다. 하지만 말씀하신대로 train data(labeled data)의 경우 1%(약 130건), 5%(약 650건) 정도로 매우 적은 환경을 가정하고 실험한다.


질문 4.) 그렇게 예측된 차량 소음 수준을 바탕으로 소음 수준이 높다면 어떤 조치를 취하게 되는가?

답변 4.) 협업한 차량 도메인 전문가들은 NVH팀이라고 해서 설계에 대한 평가를 하는 팀이다. 위의 방법으로 평가를 하게 되어 소음 수준이 문제가 있다고 판단되면 해당 정보를 설계팀에 전달하고, 설계팀에서 구조 상의 문제가 있는지 파악하고, 구조를 변경하여 소음 수준이 정상 상태로 돌아오는지 검증하는 구조이다.


[청취 후기]


1. 귀납적(inductive) 링크 예측을 위한 그래프 신경망 기반 아웃핏 추천 시스템 (오은, 최동구 - 포항공과대학교 산업경영공학과)

최근 인터넷 쇼핑몰에 들어가보면 나를 위한 추천 시스템이 굉장히 잘 구축되어있다. 하지만 이러한 아웃핏 추천 시스템의 경우 대개 많이 입는(아우터, 후드티, 맨투맨 티 등등) 종류의 아웃핏에 대해서는 굉장히 유용한 추천을 해주지만, 만일 평소에 악세사리에 관심이 없던 사람이 악세사리에 대한 흥미가 생겨 추천을 받는다면 어울리지 않는 item을 추천받을 수 있는 문제가 있다고 한다(특히 신상품에 대한 추천). 그래프 신경망의 관점에서 inductive link prediction과 transductive link prediction이 존재하는 데, 본 문제는 inductive link prediction이 제대로 이루어지지 않는 문제에서 출발한다. 일반적으로 잘 알려져있는 그래프 신경망으로 활용되는 GCN, Bi-LSTM 등은 기존의 상품에 대한 정보인 transductive item에 대한 추천 performance는 굉장히 좋지만 inductive item에 대한 추천 performance는 매우 좋지 않다고 소개한다. 그래서 발표자는 Context-aware visual compatibility과 align을 활용하여 transductive encoder와 inductive encoder 두 encoder를 순서대로 학습하는 모델을 제안하였다. 추천 시스템도 그렇고, 뒤이어 소개할 자연어 처리 분야도 그렇듯 거의 단 한번도 접목해보지 못한 분야라서 이해하기가 어려웠다. 기회가 된다면 두 분야에 대해서 대략적으로라도 공부해보고 싶다는 생각이 들었다.


2. 고객 리뷰 데이터를 활용한 언어 모델의 속성 점수 기반 고객 불만 요소 탐지 (이유경윤훈상김도윤고유경김재희강필성 - 고려대학교 산업경영공학과)

같은 소속의 고려대학교 산업경영공학과에서 발표한 흥미로운 주제였다. 예전부터 고객 리뷰 데이터라고 하면 굉장히 주관적인 성격을 갖는 data라서 분석이 어렵지 않을까하는 생각을 하곤 했었다. 그러한 고객 리뷰 데이터에 대해 1. 특정 키워드를 바탕으로 고객의 불만을 탐지하는 task와 2. 고객 리뷰 데이터에 대해 비지도 학습 기반의 clustering을 통해 불만 요소를 제품군 별로 탐지하는 내용의 연구였다. 두 가지 방법의 제안 방법론이 적용되었는데, 첫 번째의 경우 감성 분석 기반 방법론이었다. 고객 리뷰 데이터에 대해 긍정 혹은 부정 2-class로 분류하거나, 긍정 / 중립 / 부정 3-class로 분류하여 모델을 학습한다. 해당 방법론은 긍정, 중립, 부정에 대한 정보(Y)가 있는 Supervised task였던 것 같다. 두 번째의 경우는 CPL(Curriculum Pseudo Labeling)의 Self-training 방법을 활용하여 고객 불만 요소에 대한 유형을 구분하는 task였다. 해당 방법론은 앞의 방법론과는 다르게 y 데이터가 없고 오직 고객 리뷰 데이터를 바탕으로 clustering에 집중하는 task였다. 사실 자연어 처리 분야의 경우 한 번도 접해보지 않아서 완벽히 이해하기는 힘들었지만, 기존에 알고 있던 제조업에서도 쓰일 수 있는 친숙한 방법론들이 등장해서 어느 정도 이해할 수 있었다.