[학회 후기]

2022년 대한산업공학회 추계학술대회는 송도에 있는 인천대학교에서 오프라인으로 진행됐다. 대학원에 입학하고 난 후 처음으로 참가하는 학회였다. 긴장과 설렘을 가지고 도착한 학회는 이른 아침부터 많은 사람들이 참가했다. 내 발표는 B session이라 시간이 남아서 다른 사람들의 발표를 들으면서 오전을 보냈다. 많은 사람들이 참가하는 학회이니 만큼, 다양한 산업과 다양한 연구 주제에 대한 발표가 이뤄졌다. 어떤 발표는 어려우면서도 흥미로웠지만 어떤 발표는 이해조차 가지 않는 것을 보며, 내가 발표를 할 때는 이런 점은 주의해야겠다고 생각하며 첫 session이 끝났다. B session이 시작되고, 내 차례가 다가오면서 서서히 긴장되기 시작했다. 내 차례가 되고 단상 앞에 섰을 때, 생각보다 많은 사람들이 내 발표를 들어줘서 더 떨었던 것 같다. 하지만 준비했던 발표를 잘 마무리하고, 질의 응답을 받으면서 앞으로의 연구에 반영할 부분과 실제 현업에서의 의견들을 알 수 있어서 너무 좋은 기회였다는 생각을 하게 됐다. 많은 연구실 사람들과 학회를 참가해 좋은 추억을 쌓을 수 있었고, 개인 연구를 더 발전시켜야겠다는 생각을 가지게 됐다.


[발표 후기]

사전 학습된 언어모델을 활용한 시스템 로그 조기 오류 탐지라는 주제를 가지고 발표를 진행했다. 최근 머신러닝, 딥러닝을 바탕으로 하는 프로젝트들이 많아지면서 프로젝트에 필요한 작업 연산량이 늘어나고 있다. 기업에서는 이를 감당하기 위해 High Performance Computing system(HPC)를 확보하며 사용하고 있다. HPC는 종종 오류가 발생하는데, 이를 다시 정상 작동 시키기 위해서는 최대한 빠르게 후속 조치를 취하는 것이 현재까지 최선이다. 최근에는 HPC가 산출하는 로그 데이터를 바탕으로 오류를 조기에 예측해 사전 조치를 위한 연구들이 진행되고 있다. 이러한 상황에서 정상 데이터만 언어모델인 ELECTRA에 학습시켜 이상을 조기에 탐지하는 방법론을 제안하였다. 해당 연구는 자연어 처리 기반 이상치 탐지 방법론인 DATE를 바탕으로 산출된 확률에 sharpening과 시스템 로그에 적합한 Anomaly score를 제안하는데 의의가 있다. 배정된 session 자체가 산업에서의 딥러닝 적용과 관련된 주제가 많아서 그런지, 현업에 계신 분들이 많이 계셨다. 관련자들과 질의응답 시간을 가지면서 좀 더 산업에 적합한 딥러닝 방법론을 위해서는 많은 점들이 고려되어야 한다고 생각했다. 연구실에 입학 후 첫 발표였음에도 불구하고, 잘 마무리한 것 같아서 뿌듯했다.


질문 1) 일반적으로 모델의 Input 길이가 정해져 있는데, 30개의 로그를 합했을 때 로그 단어의 개수가 모델 Input의 길이보다 길어지면 이에 대해서는 어떻게 처리하는가?

답변 1) 이 때는 모델의 Input 길이만큼씩 잘라서 모델에 넣게 된다. 산출되는 확률들은 따로 모아둔 뒤, 30개의 로그 문장의 마지막 토큰의 확률까지 산출한 뒤 확률이 낮은 일부 단어들을 바탕으로 score를 산출하게 된다.


질문 2) Accuracy와 F1 score도 좋은 지표지만 실제 산업의 경우, False Rate과 같은 지표를 사용하는 이를 어떻게 반영할 수 있을까요?

답변 2) 현재는 Accuracy와 F1 score를 바탕으로 실험을 진행했으나, False Rate 등을 고려하고 있으시면 Recall이나 Precision을 활용하면 반영할 수 있을 것 같다.


[청취 후기]

1. Normalizing Flow 기반 잠재 공간 변환을 통해 패턴 기반 무자각 개인인증  (허재혁, 김정섭, 정의석, 김수빈, 강필성 - 고려대학교 산업경영공학과)

Random Pin Pad의 데이터에서 추출한 사용자의 패턴을 바탕으로 실제 사용자인지 외부 침입자인지를 판단하는 문제를 해결하는 발표였다. 우선 해당 연구에서 사용한 데이터가 굉장히 인상 깊었다. Random Pin Pad의 경우,매번 숫자의 배열이 달라지기 때문에 데이터를 추출하기 어려울 것이라고 생각했다. 하지만 연구에서는 사용자의 입력 위치와 입력 사이의 시간 차를 데이터로 활용했다. 또한 최근 생성모델에서 많이 사용되는 Normalizing Flow를 tabular data에 적용한 점도 굉장히 신선하다고 느꼈다. 해당 기법이 쉽게 적용되지는 않을 것 같다고 생각했으나, 실험을 통해 증명한 것을 보며 대단하다고 생각했다. 


2. U-Net+ResNeSt 기반의 유방암 탐지 및 해석 (이유진, 박지영, 이상민 - 광운대학교, 경북대학교)

최근 Healthcare 쪽에서도 인공지능을 적용한 연구가 꾸준히 증가하고 있다. 해당 연구는 유방암 이미지 데이터를 바탕으로 악성 종양이 있는 부분을 Segmentation하는 연구이다. 모델의 전반적인 구조는 U-Net과 ResNeSt를 결합하여 Attention을 활용할 수 있는 구조였다. 인상 깊었던 점은 데이터가 굉장히 제한적인 상황이라는 점이었다. 이러한 상황에도 불구하고 모델의 성능은 꽤 좋았을 뿐만 아니라 실제 Segmentation을 한 Output을 보아도 유의미한 결과를 도출했다는 점을 알 수 있었다. Attention을 잘 활용한 연구라고 생각을 했다.