- 2020년 11월 16일 오후 4:28
- 조회수: 475
김정원
비대면으로 열린 2020년도 대한산업공학회 추계학술대회에 참석했다. 연구실에 오고 나서 처음 청취하는 학술대회라 기대를 많이 했고 그만큼 다양한 연구 내용을 접할 수 있어 유익했다. 온라인이어서 아쉬워 한 분들도 많았지만, 개인적으로는 공간 제약이 없어 내가 원하는 발표들을 더 많이 들을 수 있었던 점이 좋았다. 주로 우리 연구실 분들 발표 중에서 컴퓨터비전, 자연어처리, 그외 머신러닝 관련된 연구를 두루 들었다. 주제와 아이디어가 흥미로워서 앞으로 연구 주제를 정할 때 좋은 참고가 될 것 같다. 아래 남긴 후기 외에도 발표를 위해 열심히 준비해 준 연구원 분들께 모두 감사 드린다.
1. 깊은 문맥 이해를 위한 지식기반 워드임베딩 - 민다빈, 김성범
다빈이가 지식 정보를 이용한 자연어처리 연구를 소개해줬다. 인간의 언어를 학습하는 데 있어 사전에 축적된 기억, 즉 지식정보를 활용할 수 있다면 보다 정확한 모델이 될 것이다. 이를 위해 지식 정보 상 단어들의 연결성을 나타낸 지식 그래프(Knowledge graph)를 이용한다. 지식 그래프를 이용한 모델 중에는 2019년 발표된 BERT 기반 ERNIE 모델이 좋은 성능을 보이고 있지만, 일부 테스크에서는 지식정보를 활용하지 않았을 때보다 성능이 크게 향상되지 않았다. 다빈이는 일반적인 언어모델에 ‘Knowledge injector’ 모듈을 부착해 모델이 지식을 직접적으로 활용할 수 있게 하는 방식을 제안했다. 모듈을 통해 각 단어 객체 간 관계 임베딩 정보를 워드임베딩에 주입한 후, 기존 언어모델을 통과하는 방식이다. 자세한 알고리즘까지 이해하진 못했지만 지식 정보를 활용하기 위해 여러가지 방식이 시도되고 있다는 것을 알아서 좋았고, 발표하는 내내 이해를 돕기 위한 예시를 제시해줘서 집중도가 높은 발표였다.
2. 앙상블 모델을 활용한 112 신고 발생 건수 조기예측 - 김서연, 김성범
개인적으로 관심이 있었던 연구인데 이번 기회에 자세히 들을 수 있어서 좋았다. 연구 과제는 다양한 범죄 관련 데이터로부터 서울 내 경찰서 관할 별로 신고 발생 건수를 예측하는 머신러닝 모델을 개발하는 것이다. 이를 위해 112 신고 건수 뿐 아니라 날씨, 집회, 지역 관련 데이터를 두루 수집해 학습 데이터로 활용했다. 학습 과정에선 같은 관할관서 별로 군집화한 뒤, 시계열 특성을 반영할 수 있는 RNN 모델과 지역구 정보를 반영할 수 있는 부스팅 기반(CatBoost) 모델을 사용했다. 실험 결과와 더불어 예측 과정에서 중요하게 작용한 입력변수 20개도 소개해줬는데, 결과 해석력이 좋은 연구라는 점이 인상 깊었다. 발표 후 입력변수 중요도 상위 20개 결과에 ‘휴일’이 포함되지 않은 점에 대한 질문이 있었다. 이후 발표자료를 다시 보니 실험에 따라 휴일이 포함될 수도 빠질 수도 있는 것 같은데 이런 점들에 대한 해석이 덧붙여지면 더 좋을 것 같았다.