[학회후기]

한국데이터마이닝학회 사무국 조교를 맡은 뒤 두번째 개최된 경주 추계학술대회에 참여했다. 이번 학술대회는 춘계와 비교해서 서울에서 먼 지역임에도 참석 인원도 많았고 기존에 시도 해본 적 없는 포스터 세션, 초청 구두 세션 등을 진행하다 보니 준비 교수님들과 사무국 조교들 등 많은 정성이 들어갔다. 학회 개최를 위해 경주에서 일하는 업체들과 컨택했던 과정도 돌아보니 값진 경험이었다. 구두 발표에서 포스터 발표로 변하게 되어 비교적 덜 열심히 학생들이 준비하지 않을까 걱정했던 것이 무색할 만큼 포스터 세션은 매우 열정적이었다. 사무국 업무 때문에 포스터 세션에 계속 있을 수는 없었지만 비는 시간에 최대한 적극적으로 참여하려고 노력했었다. 개인적으로 연구하고 있는 semi-supervised or domain adaptation 분야의 포스터 발표가 많지 않았던 점은 아쉬웠지만, 다양한 산업분야에 적용되는 방법론들을 볼 수 있는 것 또한 다채롭고 좋았다. 나는 특히나 질문을 하는 것을 좋아하는 스타일인데, 제안하는 방법론 구조나 기존 방법론에 어느 부분을 영감 받아서 발전시킨 것인지 이해하는 것이(물론 포스터 작성자가 발표를 잘했다!) 지금까지 연구실 생활의 결실로 느껴져 흥미롭고 뿌듯했다. 그리고 구두 발표 세션 중 개인적으로 신임교원 세션이 매우 감동적이었다. 질의 응답 시간을 통해 대학원생의 입장에서 힘든 현재 마음을 이해하고 힘을 주는 말들을 해 주셔서 큰 울림이 있었던 것 같다. 마지막으로 연구실 인원 대다수가 참여한 타지에서의 학회였는데, 한 마음 한 뜻으로 도움 많이 받을 수 있었어서 연구실 인원들에게 매우매우 고맙다.

 

[청취후기]

섹터 정보를 활용한 대규모 언어 모델(LLM)의 재무 데이터 분석 (김현진/동국대)

표준화된 오픈 데이터인 시장가격 등의 정보를 담고 있는 재무 데이터를 LLM에 입력하여 향후 재무 데이터에 대한 트렌드 및 전망을 알아보는 연구이다.

질문 1. 재무 데이터? 회계 데이터를 말하는 것인가?

답변 1. 물품에 대한 시장 가격 등을 묶어서 재무 가격이라고 표현했다.

질문 2. 시장 가격 등 전망을 예측하는 것은 딥러닝 시계열 예측을 시도할 수 있을 것 같은데 LLM을 쓴 이유가 있는가?

답변 2. 단순하게 트렌드와 값 만을 예측하는 것이 아니라 그에 따른 근거를 자연어로 제시하는 논리적인 답변이 필요하기 때문이다.

개인적으로 회사를 다녀봤기 때문에 재무 데이터라 하면 회계, 자금 등의 숫자 데이터만을 생각했는데 구매 의사결정 등의 정보를 포함해서 재무 데이터라고 명칭 하는 것이 새롭게 느껴졌다. 또한, LLM을 사용했을 때 시계열 딥러닝 모델보다 예측 정확도가 떨어질지 더 높을지 궁금했으며 이를 비교하면 어떻게 될지 하는 생각이 들었다.

 

Adaptive Semi-Supervised Learning Architecture for Imbalanced Tabular Data (현윤후/연세대)

Tabular 데이터를 딥러닝에 학습시켰을 때 성능을 최대화하기 위한 Self, Semi 기법을 통합한 연구이다. 또한, 불균형 상황일 때 이를 해결하기 위한 loss 또한 포함되어 있다.

질문 1. Semi라고 써있는데 왜 Self 2단계나 있나?

답변 1. Tabular data에서 좋은 특징을 추출하기 위한 Self 단계가 들어갔다.

질문 2. 비교 방법론에 ML, MLP로 되어 있는데 제안 딥러닝이 좋다는 것을 제안하기 위해서는 TabNet과 같은 방법론도 포함되어야 하는 것 아닌가?

답변 2. 아직은 연구 중으로 비교 방법론은 추후 추가 예정이다.

테이블 데이터를 딥러닝에서 좋은 성능을 내기 위해 다양한 method를 결합한 연구였다. 테이블 데이터에서 머신러닝이 더 좋은 성능을 보임에도 딥러닝을 쓸 수밖에 없는 이유로는 미세 조정이 필요한 경우 또는 대량의 데이터로 자원을 분배하여 학습을 해야 한다면 딥러닝 사용은 선택이 아닌 필수이기에 최대한 딥러닝에서 성능을 고도화하기 위하 다양한 method 들을 시도해보는 새로운 분야라고 느껴졌다.