[학회 후기]
이번 2024 데이터마이닝 학회는 입학하고 초기에 참석하고 오랫만에 참가하기도 했지만 학회 자체가 오랫만이어서 더욱 좋았던 것 같습니다.  이전보다 더 많은 기업들과 함께 기업과 학교가 어울러지는 장이었고,  네임카드를 받으면서 기업 부스에서 예전 삼성 재직시절 제일 고생했던 프로젝트PM님을 십년이 넘게 지나 만나서 너무 반가웠고 이런 기회가 있음에 너무 감사함이 들었습니다.  특히, 생성 모델중에서 LLM을 가지고 접목한 세션들이 흥미롭고 기업의 관심을 읽을수 있었다.

[청취 후기]
- MRI data augmentation via Denoising Diffusion Probabilistic Model
이전에 주식 데이터를 가지고 denoising autoencode를 이용하여 fake data를 생성하는 논문을 흥미롭게 읽은적이 있었다. 이 세션은 MRI 데이터를 증강시키기 위한 Denoising Diffusion Probabilistic Model 연구라 유사하지만 훨씬 의미있고 난이도가 있어 보이는 연구라 생각이 되어졌다. 이유는 너무 중요한 개인정보인  이유 때문에 데이터 수가 제한적이며,  아주 높은 정밀도가 요구되므로 엄청 어려운 미션이라 생각이 되어지지만,  디퓨전 모델에서 일반적으로 사용하는 가우시안 노이즈 대신 MRI 데이터에 적합한 Rician 노이즈 활용하여, 더 높은 품질의 데이터를 생성하였다고 하였다. 청량감이 있는 발표라 재미있게 들고 내용 자체도 너무 유익했다.

- WHY-Chain: Learning Language by Repeated "Why?" Questions as Children Do
회사에서 그룹장님이 5 WHY를 항상 생각하고 발표자료를 준비하라고 많이 얘기를 하셨다. 그런 걸 착안해서 LLM 프롬포트 연구였다. LLM 프롬포트를 어떻게 설계하냐가 연구 주제가 되는줄은 알고 있었는데 이렇게 접하게 되어서 참 신선하였다.  정량적으로 검증하기 어려운 것이라 생각하던 차에 LLM 기반에 가설을 선정하고 실험 부터 제안 아이디어 검증하는 것들을 보면서 참 연구주제는 다양하고 재미난 연구들이 많이 일어나는구나라는 생각과 함께 항상 열린 시각이 중요하다 새삼 느꼈다.

- 아파트 전세에 영향으루 주는 주거 환경 요인 분석
서울대학교 조성준 교수님 랩실에서 챗봇 데이터 구축부터 공공 데이터를 직접 수집까지 하면서 다양한 연구를 많이 하는것 같다. 동 랩실에서 하는 이 연구 또한 흥미로웠다. 대학원 자체적으로 기업에서도 하기 힘든 수많은 데이터를 가지고 전세 가격에 영향을 주는 주거 환경 요인을 분석한다니 일단 그 노력에 박수를 쳐주고 싶었다. 수집하는 곳이 수십개는 족히 되어보이던데,   교통,  학교,  상업,  우체국, 소방서등 많은 공공기관의 데이터를 수집하고 분석 결과를 변수 중요도로 보여주는데 재미난 것들이 많았다. 특히 금천구 여부, 강남구 여부가 중요도로 높게 나온것을 해석하는 부분이 재미있었다.  요즘 부동산 시장이 양극화 얘기가 도배를 하는데 같은 맥락으로 해석되는 부분이었다.