고려대학교 DMQA 연구실

2022 대한산업공학회 춘계학술대회 - 조경선

2022년 6월 4일 오후 12:58
조회수: 466

Reviewed by

조경선

[학회후기]

이번 대한산업공학회 춘계학술대회는 제주도에서 진행되었다. 코로나로 인하여 온라인 컨퍼런스 경험 밖에 없었는데, 처음으로 오프라인 발표를 진행하게 되어 긴장이 많이 되었다. 하지만 오히려 현장에서 느껴지는 에너지가 그 긴장감을 녹여주었고 덕분에 차분하게 발표를 진행할 수 있었다. 또한 다른 사람의 발표 내용도 오히려 집중하여 들을 수 있어서 다양하게 연구되고 있는 분야들을 몸소 느낄 수 있었다. 기존 학회에서도 보았던 주제였지만, 특별히 관심을 갖지 않았던 연구들도 들을 수 있는 기회가 되었는데, 그 중 특허를 분석하여 유망 기술에 대한 연구를 하는 세션이 기억이 남는다. 생각보다 해당 주제로 연구가 세분화 되어 진행되고 있었고, 의료와 같이 직접적 실험적으로 결과를 얻기 어려운 분야도 특허를 이용하여 유의미한 결과를 낼 수 있다는 것을 알게 되어 흥미로웠다.

[발표후기]

개체명 인식은 검색엔진이나 추천시스템 등 다양한 application에 적용되고 있는 정보 추출 과정에 중요한 자연어처리의 한 분야이다. 개체명 인식의 성능은 상위 시스템 성능에 밀접한 영향을 미치기 때문에 개체명 인식 작업은 매우 중요한다. 딥러닝을 적용한 후 개체명 인식의 성능은 월등히 향상되었지만, 한국어 개체명 인식은 영어에 비해 그 상황이 쉽지 않다. 왜냐하면 한글은 영어와 다른 언어학적 구조를 가지고 있고, 데이터셋도 작기 때문이다. 이에 따라 한국어 개체명 인식에 데이터 증강 기법을 적용하여 그 성능을 향상시키고자 한다. 기존 한국어에서 사용되던 복잡한 토큰화를 띄어쓰기 기반으로 변경하였고, Heuristic 기반의 다양한 데이터 증강기법을 적용하여 저비용 저성능으로도 좋은 성능을 낼 수 있음을 입증하였다.

질문 1. 성능 향상이 Training과 Test data간 중복이 존재하여 오버피팅이 발생한 것 아닌가?

Training과 Test data 간의 중복은 거의 발생하지 않았다. 오버피팅으로 인한 현상은 아니고, 데이터 증강 기법 적용으로 인한 성능 향상으로 보고 있다.

질문 2. 한국어 데이터 셋이 영어에 비해 규모가 작은 이유는 무엇있가?

한국어는 영어에 비해 사용하는 인구 수가 작기 때문에 데이터 셋의 확장이 어렵다. 영어권에서는 꾸준히 데이터 셋을 업그레이드하고 있으며 그 카테고리도 다양화해 나가고 있다.

[청취후기]

1. 약물재개발 기회 발굴을 위한 특허 논문 네트워크 통합 분석 (신현진, 아주대 인공지능 학과, 이성주, 서울대 산업공학과)

알츠하이머와 같이 아직 약물이 개발되지 않은 질병들이 많이 있다. 해당 질병의 약물을 개발하기까지 막대한 비용과 시간이 필요하다. 이에 기존의 연구를 기반으로 하여 과학적 발견을 기술개발로 적용하기 위해 특허와 논문을 통합한 기술기회 발굴 방법을 제안하였다. 논문을 기반으로 질병들의 인과관계 네트워크를 구성하고, 특허를 기반으로 질병들의 공동치료 관계 네트워크를 구성하였다. 두 네트워크 정보를 통합하여 질병의 관계, 유사성 등을 점수화 하여 약물 재개발을 위한 후보 대상을 선정하였다. 이렇게 선정한 후보 대상을 실제 약물 용도 변경 신청 건들을 대상으로 유의미함을 확인하였다. 해당 연구가 특허나 논문 건수가 적은 희귀질환에 관해서는 유의한 결과를 장담할 수 없다는 것이 아쉬움으로 남지만, 알츠하이머와 같이 꼭 약물이 개발되어야 하는 질병에 대해서 좀 더 연구개발 시간을 단축시켜 줄 수 있다는 점에서 사회적으로 의미하는 바가 크다고 생각한다. 특허와 논문을 통해 사회적, 기술적 난제들을 해결할 수 있는 연구라는 점에서 단지 기술의 향상만이 목적이 아닌 내 연구가 미칠 영향도를 생각해 보게 했다는 점에서 큰 울림을 주었다.

2. 그로버 알고리즘의 확장 가능한 구현 방법론 (전영민, 최인찬, 고려대학교 산업경영공학부)

양자 컴퓨팅에서 사용되는 그로버 알고리즘은 이론적으로 효율성이 좋음에도 불구하고, 실제 실험에서는 오차확률이 높아 제한된 크기와 데이터만 탐색할 수 있는 단점이 있다. 실험적으로 5큐빗이 최대 사이즈이기 때문에 실제 활용이 매우 어렵다. 본 연구에서는 최종적인 알고리즘을 수행하여 결과를 얻는 기존 방식을 수정하여, 매 1회 알고리즘 반복 시 관측확률을 계산하고, 큐빗을 보조큐빗으로 쪼개서 계산하는 방식을 사용하여 그루비 알고리즘에 발생하는 오차 확률을 줄였다. 이에 25큐빗까지 시스템에 활용할 수 있을 보였고, 직렬적 수행만 가능했던 기존 방법을 병렬적으로 수행할 수 있게 함으로서 그로버 알고리즘을 확장시켰다. 양자 컴퓨팅에 대한 사전 지식이 없어서 해당 연구를 제대로 이해하기는 너무 어려웠다. 하지만 해당 연구는 기존에 우리가 다루었던 머신러닝, 딥러닝 기술도 아니었고 예측이나 이상치 탐지 같이 application에 적용하는 연구는 아니지만 산업공학과가 연구할 수 있는 분야의 한계가 없다는 것을 느끼게 해주었다. 데이터 분석이라는 연구분야에 한정되어 있던 뇌를 환기시켜주는 흥미로운 발표였다.

Conference