- 2022년 4월 15일 오전 6:21
- 조회수: 7198
INFORMATION
- 2022년 4월 15일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
화학 분자 도메인에서 표현 학습은 신약을 위한 새로운 분자 구조의 생성, 물성 및 화학 반응 예측 등 다양한 태스크에 적용된다.
분자 도메인의 성능 평가를 위한 다양한 데이터셋과 벤치마크가 등장함에 따라 다양한 생성 모델, 분류 모델, 사전학습 방법론이 등장하였다.
본 세미나에서는 분자 도메인에서 물성 예측을 위한 사전 학습 연구 사례들을 소개하고자 한다.
1. Wang, Y., Wang, J., Cao, Z., & Barati Farimani, A. (2022). Molecular contrastive learning of representations via graph neural networks. Nature Machine Intelligence, 1-9.
2. Zhu, J., Xia, Y., Qin, T., Zhou, W., Li, H., & Liu, T. Y. (2021). Dual-view molecule pre-training. arXiv preprint arXiv:2106.10234.
3. Chithrananda, S., Grand, G., & Ramsundar, B. (2020). Chemberta: Large-scale self-supervised pretraining for molecular property prediction. arXiv preprint arXiv:2010.09885.
청취자 후기

지도학습을 위해서는 Labled Dataset이 필요하다. 하지만, 레이블링하기 위해서는 많은 시간과 비용이 필요하고 특정 도메인에서는 전문가적인 지식이 필요하다. 이러한 한계를 개선하기 위해 나온 방법이 비지도, 준지도 학습 방식이며 본 세미나에서는 비지도 학습 방식의 한 갈래인 자기 지도학습을 화학 도메인에서 특정 분자의 물성 예측에 적용한 연구 사례에 관해 설명해주었다.
화학 도메인에서의 분자 구조를 표현하는 방법에는 크게 3D Coordinates, 2D Connectivity Graph, Character Sequence 3가지 방법이 존재한다. 이 중 2D Connectivity Graph, Character Sequence 표현 방법의 장단점은 서로 상호 보완적인 구조를 띠 있음을 설명을 통해 확인할 수 있었다. 본 세미나에서 알 수 있었던 물성 예측은 위 3가지 방법을 통해 표현된 분자 구조를 사용해 최종적으로 화학 분자의 성질(끊는 점, 전도성 등)을 예측하는 것을 말하고 있다.
화학 도메인에서 주로 사용하고 있는 Labled Dataset은 MoleculeNet Benchmark Dataset으로 그중 가장 큰 데이터의 집합 수가 43만 개 밖에 되지 않는다. 데이터 수가 적다는 한계를 개선하기 위해 Unlabled Dataset인 PubChem Dataset(1천만 개)을 사용하여 사전 학습을 진행하고 down stream task로 MoleculeNet 데이터 집합에 대한 fine tuning을 진행하는 연구가 활발히 진행되고 있다고 한다. 그중 발표자는 ChemBERTa, MolCLR, DMP에 대한 간략한 설명으로 화학 도메인에서의 사전학습 연구 사례를 보여주었다. 해당 알고리즘에 대한 설명을 하기 전에 Computer Vision, NLP 분야에서 적용된 자기 지도학습의 3가지 방법론(Pretext task, Contrastive learning, Non Contrastive learning)에 대한 연구 사례의 간략한 설명으로 물성 예측을 위한 사전 학습 연구 사례에 대한 이해를 도와주었다.
평소 자기 지도학습에 관심이 있었기에 화학 도메인에서의 자기 지도학습이 적용된 연구 사례에 대해 흥미를 갖고 볼 수 있었던 세미나였다. 가장 기억에 남는 부분은 크게 두 분야(CV, NLP)에서 사용되는 자기 지도학습 방법론과 ChemBERTa, MolCLR, DMP를 연관 지어 설명한 장표이며 직관적인 이해가 가능했다. 섬세한 설명과 차분한 어조로 좋은 세미나를 준비해주신 허종국 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 화학 분자 도메인에서 Deep Learning이 어떻게 적용되고 있는지 허종국 연구원님이 설명해주었다. 우선 분자 구조를 표현하기 위한 3가지의 방법을 설명하였으며(3D Coordinates, 2D Connectivity Graph, Character Sequence) 각 방법의 장단점과 특징에 대해서 확인 할 수 있었다. 이러한 방법을 통하여 표현된 분자 구조를 사용해 최종적으로 화학 분자의 성질을(끓는점, 전도성, 독성 등) 예측하는 것을 물성 예측이라고 하며 물성 예측은 신약을 위한 새로운 분자 구조 생성, 화학 반응 예측 등 다양하게 사용되는 중요한 테스크 이다. 다양한 물성에 대한 회귀, 분류 데이터 셋과 각 데이터 셋의 평가 지표를 제공하는 MoleculeNet이라는 벤치마크가 존재 하지만 분자 도메인의 데이터를 Labeling 하기 위해서는 시간 뿐만 아니라 전문적인 지식이 필요하기에 가장 많은 데이터셋도 데이터의 수가 40만개가 넘지 않는다고 한다. 따라서 PubChem이라는 약 1천만개의 Unlabeled 데이터셋을 사용하여 Self-supervised learning으로 사전 학습 진행 후 fine-tunning을 진행하는 연구가 활발히 진행되고 있다고 한다. 물성 예측에 앞서 이미지와 자연어 처리 분야에서 적용된 Self-supervised learning의 3가지 방법론(Pretext task, Contrastive;SimCLR, Non-Contrastive;BYOL)에 대한 간략한 설명으로 Self-supervised learning의 개념을 조금 더 이해할 수 있었다. 그 후 본 물성 예측을 위한 방법론으로 ChemBERTa, MolCLR, DMP 3가지를 소개해주었다. 아직 Self-supervised learning이 익숙하지 않아 완전히 이해하기는 힘들었지만 개략적인 구조를 파악하고 어떤 방식으로 연구가 진행 되는지에 대해서 알 수 있었다. 관심 가지고 있는 제조 공정에서도 또한 Unlabeled 데이터가 굉장히 많기에 흥미롭게 본 세미나를 청취할 수 있었으며 관련하여 더 많은 공부를 해야겠다는 생각이 들었다. 세미나를 준비해주신 허종국 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

본 세미나는 화학 도메인에서 자기 지도 학습이 어떻게 적용되고 있는지에 대한 주제로 진행되었다. 자기 지도 학습의 정의와 CV, NLP에서의 적용, 그리고 화학 도메인에서 적용되는 방법론들에 대한 소개 순으로 진행되었다.
ChemBERTa는 masked된 문자열을 예측하는 사전 학습을 진행한다. 이 후 사전 학습된 transformer encoder에 지도 학습 데이터에 알맞는 회귀나 분류 layer을 추가한다. 기존 지도학습 모델보다 우수한 성능을 보이지는 않지만 Pre-train dataset의 크기가 커질수록 Fine-tuning 성능이 증가하는 것을 보여주었다. MolCLR은 그래프에 edge feature 특징을 사용할 수 있도록 GNN구조를 변형한 모델이다. 또한 분자 도메인에 Contrastive Learning을 적용하기 위해 다양한 분자 데이터 증강 기법을 제안했다. 소개된 논문에서는 제안한 데이터 증강 기법이 성능 향상에 영향을 미치는 것을 보여주었다. DMP는 문자열과 그래프 구조가 가지는 장단점이 서로 상호 보완적임을 보여준 모델이다. 처음 사전 학습 단계에서는 분자를 그래프, 문자열 구조로 표현 후 각각을 GNN과 transformer encoder에 통과시킨다. 최종적으로 나온 prediction vector와 target과의 코사인 유사도를 계산한 후 각각 encoder로 gradient를 전파하게 된다. 다음 사전 학습 단계에서는 그래프와 문자열 각각에서 Masking 방법을 사용하여 진행된다. 해당 논문에서는 이 두 번째 사전 학습 단계를 추가했을 때 더욱 우수한 성능을 보여주었다.
아직 자기 지도 학습에 대해 아는 것이 많이 없고 또한 화학 도메인에 대해서도 아는 것이 많이 없었는데 본 세미나에서 도메인 소개와 더불어 적용되는 모델에 대해 잘 설명해주어서 큰 도움이 되었다. 자기 지도 학습에도 다양한 모델이 있다는 것을 다시 한 번 확인할 수 있었고 DMP 모델에서 그래프와 문자열 특징을 같이 학습하여 적용 시킨 점이 매우 인상적이었다. 어려운 내용임에도 불구하고 이해하기 쉽게 설명해주신 허종국 연구원님께 감사드리며 본 세미나 후기를 마친다.

화학 분자의 물성 예측 연구에 관한 세미나를 청취했다. 화학 분자 데이터 분석을 위해 어떠한 방법으로 화학 분자를 representation하는지 다양한 방법을 배울 수 있었다. 방법 별 장단점과 적합한 모델 구조가 무엇인지 눈 여겨 볼 수 있다. 물성 에측이 어떠한 연구 분야인지도 자세히 알 수 있어 종국이가 어떠한 연구를 하는지 잘 알 수 있었다. 본 세미나의 골짜는 자가지도학습을 활용한 물성 예측 연구인데, 골짜를 설명하기 전에 자가지도학습이 무엇인지 핵심 위주로 본 세미나 청취로 리뷰 받을 수 있다. 이어 본 세미나는 자가지도학습을 물성 예측에 어떠한 방법으로 접목 시키고 있는지 여러 가지 연구 사례를 리뷰해준다. 나는 이 분야에 자세히 알지 못했지만, 오늘 종국이의 세미나를 통해서 "자가지도학습 for 물성 예측"을 자세히 알 수 있었다. 자가지도학습에서 중요한 여러 요소들이 물성 예측 태스크에서는 어떻게 전환되는지 위주로 이해하면 좋다.
이 분야의 멋진 논문을 종국이가 어서 빨리 쓰게 되는 날이 오길 응원하며, 세미나 후기를 마친다.

이번 세미나는 물성 예측의 자기지도학습을 주제로 진행되었다. 물성 예측을 위한 분자 구조는 3가지 방법으로 표현이 가능하며 3D 좌표, 2D연결 그래프, SMILES 문자열 표현이 있다. 물성 예측은 특정 화학 분자의 성질을 예측하는 것인데, labeled data의 양이 부족하고 도메인 전문가가 필요하기 때문에 unlabeled data를 통해 자기지도학습을 하는 방법에 대해 알아보고자 한다. 물성 예측 설명에 앞서 CV와 NLP에서 사용되는 방법론에 대해 알아보았다. CV 관련 논문으로는 SimCLR와 BYOL이 소개되었고, NLP 관련 논문으로는 GPT, BERT가 소개되었다. 물성 예측 자기지도 학습 논문으로는 ChemBERTa, MolCLR, DMP가 소개되었는데, 세 논문 모두 unlabeled data인 PubChem-10M을 사전학습으로 사용하였다. ChemBERTa의 경우 BERT 모델과 유사하며, 마스크 기법을 사용하였는데, 기존 지도 학습보다 뛰어난 성능을 보이지는 않지만, 사전 학습 데이터 사용 크기에 따라 성능이 증가한다는 것을 입증하였다. MolCLR는 GNN 구조를 변형하고 대조학습을 적용한 방법으로 증강 기법이 성능 향상에 영향을 미치는 것을 입증하였다. DMP는 문자열과 그래프 구조를 입력으로 하여 서로 다른 형태의 표현 벡터를 예측하는 사전 학습을 하였다. GNN과 Transformer에 적용한 2개의 구조에서 좋은 성능을 보였다.
해당 세미나를 통해 물성 예측의 개념 및 방법론을 처음 접하게 되었는데 물성 예측보다 익숙한 CV와 NLP 분야의 자기지도학습 방법론을 설명해주었기에 소개된 3개의 논문 또한 쉽게 이해할 수 있었다. 다른 도메인에서 방법 및 구조를 발전시킬 수 있는 것이 인상적이었으며, 유익한 세미나를 준비하시느라 고생했다는 감사 말씀드리며 세미나 후기를 마친다.

이번 세미나는 화학 분자 도메인에서 Self-supervised Learning이 적용된 방법론에 대한 주제로 진행되었다. 화학분자 도메인의 경우 데이터 레이블링에 있어 전문가의 지식이 수반되기 때문에, Labeled Data를 얻는 것은 더더욱 어려워 Unlabeled Data을 활용하는 연구가 더욱 중요하다.
본 세미나는 화학 분자 도메인의 Self-supervised Learning을 그래프와 문자열이라는 두 가지 관점으로 바라보았다. 문자열 관점에서 화학 분자 도메인을 분석할 때는 원자 사이 거리가 먼 큰 분자의 표현을 잘 학습하지만, 여러 고리가 복잡하게 뒤얽힌 분자의 표현은 잘 학습하지 못하고, 그래프의 관점에서는 여러 고리가 복잡하게 뒤얽힌 분자의 표현은 잘 학습하지만, 원자 사이 거리가 먼 큰 분자의 표현은 잘 학습하지 못한다는 것을 알 수 있었다. 본 세미나에서는 두 관점에서 화학 분자 도메인을 분석한 논문들을 각각 소개하였다. 먼저 문자열 관점에서 화학 분자 도메인 문제를 해결한 ChemBERTa, 그래프 관점에서 바라본 MolCLR, 그리고 두 관점을 모두 활용한 DMP 방법론을 통해 어떻게 연구가 진행되는지 흐름을 파악할 수 있었다.
Self-supervised Learning이 화학 분자 도메인에 적용된 연구들을 소개해준 본 세미나를 통해 화학 분자 도메인에서 연구가 어떻게 이루어지는지 알 수 있었다. 우선적으로 화학 분자라는 특성상 원자간 결합이 매우 민감하기에 AI의 적용이 불가능하다고 생각했는데, 오늘을 계기로 기존에 가지고 있던 고정관념을 깰 수 있었다. 또한 화학 분자 도메인의 경우 아직 Labeled Data가 많이 부족하기에, 개인적으로 관심있는 Semi-supervised Learning의 연구가 적합할 수도 있겠다는 생각이 들었다. 유익한 세미나를 준비해주신 허종국 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 종국이가 자기지도학습방법론을 활용하여 화학 물성 예측하는 것을 주제로 세미나를 진행하였다. 분자 구조를 분석할 때에는 크게 두 가지로 분자 구조를 표현하는데, 그래프 또는 문자열을 사용한다. 그리고 그래프는 이차원 혹은 삼차원 구조를 활용한다. 각각의 표현방법론은 장단점을 가지는데 그래프로 표현하는 경우에는 구조의 핵심을 잘 표현하지만 멀리 떨어져있는 원자간의 특징은 포착하기 어렵다. 반면 문자열로 표현할 때에는 반대의 경우에 해당한다.
이번 세미나의 주제에 해당하는 물성 예측은 특정 화학 분자의 성질(끓는 점, 전도성, 방향성, 독성 등)을 예측하는 것이다. 다만 이를 위한 모든 분자의 구조가 레이블이 있는 체로 데이터가 구축되어 있는 것은 아니기 때문에 자기지도학습을 사용하여 대량의 unlabeled 데이터를 활용하여 인코더가 특징을 잘 추출할 수 있도록 학습한 뒤 목표하고자 하는 테스크를 수행하도록 전이학습을 한다. 이를 위한 방법론으로는 ChemBERTa, MolCLR, DMP를 소개한다.
ChemBERTa는 NLP에서 자주 사용하는 BERT 구조를 기반으로 Masked Language Model을 사용하여 분자구조를 학습하도록 한다. 이 때에는 문자열로 분자구조를 표현하여 사용하였으며 사전학습데이터의 크기가 증가함에 따라 성능이 비례하여 올라가는 것을 보여주었지만 지도학습보다 뛰어난 성능을 보여주지는 못 했다. MolCLR는 대조학습을 사용하여 GNN 구조를 기반으로 분자구조를 그래프로 표현하여 사용하였다. 다만 대조학습은 기본적으로 이미지 분야에서 주요하게 쓰이던 만큼 GNN 구조 및 화학 분야에서 사용할 때에는 이에 적합한 augmentation 기법을 탐색할 필요가 있다. 이에는 특정 분자의 원자, 결합, 부분 그래프 정보를 제거하는 방법으로써 atom masking, bond deletion, sub-graph removal을 사용하였다. 이를 통해서 positive/negative pair를 정의하여 학습을 진행한다. DMP는 비대조학습을 사용하여 진행하였으며 문자열 구조와 그래프 구조를 함께 사용하는 방식이다. 즉, 서로 다른 표현 방식이 일종의 증강기법으로 사용되었다고 볼 수 있으며 두 구조가 가지는 장단점이 서로 상호보완적인 역할을 한다.
약 10년전 부터 딥러닝이 다시 주목을 받기 시작하면서 최근에는 다양한 도메인까지도 큰 영향을 미치고 있다는 것을 느낄 수 있었다. 화학분야는 우리 연구실에서도 생소한 분야이지만 자기지도학습을 어떻게 적용할 수 있을지 알기 쉽게 정리해준 종국이에게 감사의 말을 전한다.

이번 세미나는 self-supervised 방법론을 활용하여 화학 물성을 예측하는 것을 주제로 진행되었다.
분자 구조를 표현할 수 있는 3가지 구조로는 3D coordinates, 2D connectivity graph, character sequence 가 존재한다. 3D coordinates는 결합의 길이나 각도 등 3차원 형태가 중요한 경우에 사용된다. 2D connectivity graph는 원자를 node, 결합을 edge로 표현하는 그래프를 생성한다. 마지막으로 character sequence는 분자 표기 규칙(SMILES)에 따라 분자 구조를 문자열로 표현하는 방법이다.
분자와 같은 경우에 label된 데이터의 양이 적고, labeling을 위해서는 전문가의 지식이 수반되기 때문에 self-supervised 방법론이 더욱 중요하다. 또한 분자와 같은 화학 도메인에서도 benchmark 데이터가 등장함에 따라서 딥러닝을 활용하는 연구가 활발히 진행되고 있다.
본 세미나에서는 화학 분자 도메인의 self-supervised learning을 graph 기반과 character seqeunce 기반으로 소개하였다. 각 방법은 장단점을 가지고 있는데 graph 기반은 분자의 구조를 잘 설명하지만 거리가 멀리 있는 원자간의 특징은 포착하지 못한다는 단점이 있다. 반면, character sequence는 분자 구조의 설명력은 부족하지만 거리가 멀리 있는 원자의 특징도 잘 포착할 수 있다는 장점이 있다.
이번 세미나를 통해 self-supervised에 대한 기본적인 이해와 이를 물성 예측에 활용한 방법론을 알 수 있었다. 생소한 분야임에도 불구하고 깊이 있는 세미나를 준비해준 종국이한테 감사하고, 개인적으로 진행하고 있는 연구도 좋은 결과가 나오길 응원하며 세미나 후기를 마친다.