- 2021년 5월 7일 오후 1:40
- 조회수: 3124
REFERENCES
INFORMATION
- 2021년 5월 14일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
발표자 후기
Named Entity Recognition 을 주제로 첫 세미나를 진행하였다. 사실 NER은 NLP를 알아가기 시작할 때, 계략적으로 이런 내용이구나 하고 넘어갔던 분야이다. 이 분야에 대한 중요도도 잘 인지 하지 못했고, 이런 Task가 있구나 정도로 가볍게 생각하였다. 하지만 연구미팅 중 교수님께서 NER에 대한 중요성을 인지시켜주셔서 자세히 알아보다 보니, 많은 연구실 연구원들과 공유하고 싶은 계기가 되었다. 발표에서처럼 NER은 이미 좋은 성능을 내는 분야이면서도 아직 극복해야 할 과제가 많은 분야이기도 하다. 당장 한국어만 하여도 F-score가 90%를 약간 넘어서는 정도로 영어보다는 성능이 많이 떨어지며, 또한 실제로 실험을 하다보면, application에 적용할 만큼의 성과가 나오지 않기도 한다. 이러한 부분을 개선하기 위해 연구를 진행하면 좋은 성과가 있지 않을까 조심스러운 기대를 해본다. 처음 준비하는 세미나여서 긴장감에 잠 못드는 시간이었지만, 준비를 하면서 배운 점도 많아서 좋은 긴장감이었다고 생각한다. 서툴지만, 다른 연구원들에게 도움이 되었길 바라며, 소중한 긴 시간 들어주셔서 감사하다는 말씀을 드린다.
청취자 후기
이번 세미나는 "Fine-Grained Named Entity Recognition"을 주제로 진행되었다. 일단 Named Entity Recognition(NER)이 무엇인지에 대한 설명이 있었다. NER이란 이름을 가진 객체를 인식하는 task이며, 6하 원칙에 대한 답을 하는 것으로 생각될 수 있다. 따라서 NER은 문장의 주요 정보를 추출하여 내용을 이해하거나 중요한 정보를 수집할 수 있게 해주기 때문에 중요한 task라고 할 수 있다. NER이 실제 활용될 수 있는 상황을 소개해주었는데, 고객 상담을 처리하는 경우 NER 기술이 사용되면 고객의 요청에 가장 적합한 전담부서를 바로 배정할 수 있어 빠른 처리가 가능할 것이고, 추천시스템에서도 Entity가 일치하는 뉴스나 컨텐츠를 추천할 수 있도록 사용될 수 있다. 이러한 NER은 최근 딥러닝으로 좋은 성능을 보이고 있는데, 딥러닝 기반의 NER은 크게 입력 데이터를 위한 Distributed representation, Context encoder, Tag decoder로 나누어 살펴 볼 수 있다. 특히, Tag decoder 중 Conditional Random Field를 적용한 것이 흥미로웠다. 기존의 bi-LSTM 모델만으로는 BIO Tag의 일관성이 안맞는 경우가 생기는데, 이 LSTM의 결과 위에 CRF 층을 추가하여 BIO Tag의 제약사항을 학습할 수 있도록 했다. NER task에서의 challenge는 Data annotation 측면에서 labeling이 잘 된 데이터 확보가 어려운 점, 특정 도메인에서의 한계, Multi-labeling이 안된다는 점이 있고, Informal한 텍스트에서는 성능이 잘 안나온다는 점이 있다. 이러한 문제를 극복하기 위한 최근의 연구로 Fuzzy-LSTM-CRF, AutoNER, Gazetter-enhanced sub-tagger가 소개되었다. 이번 학기 NLP 강의를 들으면서 텍스트 데이터에 대해 조금씩 알아가고 있는데, 이번 세미나를 통해 NER에 대해서도 기본적인 개념과 최근 연구에 대해 알 수 있게 되어 좋았다. 세미나에서 소개해준 것과 같이 NER은 NLP의 다양한 application에서 중요한 pre-processing이 될 것이라는 생각이 들었고, 이러한 NLP의 기초적인 토대가 되는 NER에 대해 좋은 연구성과가 있으면 좋겠다. NER에 대한 여러 사례, 연구 등 세미나를 준비하느라 고생했을 조경선 연구원에게 감사의 말을 전한다.
이번 세미나는 "Fine-grained Named Entity Recognition"을 주제로 진행되었다.
NER(Named Entity Recognition)이란 이름을 가진 개채를 인식하겠다는 것으로 이미지 인식과 같이 사전에 정의 된 정보로 텍스트에서 개체를 분류하는 것이다. 개체의 예시로는 이름, 지역 등이 있다. NER은 주요 정보를 추출하여 텍스트의 내용을 이해하거나 DB에 저장 할 중요한 정보를 수집할 수 있다는 점 때문에 NLP에서 주요한 task 중 하나라고 할 수 있다. 이러한 기술은 다양한 산업에 적용되고 있는데, 대표적인 예시로는 추천 시스템이 있다. 추천 시스템은 넷플릭스 광고 등 다양한 비즈니스 모델로 활용되고 있다. 더불어 NER을 평가 할 때에는 Precision과 Recall, F-score를 활용한다. 여기에서 TP는 NER에 의해 인색되고 실제와 일치하는 것, FP는 NER에 의해 인식되었지만 실제와 일치하지 않는 것, FN은 참인 Entitiy이지만 NER에서 인식하지 못하는 것을 기준으로 활용이 된다. 이를 바탕으로 Precision은 특정 Entity라고 예측한 경우 중에서 실제 특정 Entity, Recall은 전체 특정 Entity 증에서 실제 특정 Entity라고 정답을 맞춘 비율, F-score은 정밀도와 재현률로부터 조화 평균을 구한 것으로 활용이 된다.
요즈음 주로 활용이 되는 deep learning을 기준으로 진행을 해주었는데, BIO Tag를 활용하여 전처리를 한다. 이후 text representation을 활용하여 input으로 사용하고 ANN+softmax, CRF, RNN 등의 알고리즘을 활용한 모델로 개체명을 예측하게 되는 것이다. 사람이 개체명을 분류하는 것에 버금가는 성능을 보이고는 있지만, 데이터의 양과 질을 일정 수준 유지하는 것은 어려우며 단어의 다양성이라는 한계점이 있다. 이러한 한계점을 개선하기 위하여 Fuzzy-LSTM-CRF, AutoNER, Gazetteer-enhanced sub-tagger 등이 활용되었다.
본 세미나를 통해 문장 또는 문서에서의 개체 인식을 통해 다양한 일을 할 수 있다는 것을 알 수 있었으며, 이미지에서의 개체 인식과는 또 다른 느낌이어서 다시 한 번 생각해 볼 수 있는 좋은 시간이었다.
끝으로 NER을 알기 쉽게 소개해주신 경선누나께 감사의 뜻을 전한다.
오늘 세미나는 'Named Entity Recognition'을 주제로 진행되었다.
NER은 텍스트의 개체명을 분류하는 task를 수행하는것을 말한다. 고객 지원 상담 및 피드백, 추천시스템등 생각보다 많은 서비스에 유용하게 활용되고 있었다.
NER task 과정에 딥러닝을 접목하여 성능을 향상시키고 있는 경향을 잘 설명해 주셨는데, 특히 output label에 대한 양방향 문맥을 반영하는 CRF층을 통해 BIO Tag의 일관성을 유지시켜 성능을 높인 부분이 흥미로웠다.
NER task에는 극복해야할 data annotation과 noisy in informal text의 문제가 존재한다. 이를 해결하기 위해 Fuzzy-LSTM-CRF, AutoNER등의 방법이 등장하였고, supervised learning에 비해 크게 떨어지지 않는 성능을 보여주는 것을 확인할 수 있었다.
NER이라는 새로운 task를 접할 수 있는 유익한 세미나였다. 알차게 세미나를 구성해주신 조경선 연구원님께 감사의 마음을 전하고 싶다.
이번 세미나 주제는 Fine-Grained NER에 대해 진행되었다. NER, Named Entity Recognition은 Text 내에 존재하는 객체명을 인식하는 분야로, 뜻을 가진 일반적인 단어가 아닌, 사람이나 장소와 같은 이미 정의된 개체의 이름을 분류한다. 이러한 NER은 고객상담이나, 추천시스템에서 객체명을 통해 더 빠르고 효율적으로 정보를 제공하는 key가 되기 때문에, NLP분야에서 매우 흥미로운 주제로 느껴졌다.
NER은 큰 과정으로는 단어나 문자를 임베딩하여 context를 딥러닝 모델을 통해 인코딩하고, 여기에 Tag를 다는 Decoding을 하도록 이뤄지며, 객체명을 잘 맞춰야 하기 때문에 평가지표로는 f-score를 사용한다고 한다.
NER은 그중에서도 Tagging에 특화된 분야라고 느껴졌는데(개체명을 인식하는 것이기 때문에), 대표적으로 BIO Tag방식에 대해 설명해주셨다. 이는, 개체명이 여러 형태소로 이뤄졌을 때, Begin/Inside/Outside 을 나누어 개체명을 분류하는 것으로, Tag Decoder는 문맥에 맞춰 B-person, I-organization 와 같은 형태로 단어 별 분류를 수행한다. Conditional Random Field(CRF)의 경우는 모델에서 나온 Tagging output을 한번더 양방향 문맥을 반영하여 예측하여 더 잘 분류할 수 있도록 개선한 구조가 연구되기도 했고, 일반적으로 NER에서 사용된다고 한다.
다만 현재도 NER분야는 많은 challenge를 가지고 있는데, 아무래도 massive한 학습 data를 필요로 한다는 점과 특정 domain에만 등장하는 entity에 대해서 성능한계가 있다는 것이다. 이러한 문제를 개선하기 위한 방법으로 Fuzzy-LSTM-CRF는 기존 CRF에서 처리할 수 없던 unknown token을 처리할 수 있도록 임의의 tag set 지정한다음 확률적으로 추정하는 방식을 적용하거나, 또다른 방법인 AutoNER은 Unknown에 따라 Tie,break 개념을 적용해서 개선한 방식을 사용하기도 하여 문제를 개선하기도 했다. 그 외에도 사전 정보를 가져와서 별도의 모듈을 통해 tagging해주는 Gazetteer-enganced sub-tagger 방식도 흥미로웠다.
내게 있어 Text는 data자체도 그렇고,수많은 노이즈와 예외상황이 많은 정말 어려운 분야라고 생각이 든다. 그래서인지 이번 세미나의 개체명을 분류하는 분석에 대해 들으면서도 정성/정량적으로 정말 많은 고민이 들어있겠다 싶었다. 하지만 그만큼 실제로 응용하여 사용하기에 좋은 결과가 있을거란 생각이 든다. 알기 쉽고 흥미롭게 설명해주신 조경선 연구원님께 감사를 드린다.
금일 세미나는 Fine-Grained Named Entity Recognition을 주제로 진행되었다. Named Entity Recognition(NER)이란 이름을 가진 개체를 인식하는 것이다. 사람, 기관, 시간 표현 등을 미리 정의된 분류로 개체명을 할당한다. NER은 텍스트 내용 이해나 데이터 베이스에 저장할 중요한 정보를 선별하기 위해 중요하다. NER의 평가 지표로는 Precision, Recall, F-score가 있다. NER 분야에서도 딥 러닝을 활용하여 좋은 성능을 보이고 있다. 딥 러닝 기반의 NER에는 Input을 위한 Distributed Representation, context encoder architecture, tag decoder architecture가 있다. 특히 tag decoder architecture 중에는 conditional random field(CRF)를 적용하여 label 사이의 의존성을 고려하여 BIO tag의 일관성을 유지하고 output label에 대한 양방향 문맥을 반영할 수 있게 된다. NER에서 좋은 성능을 내기 위해서는 다량의 데이터가 필요하고, 언어의 모호성으로 인한 challenge 등이 있다. 이를 극복하고자 하는 최근의 연구로는 Fuzzy-LSTM-CRF, AutoNER, gazetteer-enhanced sub-tagger이 있다. 이번 세미나를 통해 NER에 대한 기본적인 내용과 더불어 최근의 연구들까지 접할 수 있었다.
금일 세미나는 경선 누나가 Fine-grained named entity recognition에 대한 주제를 야무지게 설명해주었다. Named entity recognition(NER)은 이름의 개체를 인식하는 태스크로 '배진수는 서울시에 거주한다.'라는 문장을 입력받았을 때, '배진수(사람)는 서울시(장소)에 거주한다.'를 출력해준다. NER이 얼마만큼 활용될 수 있을지 들었을 땐, 사람들의 상상력과 활용력이 끝내준다고 생각하였다. NER를 위한 딥러닝 프레임 워크를 집중하여 들었고, 성능이 매우 좋은 상태임을 확인할 수 있었다.인상 깊었던 부분은 CRF 부분에 대한 직관적인 설명으로, 비록 NER task 영역에 한해서지만 CRF가 무슨 역할을 수행하는 지 명확히 알 수 있었다. 깔끔하게 정리된 문장에 대해선 딥러닝 기반 NER의 성능이 매우 좋으나, Noisy가 많은 문장에서는 성능이 떨어지며 이에 대한 해결책들을 세미나 후반부에서 청취할 수 있었다. 여러가지로 많은 준비를 해주신 경선 누나에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.
이번 세미나는 "Fine-Grained Named Entity Recognition"을 주제로 진행되었다. Named Entity Recognition(NER)이란 이름을 가진 각 객체가 어떤 분류에 포함되는지 구분하는 테스크로, 다양한 downstream task에서 활용된다는 점에서 매우 중요한 연구이다. 세미나에서는 특히 딥러닝 기반의 NER을 위주로 살펴보았다. 딥러닝 기반의 NER은 크게 세 단계로 구성되어 최종 객체명을 판단한다. 우선 입력 시퀀스 토큰에 대한 태그를 예측하는 Tag Decoder Architectures에서는 워드 임베딩 방법이나 형태소 수준의 규칙성 정보 공유, 추가 정보 통합 등을 통하여 진행한다. 두 번째 단계인 Context Encoder에서는 CNN, RNN, Deep Transformer 등의 모델을 사용하여 문장의 문맥을 파악하고자 한다. 마지막으로 Tag Decoder Architectures에서는 가장 일반적으로 Conditional Random Field를 사용한다. 이는 개체명의 시작인지 여부와 개체명 여부를 판단하도록 도와주는 BIO Tag의 표현 방식을 적절하게 반영하지 못한다는 Bi-LSTM 모델의 단점을 극복하고 레이블 사이의 의존성을 반영하기 위하여 사용한다. 이러한 NER은 많은 데이터가 필요하며, 비형식적인 텍스트 등에서는 정확한 성능을 보이기 어렵다는 한계를 갖고 있다. 이를 극복하기 위하여 Fine-grained NER이라는 분야에서도 unknown 토큰도 처리하기 위한 Fuzzy-LSTM-CRF, 인접한 토큰간의 연관성을 확인하는 AutoNER, 기존 지명 사전에서의 정보를 별도의 모듈로 추가하는 Gazetteer-enhanced sub-tagger 등 다양한 연구들이 진행되고 있다. 이번 세미나를 통하여 Named Entity Recognition(NER)이라는 연구 분야에 대해서, 그리고 해당 분야가 어떻게 발전하고 한계점을 극복해가는지 알 수 있어 의미있었다.
이번 세미나는 "Fine-Grained Named Entity Recognition"이라는 주제로 진행됐다. Named entity recognition이란 문장에서 이름을 가진 개체를 인식하는 task를 의미한다. 이름을 가진 개체로는 사람, 기관, 장소와 같은 것들이 존재하며 텍스트에서 주요 정보를 추출할 수 있는 중요한 전처리 과정에 해당한다. NER은 문자열을 입력받아 단어 혹은 문자를 임베딩 벡터로 표현하는 distributed representation, 데이터의 특징을 추출하는 context encoder, 추출된 특징을 바탕으로 입력 시퀀스에 태그를 부여하는 tag decoder로 구성되어 있다. NER에서는 BIO 태그라는 것을 자주 활용하며 하나의 개체명이 여러 개의 형태소로 이루어져 있으면 유용하게 활용할 수 있다. B는 개체명의 시작 부분, I는 시작 부분을 제외한 개체명, O는 개체명이 아닌 부분을 의미한다. BIO 태그는 일정한 규칙을 가지고 태깅이 되기 때문에 태그 사이의 선후 관계가 명확하지만, 단순 tag decoder를 활용하여 태그를 예측하면 해당 규칙에 위배되는 형태로 태깅이 될 수 있다. 이때 tag decoder에 CRF layer를 추가하면 규칙에 맞는 태깅을 생성해 낼 수 있다. 현재 일반적인 텍스트에서 NER은 딥러닝 모델의 성능이 인간의 성능에 버금갈 정도로 좋은 성능을 내고 있다. 하지만 특정 도메인에 특화된 텍스트의 경우 성능이 많이 떨어지며 이를 위해 Fine-grained NER이 많이 연구되고 있다. 이번 세미나를 통해 평소에 자주 살펴보지 못했던 NER에 대해 자세하게 알 수 있어 의미 있는 세미나였다.