- 2021년 4월 16일 오후 3:30
- 조회수: 5150
REFERENCES
INFORMATION
- 2021년 4월 23일
- 오후 1시 ~
- 온라인 비디오 시청(YouTube)
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
Scene Text Detection and Recognition은 일상적인 풍경 이미지에서 글자를 읽어내는 문제이다. 이미지 속 외국어를 찾아내 바로 번역해주는 '이미지 번역' 서비스나 주차장에서 자동차 번호판을 인식하는 기기 등 실생활에서 다양하게 활용되고 있다. 최근에는 여러 컴퓨터 비전 연구 분야와 마찬가지로 딥러닝 모델을 활용한 Scene Text Detection and Recognition 연구가 활발히 이뤄지고 있다. 하지만 종이 문서로부터 글자를 읽어내는 Optical Character Recognition(OCR)에 비해 이미지 구성이 복잡하고 변수가 다양해, 아직 극복해야 할 과제가 많이 남아있다. 이번 세미나에서는 Scene Text Detection and Recognition 연구를 위한 기본 개념과 대표적인 딥러닝 모델들을 소개하고자 한다.
참고 문헌:
[1] Long, S., He X., Yao, C. (2018). Scene Text Detection and Recognition: The Deep Learning Era.
[2] Zhou, X., Yao, C., Wen, H., Wang, Y., Zhou, S., He, W., Liang, J. (2017) EAST: An Efficient and Accurate Scene Text Detector. IEEE Conference on Computer Vision and Pattern Recognition.
[3] Shi, B., Bai, X., Yao, C. (2015). An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence.
[4] Liu, X., Liang, D., Yan, S., Chen, D., Qiao, Y., Yan. J. (2018) FOTS: Fast Oriented Text Spotting with a Unified Network. IEEE Conference on Computer Vision and Pattern Recognition.
발표자 후기
첫 세미나로 현재 연구 중인 Scene text detection and recognition에 대한 소개를 진행했다. Scene text 연구는 이미지 상 문자들이 매우 다양한 형태로 배치된다는 문제들을 해결하기 위해 여러 모양의 box로 단어를 탐지하는 방향으로 발전하고 있다. 개인적으로는 Scene text detection 연구에 집중하고 있지만, 연구를 하다보니 recognition과 end-to-end recognition 분야에 대해서도 기본적으로 이해하고 있어야 한다고 느껴져 3가지를 고루 설명하고자 했다. 3가지를 모두 담으려 하다 보니 하나하나를 세세하게 다루지 못해 조금의 아쉬움은 남는다. 그럼에도 본 연구분야에 관심 있는 연구원들이 기본 개념과 전반적인 틀을 이해하는 데 도움이 됐기를 바라본다. 다음 세미나에는 더 많은 분들에게 쉽게 전달할 수 있는 방법을 고민해보고 진행해야겠다는 생각도 들었다. 세미나를 경청해주신 분들에게 감사 인사를 전한다.
청취자 후기
금일은 정원 누나가 Scene text detection and recognition을 주제로 세미나를 진행해주셨다. 이미지 인식 연구의 대표적인 응용 분야로, 개인적으로는 카페에 있는 와아파이 비밀번호 인식에도 빨리 적용됐으면 좋겠다. 그만큼 실용적으로 사용할 수 있는 분야이며, 본 세미나를 통해 원리와 연구 동향을 알아볼 수 있게 되었다. 이미지(typically scene, not paper) 내에 있는 글자를 Detection하고, Dectention 된 이미지 내 글자를 인식하는 recongnition을 위해 어떤 프레임워크의 딥러닝을 적용하는지를 주의깊게 들었다. 개인적으로 Recognition task에서 RNN과 결합지어 글자를 인식해야 하는 이유가 흥미로웠다. 또한, Detection과 Recognition을 한꺼번에 수행하는 end-to-end 방법론도(CNN+RNN 계열 모델 이용)에선 CNN의 여러 feature들이 어떠한 순서로 RNN에 입력되는지가 궁금하였다.
본 세미나를 통해 어떠한 딥러닝 프레임 워크를 이용해 Scene 내 글자를 인식하는지 알아볼 수 있었으며, 여러 호기심을 불러일으킬 수 있었다. Detection 부분에서의 평가 지표는 classification 관련 지표를 사용한 것처럼 보이는데, 어떻게 적용되었는지와 Recognition에서의 평가지표도 함께 찾아봐야겠다 ~. 첫 세미나를 멋지고 야무지게 준비해주신 정원 누나에게 감사의 말씀을 올리며 후기를 마치도록 한다!
이번 세미나는 Introduction to Scene Text Detection and Recognition을 주제로 진행되었다. Scene text detection and recognition은 이미지 인식 연구의 응용 분야로, 이미지내의 글자가 있는 영역을 탐지하고 이를 문자로 인식하는 연구 분야이다. OCR과의 차이점을 보면 OCR은 정형화된 문서에 인쇄되어 있는 문자를 읽어내는 수준이고, Scene text는 일상적인 이미지내의 문자를 읽어내야 하기 때문에 배경이 훨씬 복잡하고 글씨체나 배열이 다양하여 OCR보다 더 어려운 문제라고 할 수 있다. Scene text 연구는 크게 세 가지로 나눌 수 있는데 첫번째는 이미지내의 글자가 위치한 영역을 탐지하는 Detection, 두번째는 영역내의 글자를 인식하는 Recognition, 세번째는 Detection과 Recognition을 한번에 수행하는 End-to-end recognition이다. Detection의 경우는 이미지내 글자가 위치한 bounding box의 좌표를 맞추는 것이 목표이며, 대표적인 논문으로 EAST(An Efficient and Accurate Scene Text Detector)가 소개되었다. EAST는 이미지를 입력으로 받아 문자가 위치하는 bounding box 정보를 output으로 출력하는 모델이며, FCN 모델 구조를 사용하고 있다. 이 때 output은 score map과 함께 5개의 geometry 정보가 출력되는데, geometry 정보는 픽셀과 bounding box 4개 변 사이의 거리 정보, bounding box가 회전된 각도이다. Recognition의 경우는 Detection에서 탐지한 영역의 단어가 어떤 문자인지 찾는 Classification 문제이다. 보통 단어 영역에 해당하는 이미지를 입력으로 받아 특징을 추출하고 RNN계열의 모델을 적용하여 문자를 찾아가는 방식으로 구현된다. 이에 대한 대표적인 논문으로 CNN과 RNN을 결합한 CRNN 모델이 소개되었다. CRNN 모델은 먼저 입력된 이미지를 Convolution 연산을 통해 특징을 추출하고, 추출된 feature map을 벡터 단위로 나눠 시퀀스 형태로 변환한다. 이후 시퀀스에 대해 bi-LSTM 모델을 적용하여 글자 예측값을 출력하는 구조를 가지고 있다. 마지막으로 Detection과 Recognition을 결합한 End-to-end 모델로 FOTS(Fast Oriented Text Spotting)가 소개되었다. FOTS는 앞에서 소개한 EAST와 CRNN을 하나로 합친 모델로 Detection과 Recognition에 쓰이는 특징 정보를 교차로 활용함으로써 성능을 향상시킨 모델이다. 특히 FOTS 모델의 detection 결과와 FOTS 모델에서 recognition 부분을 제외하고 detection만 수행한 결과를 비교한 부분이 흥미로웠는데, recognition에 쓰이는 정보가 detection에도 영향을 주어 성능이 더 향상된다는 것을 확인할 수 있었다. 이번 세미나를 통해 Scene text detection and recognition 이라는 새로운 분야에 대해 알게 되었는데, 이미지내의 글자를 인식해낸다는 것이 상당히 복잡하고 어려운 문제라는 것을 알게 되었고, 응용할 수 있는 분야가 많을 수 있겠다는 생각이 들었다. 첫세미나를 위해 수고해준 김정원 연구원에게 감사의 말을 전한다.
이번 세미나는 'Introduction to Scene Text Detection and Recognition'이라는 주제로 진행되었다. Scene Text Detection and Recognition은 이미지에서 글자가 있는 영역을 탐지하고 이를 컴퓨터 문자로 변환하는 연구를 수행하는 분야로 이미지 인식 연구의 응용 분야에 속한다. 이는 종이 문서 등에 인쇄된 문자를 읽어내는 문제인 OCR보다 배경이 더 복잡하고, 글씨체가 규칙적이지 않으며, 글자 배열의 각도 및 구도가 다양하다는 점 등에 의해 OCR보다 더욱 정교한 모델이 필요하다. Scene Text Detection and Recognition는 세부적으로 세 가지 연구 분야로 나뉘어진다. 먼저 Detection은 이미지에서 글자가 위치한 영역을 탐지하는 분야에 해당한다. 두 번째로 Recognition은 해당 영역별로 잘라 영역 내 글자를 읽어내는 분야에 해당한다. 마지막으로 End-to-end scene text recognition은 앞서 말한 Detection과 Recognition을 한꺼번에 수행하는 분야에 해당한다. 글자가 위치한 bounding box의 좌표를 최대한 정확히 맞추는 것을 목표로 하는 Scene text detection 분야에 적용되는 대표적 모델로는 EAST(An Efficient and Accurate Scene Text Detector)를 소개해주었다. 이에 반해 단어 영역에 해당하는 이미지로부터 특징 추출 후 sequential하게 만들어 각 글자의 조합을 찾아가는 방식인 Scene text recognition 분야에 적용되는 대표적 모델로는 CNN과 RNN을 결합해 해당 문제를 해결한 초기 모델인 CRNN에 대해 소개해주었다. 마지막으로 End-to-end scene text recognition 분야에 적용되는 대표적 모델로 소개해준 FOTS(Fast Oriented Text Spotting)는 EAST와 CRNN을 하나로 합친 모델로, 각 모델을 단순히 이어 붙인 것이 아니라 한 번의 특징 추출로 detection과 recognition을 수행함으로써 연산시간을 크게 줄였다는 특징을 가지고 있다. 이번 세미나를 통해 Scene text 연구에 대해 처음 접해보게 되었는데 매우 흥미로운 분야라고 생각되며, 더 다양한 논문을 찾아 공부해보고 싶다. 좋은 세미나를 준비해주신 정원언니께 감사의 말씀을 전하고 싶다.
금일 세미나는 정원언니가 ‘Introduction to Scene Text Detection and Recognition’이라는 주제로 세미나를 진행해 주셨다. 먼저 scene text detection/recognition은 이미지에서 글자 영역을 찾아내고, 이를 컴퓨터 문자로 출력하는 문제를 의미한다. 이는 데이터 분석 관점에서는 이미지 인식 영역의 확장된 연구분야라고 할 수 있다. 고전적인 Optical Character Recognition (OCR)연구는 배경이 단순하고, 글씨체가 규칙적, 배열이 수평적인 상대적으로 매우 간단한 task를 대상으로 한다. 반면 Scene text detection은 보다 자유도가 높은 문제상황을 다루게 된다. 이에 대한 문제상황을 세부적으로 나누어 보면 (1)비스듬하거나 회전된 단어, (2)서로 겹쳐진 문자, (3)곡선형으로 나열된 단어가 있다. 각각 형태에 따라 bounding box가 정의하는 방식 또한 다양하게 제안되어 활용되고 있다. 최종적으로 사진에 담긴 글자를 문자로 출력하는 과정은 두가지 단계로 나뉘게 된다. 먼저, scene text detection으로 이는 사진 상에 있는 글씨가 있는 부분을 detection하는 부분에 해당된다. 다음으로, text recognition은 bounding box내 있는 글씨를 return해주는 부분을 의미한다. 최종적으로 이러한 두 단계를 end-to-end로 수행하는 연구들이 text spotting이라고 불리게 된다.
먼저, scene text detection의 EAST model구조는 FCN을 변형한 구조로 각 픽셀이 단어 영역 내에 있을 확률인 score map과 각 단어 box를 추정한 후 각 픽셀과 box 4개 변 사이의 거리를 의미하는 거리정보, box가 회전된 각도 정보 등이 출력된다. 최종적으로 이를 선형결합한 형태의 loss를 활용하여 학습하게 된다. 다음으로 scene text recognition은 이미지의 feature extraction을 input으로 받는 rnn을 활용하여 단어를 예측한다. 마지막으로 text spotting 방법론으로는 CNN과 RNN이 결합된 구조로 활용되게 된다. 오늘 전반적으로 정원언니의 세미나를 통해 OCR이후의 scene text detection/recognition연구들의 방식과 동향에 대해 살펴볼 수 있었다. 처음 접하는 분야이니 만큼 흥미롭게 들을 수 있었다. 오늘 세미나를 준비해준 정원언니께 감사한 마음을 전한다!
이번 세미나는 'Scene Text Detection and Recognition'을 주제로 진행되었다. 이미지에서 글자가 있는 영역을 탐지하는 Scene text detection과 탐지한 부분을 영역별로 잘라 영역 내 글자를 읽어내는 recognition에 대해 쉽게 이해할 수 있도록 설명해주셨다.
Scene text detection은 주로 CNN으로 이미지의 특징을 추출한 뒤 디코더를 통해 단어 영역을 생성해내는 방식으로 이루어진다. 직사각형, 회전된 직사각형, 사각형, 다각형 등의 형태로 bounding box의 좌표를 정확하게 맞추는 것을 목표로하는 작업이다. 대표적 방법론으로 EAST model을 소개해주셨는데, 모든 픽셀을 분류 모델에 투입해 구분하는 것의 비효율성을 개선하기 위해 FCN방법을 통해 위치정보가 보존된 feature map을 활용해 segmentation map으로 보존하는 방식을 사용하는 부분이 인상적이었다.
Scene text recognition은 feature map의 부분적 정보만을 이용해 글자를 예측하려면 앞뒤 정보를 종합적으로 고려해야하는것이 필요하기 때문에 RNN을 통해 이루어진다. 최근에는 Convolution 연산을 통해 특징을 추출하고, 추출된 feature map을 열 벡터 단위로 나눠 시퀀스 형태로 bi-LSTM모델에 적용시키는 방식으로 글자 예측값을 출력하는 CRNN모델이 제안되고 이용되었다. 글자 예측값 출력이 끝나면 CTC 알고리즘을 사용해 중복문자와 공백을 제거하여 단어 예측값을 출력하는 형태로 이용되고 있다.
EAST와 CRNN모델을 하나로 합쳐 한번의 특징 추출로 detection과 recognition을 모두 수행해 시간을 줄인 FOTS는 End-to-end Scene text recognition 모델이다. detection과 recognition의 연결고리로 ROI Rotate블록을 사용하여 Text detection 단에서 출력된 단어 영역을 수평으로 회전시키고 같은 높이로 변환하여 Text recognition단에 입력시켜 각 작업에 쓰이는 정보를 교차로 활용할 수 있도록 해 성능을 높였다.
세미나를 들으면서 Scene text detection과 recognition이 안정적인 성능을 갖추면 시각장애인들을 위한 다양한 서비스가 제공될 수 있을 것 같은 생각이 들어 이 분야에 관심이 생겼다. 유익한 세미나를 준비해주신 김정원 연구원님께 감사의 마음을 전하고 싶다.
이번 세미나는 "Introduction to Scene Text Detection and Recognition"을 주제로 진행되었다.
일상적인 이미지에서 글자를 찾아내는 Scene Text Detection and Recognition은 문서 등의 글자를 인식하는 OCR(Optical Character Recognition)에서 발전된 분야이다. Scene Text Detection and Recognition은 Detection format이 문제인데, 일반적으로 직사각형, 회전된 직사각형, 사각형, 다각형 등의 형태로 존재한다. 이를 다음과 같은 세 가지 방식으로 처리하게 된다. 첫째, 이미지에서 글자가 위치한 영역을 탐지하는 Detection. 둘째, 영역별로 잘라 영역 내 글자를 읽어내는 Recognition. 셋째, Detection과 Recognition을 한꺼번에 수행하는 End-to-End scene text recognition(text spotting이라고도 함).
이러한 개념들을 활용하여 실제 논문을 통해 처리 과정을 볼 수 있었는데, Detection의 경우 CNN을 활용한 EAST model이 있고, Fully Convolutional Network를 활용하더라도 처리가 가능하다는 것을 알 수 있었다. Recognition의 경우 Feature extraction 이후 RNN을 활용한 모델이 이미지마다 글자와 크기, 배치 등이 다르기 때문에 글자 단위로 정확하게 나누기 위해 사용되고 CRNN을 활용하기도 한다. End-to-end의 경우 앞서 살펴본 EAST와 CRNN을 하나로 합친 FOTS(Fast Oriented Text Spotting with a Unified Network)에 대해 알아 볼 수 있었다.
기존엔 OCR 이외엔 생각을 못 해보았는데, 본 세미나를 통해 Text Detection and Recognition에 대해 알 수 있어서 유익한 세미나였으며 실용적으로 활용할 수 있다면 굉장히 유용하게 활용 될 것이라는 생각이 들었다. 재미난 세미나를 준비해주신 정원누나께 감사의 말씀을 전합니다.
금일 세미나는 Scene text detection and recognition을 주제로 진행되었다. Scene text detection and recognition 문제는 이미지에서 글자가 있는 영역을 탐지하고 이를 인식하여 컴퓨터가 인식할 수 있는 문자로 변환하는 문제이다. OCR에 비해 배경 구성이 복잡하고 글자의 배열 및 서체가 다양하다는 점에서 더욱 정교한 모델이 필요하다. 이를 크게 3가지로 나누면 Scene text detection, recognition, end-to-end text recognition으로 볼 수 있다.
첫 번째로 Detection은 인식해야 할 글자가 있는 부분을 탐지하는 것이다. 글자가 위치한 bounding box의 좌표를 정확히 맞추는 것이 목표이기 때문에 regression 문제를 푸는 방향으로 접근한다. 대표적인 방법론으로는 CNN으로 이미지의 특징을 추출하고 디코더를 통해 단어 영역을 생성하는 방식이 있다. 글자 하나하나를 탐지하고 글자 사이의 여백을 탐지하여 이후 하나의 단어 영역을 탐지한다. EAST가 대표적인 model이다. 다음으로 Recognition은 글자를 영역 별로 읽어낸다. 각 영역에서의 단어가 어떤 문자인지 찾는 classification 문제이다. 각 영역에서 이미지의 특징이 추출된 이후에 sequential하게 만들어서 단어 조합을 찾는 방식이다. Feature map의 부분적 정보만을 사용하기 때문에 앞 뒤 정보를 동시에 고려할 수 있는 RNN 계열의 모델을 사용한다. 마지막으로 End-to-end text recognition은 이를 동시에 수행한다. 대표적으로 CNN과 RNN을 결합한 초기 모델인 CRNN이 있다. Conv 연산을 통해 특징을 추출하고 이를 sequence 형태로 변환한 후에 biLSTM 모델을 활용하여 벡터 별 글자 예측 값을 출력한다. 이후 최종적으로 CTC 알고리즘을 통해 최종 단어 예측 값을 산출하게 된다.
이미지 내의 글자를 탐지하고 인식하는 것은 다방면으로 활용 가능성이 매우 많은 분야라고 생각한다. 이번 세미나가 scene text detection and recognition의 기초 내용들을 잘 이해할 수 있는 기회가 되었다.
이번 세미나는 Scene Text Detection & Recognition에 대한 주제로 진행되었다. 일상 생활에서의 풍경과 같은 image 에서 글자가 있는 영역을 탐지해서 컴퓨터 문자로 변환하는 문제이다. 고전적인 방식으로 문서의 인쇄된 문자를 인식하는 OCR조차 핸드폰 어플로 실행해봤을 때 상당히 신기했었는데, 발전하는 문자 인식 연구를 보니 상당히 흥미로웠다. OCR과는 달리 Image 내에서 문자들은 인식하기 쉽도록 정면을 바라보고 있는것이 아니기 때문에, 그 문자의 영역을 탐지하는 detection과 그 영역 내에서 문자를 인식하는 recognition 두 문제 모두 다양한 challenge를 가지고 있었다.
image 내에서 글자가 비스듬하게 놓여있는 등, 왜곡이 있어도 잘 인식하기 위한 Detection 문제는 EAST 논문을 통해 좀더 구체적으로 설명해주셨는데, 글자가 있는 feature를 CNN으로 골라내되, U자 형태의 FCN구조(input에 가까운 쪽의 feature를 concat)를 통해 글자가 있는 영역을 좀더 잘 Localization하도록 하는데 큰 특징이 있었다. 이렇게 예측된 글자영역은 실제 label시킨 영역과의 비교를 통해 학습하도록 하였다.
Recognition은 detection으로 잡힌 영역을 가지고 그게 어떤 글자인지 classification하는 문제로 다시 정리할 수 있다. 여기서는 CNN보다는 RNN을 사용하는데, feature map 내에서 글자의 크기가 다양하기 때문에 글자 하나도 시작과 끝을 완벽하게 나누기가 어렵고, 이 때문에 앞뒤의 정보를 종합적으로 고려하기 위해 순서정보에 강한 RNN을 쓴다는 특징이 있었다. 이부분에서는 CRNN 모델을 통해 설명해주셨는데, 글자 영역을 Convolution으로 feature map으로 만든다음 이걸 bi-LSTM모델을 통해 글자에 대한 예측값을 출력하는 형태의 모델이었다.
앞서 설명한 detection과 recognition을 합친 End-to-end 방식인 FOTS model을 설명해주셨는데, feature map을 공유한다는걸로 서로의 성능을 향상시킬 수 있다는게 흥미로웠다. 다시생각해보면, 이게 글자인지 아닌지 애매한 수준의 feature 영역에 대해서, 그 영역을 recognition으로 보니 글자확률이 높게 나온다면 앞으로는 해당 feature가 계속 detect 될 수 있도록 학습될 수 있는 거고, 거꾸로 detect되었으나 글자로 인식되는 게 없을 시, detect 안되도록 학습할 수 있겠구나 생각되면서, parameter를 이렇게 update하도록 code를 만든게 간단한 아이디어같으면서도 어려웠겠다 싶었다.
image에서 text를 인식해가는 문제들에 대해 알기 쉽고 흥미롭게 설명해주신 김정원 연구원님께 감사의 마음을 전한다!
이번 세미나는 "Introduction to Scene Text Detection and Recognition"이라는 주제로 진행됐다. Scene text detection은 일상적인 풍경 이미지에서 글자가 있는 영역을 탐지해내는 task이며 scene text recognition은 탐지된 영역에 글자를 추출하는 task를 의미한다. 먼저 소개된 모델은 scene text detection에서 대표적인 모델인 EAST가 소개되었다. EAST는 U-Net 형태의 FCN을 기반으로 하는 모델로 일상적인 풍경 이미지를 입력받아 각 픽셀이 단어 영역 내에 있을 확률인 score map과 단어 box와 관련된 5가지 위치 정보를 출력하게 되고 해당 정보를 조합하여 최종적으로 이미지 내에 글자가 존재하는 영역을 탐지하게 된다. 다음으로 소개된 모델은 scene text recognition에 활용되는 CRNN이 소개되었다. CRNN은 CNN과 RNN이 결합된 모델로 CNN을 통해 이미지의 특징을 추출하며 추출된 특징을 순차적인 정보로 가정하게 된다. 순차적인 정보를 RNN에 넣고 각 시점의 글자를 예측하게 되고 CTC 알고리즘을 통해 최종적인 글자를 생성해내게 된다. 마지막으로 소개된 모델은 scent text detection과 recognition을 한 번에 수행하는 FOTS라는 모델이 소개되었다. FOTS는 앞서 소개된 EAST와 CRNN이 결합된 모델이다. EAST를 통과한 결과가 이미지 내의 글자를 정렬해주는 RoI rotate 모듈을 통과하여 CRNN에 모델에 들어가 최종적인 글자를 예측하게 된다. 해당 모델에서는 scene text detection과 recognition을 한 번에 수행함으로써 multi-task learning의 효과를 볼 수 있다고 이야기하고 있으며 실제로 모델의 성능이 더 올라가는 것을 확인할 수 있다. 이번 세미나를 통해 scene text detection과 recognition이라는 분야에 대해서 처음 접하게 되었으며 관련된 모델들을 살펴볼 수 있어서 의미 있는 세미나였다. 세미나를 위해 고생해준 정원 누나에게 감사의 뜻을 전한다.
이번 세미나는 Introduction to Scene Text Detection and Recognition을 주제로 진행되었다. 글자가 적혀있는 문서 이미지를 입력하면 번역기가 문서의 글자를 인식해서 번역을 수행하고, 주차장에서 자동차의 번호판 글자를 인식하는 등 이미지에서 글자가 있는 영역을 탐지하고 이를 컴퓨터 문자로 변환하는 문제를 Scene text detection and recognition이라고 한다. 고전적인 글자 인식 문제는 단조롭고 규칙적인 형태의 글자 인식을 다루었기 때문에 비교적 단순하게 여겨졌지만 Scene text는 다양한 사물이 존재하는 복잡하고 다채로운 이미지에서 각도와 구도가 다양한 글자를 인식하는 복잡한 문제이기 때문에 정교한 모델이 필요하다. 비스듬하거나 회전되어 있는 단어, 서로 겹쳐져 있는 단어, 곡선형으로 나열된 단어 등의 문제가 글자 인식이 쉽지 않은 이유들이다. 컴퓨터가 글자를 인식하고 컴퓨터 문자로 변환하는 task는 크게 3가지로 나눠볼 수 있다. Scene text detection은 이미지에서 글자가 위치한 영역을 탐지하는 task이고 Scene text recognition은 영역이 탐지되면 영역 내 글자를 읽어내는 task이다. 이 둘을 한꺼번에 수행하는 task를 End-to-end scene text recognition이라고 한다. 각 task에 대해서 대표적인 deep learning model들도 소개해 주셔서 각 모델의 구조를 파악하고, 각 task에 맞게 각 모델 구조에 차이가 존재함을 확인할 수 있었다. 특히 End-to-end scene text recognition 모델인 FOTS의 경우 사람이 찾기에도 쉽지 않은 작은 글자들까지 잘 인식할 만큼 좋은 성능을 보인다는 것이 인상 깊었다. 다양한 상황에서 사용되고 있는 분야인 만큼 앞으로의 발전 가능성에 대해 기대되고, 항상 새로운 것들이 생겨나는 현실 세계인 만큼 더 복잡한 환경 속 다양한 형태의 글자를 정확하게 인식할 수 있는 기술의 필요성이 점점 더 두드러질 것 같다.
이번 세미나는 "Introduction to Scene Text Detection and Recognition"을 주제로 진행되었다. Scene Text Detection and Recognition은 이미지속에서 글자의 영역을 찾고 이를 컴퓨터 문자로 변환하여서 출력하는 문제를 의미한다. 겹친 문자, 곡선형 배열의 문자, 회전된 단어와 같은 복잡한 형태로 이루어져 있기에 종이 문서 등에서 인쇄된 문자를 읽어내는 OCR 보다도 복잡하면서 정교한 모델을 필요로 한다. Scene Text Detection and Recognition은 크게 3가지의 방식으로 나눠서 생각해 볼 수 있다. 이미지에서 글자가 위치한 영역을 찾아내는 Detection, 영역별로 존재하는 글자를 읽어내는 Recognition, Detection과 Recognition을 동시에 수행하는 End-to-end scene text recognition으로 생각해 볼 수 있다. 각각의 방식별로 자주 활용되는 모델들을 통해서 소개가 이루어졌다. Detection에서의 EAST, Recognition에서의 CRNN, 마지막으로 End-to-end scene text recognition에서의 FOTS가 각각 소개되었다. EAST는 FCN을 활용하여서 각각의 픽셀이 단어 영역 내에 존재할 확률인 Score map을 바탕으로 하여서 단어 box와 관련된 5가지의 정보를 통해서 글자가 존재하는 영역을 탐지하는 방식이다. 두번째로, CRNN의 경우는 CNN과 RNN을 결합하여서 문제를 해결하는 방식이며, feature map에서의 부분적인 정보만을 통해서 글자를 예측하기 위해서는 해당 글자의 주변 다른 정보도 생각해야 하기에 RNN 계열의 모델까지 고려하여서 만들어진 모델이다. 마지막으로, FOTS는 앞서 소개된 EAST와 CRNN 모델이 합쳐진 모델이다. Detection과 Recognition의 과정이 동시에 이루어지며, 이를 통해서 연산시간을 줄이게 된 모델이다. 이미지속에서 글자를 탐색하는 것은 다양한 상황에서 적용이 될 수 있기에 보다 발전이 많이 이루어질 수 있는 분야라고 생각이된다. 좋은 세미나를 준비해준 정원누나에게 감사의 말씀을 전한다.
Scene Text Detection 은 단순히 생각해보았을 때 일반적인 Object Detection이나 OCR 과 차이가 없어 보여 해당 분야의 연구를 그대로 차용할 수 있을 것 같지만 사실은 매우 어려운 문제에 속한다. 고전적인 OCR 이 글자의 배열, 글씨체 등이 매우 정형적인 반면 Scene Text 는 배경이 매우 다채롭고 글자의 배열 또한 각도 및 구도 또한 한정 지을 수 없을 만큼 다양하다.
Scene Text 문제를 해결하기 위해 몇 가지 알고리즘을 알아보는 시간을 가지게 되었다. 그 중 대표격인 EAST 는 FCN 을 base 로 사용하여 Bounding Box Regression 을 수행하는데, 이 때 Text의 회전 각도를 추가한 Output 을 뱉어내게 된다.
또한 많은 사람들이 생각할 수 있듯이 CNN과 RNN 을 합쳐서 문제를 해결할 수도 있다. 이러한 방법의 초기모델은 CRNN이 있으며 이후 EAST 와 CRNN을 합친 FOTS 또한 등장하였다.
다른 Computer Vision 연구에 비해 생소한 분야이지만 가장 현실에서 필요한 연구가 아닌가 싶다.
세미나를 준비하느라 고생하신 정원누나께 감사의 말씀을 드린다.
이번주 세미나는 정원누나가 ‘Introduction to Scene Text Detection and Recognition’이라는 주제를 가지고 진행하였다. Scene text detection and recognition은 일상적인 풍경 이미지에서 글자가 있는 영역을 탐지하고 이를 컴퓨터 문자로 변환하는 문제이다. 기존의 OCR문제는 종이 문서 등에 인쇄된 문자를 읽어내는 문제였지만 일상적인 풍경 이미지에서 문자를 인식하는 것은 훨씬 더 어려운 문제이다. Scene text detection and recognition은 말 그대로 detection문제와 recognition문제가 존재한다. Detection에서는 주로 CNN으로 이미지 특징을 추출한 뒤 디코더를 통해 단어 영역을 생성하는 방식이며 해당 방식에는 EAST이 존재한다. 다음은 text recognition문제로 각 단어 영역이 어떤 문제인지 찾는 Classification문제이다. 해당 방법론에는 Application to Scene Text Recognition이 사용된다. 해당 task는 detection과 segmentation 등 이미지 인식 관련한 문제를 다양하게 접목한 분야이며 이미지 인식 뿐만 아니라 epipolar geometry에 해당하는 분야와의 접목도 중요한 것 같다. Scene text detection and recognition에 대해 이해 쉽게 자료를 준비해준 정원누나에게 감사하다는 말을 전하고 싶다.
금일 세미나는 정원 누나가 자율 주행 기술 중 주요 기술로 여겨지는 Scene text detection and recognition 분야에 대해 소개를 해주었다. 해당 분야는 이미지 내 글자가 존재하는 영역을 찾는 text detection, 영역 내 어떤 글자가 있는지 인식하는 text recognition으로 요약할 수 있다. 그리고 이 두 분야를 한 번에 학습하는 text spotting이 있었다. 특히 text spotting은 한화 ATP 3기 멘토를 하면서 항상 필수적이라 여기던 분야였는데 금일 세미나를 통해 어떤 형식인지 개념을 알 수 있었다. text detection 분야에서는 bounding box 좌표가 있기에 항상 object detection 문제로 생각하고 있었는데, bounding box 부분을 픽셀별 레이블로 변환한 연구가 인상적이었다. 간단한 생각의 전환이지만 큰 성능 향상을 도모한 것으로 생각한다. text recognition 분야에서 어려움에 글자 존재 영역 내 실제 글자의 휘어짐을 포함한 왜곡이 있다. 이를 어떻게 해결 할 수 있을지에 대한 연구를 위주로 최신 연구가 진행되고 있는 것으로 알고 있다. 누나도 이러한 문제를 효과적으로 해결하여 개인 연구에 좋은 결과가 있길 바라본다.
금일 세미나는 “Introduction to Scene Text Detection and Recognition” 주제로 정원이 누나가 발표했다. Scene Text Detection and Recognition은 일상 풍경 이미지에서 글자가 있는 영역을 탐지하거나 글자 이미지로부터 단어를 순차적으로 출력하는 문제이다. 하지만 이미지 내에 존재하는 글자 영역은 휘어짐, 세로, 겹침, 곡선형 등 다양한 배열로 존재하여 인식 및 탐지에 어려움이 있다. 이전에는 글자 영역 탐지와 단어를 순차적으로 출력하는 작업을 독립적인 연구로 진행되어 왔다. 하지만 탐지 모델 및 글자 인식 모델의 복잡도가 높아짐에 따라 학습, 추론 연산 시간이 오래 걸린다는 문제가 있다. 이를 해결하기 위해 독립적인 두 작업을 한번에 처리할 수 있는 연구들이 요즘 대세를 이루고 있다. 나는 지난 멘토링 때 OCR 연구를 진행한 적이 있다. 우리가 알고 있는 일반적인 Object Detection과 달리 이미지 내 존재하는 글자의 배열에 따라 사용 기법들이 다양하고 실제 성능을 높이는데 어려움이 있었다. 최근에는 Transformer를 활용한 OCR 연구도 진행되는 것으로 알고 있다. 추후 누나가 연구하는데 Vision Transformer 쪽으로 살펴보는 것도 좋을 것 같다.
이번 세미나는 정원이누나가 Introduction to Scene Text Detection and Recognition이라는 주제로 준비를 해주셨다. Scene text dectection & recognition은 일상적인 풍경 이미지에서 글자가 있는 영역을 탐지하고 이를 텍스트 데이터로 변환하는 문제를 말한다. 이는 기존의 Optical Character Recognition과 유사하게 보이지만 다른 점이 존재한다. OCR은 문서와 같이 배경이 단순하고 글씨의 규격이 일정한 이미지에서 텍스트를 추출하는 기술이지만 Scene text는 풍경 사진처럼 복잡한 배경에서 제각각인 글씨를 인지해서 텍스트로 추출해야 한다. 따라서 각도가 틀어져있다거나 겹쳐져진 경우 혹은 곡선형으로 표현되어있는 점들이 텍스트 인지 및 추출을 어렵게 하는 문제라고 할 수 있다. Text Detection과 Recognition 각각에만 집중하는 모델들도 존재를 하지만 이를 End-to-end 방식으로 모두 다루는 모델도 존재를 한다. 제일 흥미롭게 살펴본 부분은 text recognition, 이미지를 텍스트로 옮기는 과정에서 RNN 방식을 사용하는 것이었다. 이는 각 단어 영역을 나누어서 어떤 문자인지를 찾는 분류 문제이다. 각 단어 영역에 해당하는 이미지에서 특징을 뽑아서 순차적으로 RNN 모델에 입력하여 각 글자의 조합을 찾아가게 된다. 한편 end-to-end 모델의 경우에는 text detection에서 사용되는 CNN 모델과 text recognition에서 사용되는 RNN 모델을 결합해서 진행하는 경우가 많았다. 해당 방식의 초창기 모델은 Connectionist Temporal Classification 알고리즈을 활용했는데 CNN 방식으로 per-frame prediction을 하게되면 같은 낱말이 중복해서 인지가 될 수 있다. 따라서 어떤 출력값을 선택 또는 제거할지 기준이 없는 상황에서 정답 레이블을 만드는 모든 경우의 수에 대해 분류 확률을 최대화하도록 학습하게 한다. 수업이나 따로 연구를 통해서 일반적인 이미지 인식 모델에 대해서 공부할 기회는 있었지만 해당 분야는 아직 접해본 적이 없어서 많은 흥미를 가지고 들을 수 있었다. 어려운 내용임에도 쉽게 이해할 수 있도록 발표를 준비해주신 정원이누나에게 감사의 말을 전한다.
이번 세미나는 'Introduction to Scene Text Detection and Recognition'을 주제로 정원이 누나가 발표해 주었다. Scene Text Detection and Recognition이란 일반적인 이미지에서 글자가 있는 영역을 탐지(detection)하고 이를 컴퓨터 문자로 변환(Recognition)해 주는 Task이다. 이미지 번역, 차량 번호판, 카드 인식 등 실생활에서 다양하게 활용되고 있으며 실제로도 많이 접하는 기능이다.
이 문제에서 해결해야 하는 이슈로는 비스듬하거나 회전된 문자, 겹쳐진 문자, 곡선형으로 나열된 문자, 배열이 다른 문자 등을 어떻게 잘 인식할 것인가이다. detection 에서는 글자가 위치한 bounding box 좌표를 예측해야 하기 때문에 regression 문제로 접근하며 주로 CNN 기반 detector를 사용한다.
본 세미나에서는 'EAST'라는 논문을 소개해 주었는데 Convolution 블록을 하나만 사용하여 연산 시간을 대폭 단축했으며 이미지 분할을 위해 고안된 Fully Convolutional Networks 알고리즘을 활용해 단어가 포함된 다양한 모양의 box를 예측한다.
Recognition에서는 탐지한 영역의 문자가 어떤 문자인지 찾는 classification 문제이다. 단어 영역에 해당하는 이미지로부터 CNN을 활용해 특징을 추출해 글자의 조합을 찾아가는 방식이며 추출된 특징을 RNN의 입력으로 사용하여 단어를 예측한다.
Recognition에 관한 논문으로 'An End-to-End Trainable Neural network for Image-based Sequence Recognition and Its Application to Scene Text Recognition'을 소개해 주었으며 CNN과 RNN을 결합한 CRNN으로 문제를 해결한 초기 모델이다. 또한, 'FOTS'라는 논문 역시 소개해 주었으며 이는 위 detection에서 소개한 두 논문의 방법론을 합친 모델이다. 모델만 단순히 이어 붙인 것이 아닌 한 번의 특징 추출로 detection과 recognition을 수행함으로써 연산 시간을 크게 줄였다.
이번 세미나에서는 잘 몰랐던 분야인 Scene Text detection and recognition을 알게 되어 유용한 시간이었다. 처음 생각했을 때는 어려운 task가 아닐 것 같다고 느꼈었지만 세미나에서 소개해 준 이슈들을 보면서 그 생각이 달라졌다. 실생활에서 꽤 자주 사용하는 기능에 대해 배울 수 있었던 것도 흥미로웠다. 좋은 세미나를 준비해준 정원이 누나에게 감사드리며 세미나 후기를 마친다.
이번 세미나는 "Introduction to Scene Text Detection and Recognition"의 주제로 진행되었다. Scene text detection and recognition이란 일상적인 이미지 속에서 글자를 탐지하고 이를 컴퓨터 문자로 변환하는 문제에 해당한다. 일상 사진에서 보이는 글자 배열의 각도와 구조가 다양하여 글자에 적합한 bounding box의 형태를 사용해야 한다는 점에서 단순한 방법으로는 해결하기 어렵다는 특징을 갖고 있다. 해당 분야는 1) Scene text detection, 2) Recognition, 3) End-to-end text recognition의 세 가지로 나누어볼 수 있다. 우선 Scene text detection은 이미지 내의 글자를 정확하게 찾아내는 문제로, 글자의 위치와 bounding box의 각도 등에 대한 값을 예측하는 문제로 접근하게 된다. 찾아낸 각 글자들은 글자와 글자 사이의 여백에 대한 특정한 규칙을 기반으로 합쳐 한 문자로 인식한다. Scene text recognition은 각 글자의 특징을 추출하여 글자 조합인 단어를 찾아가는 분류 문제로 접근한다. 이는 각 특징의 앞뒤를 함께 조합하여 고려해야하기 때문에 sequential한 접근이 가능한 순환신경망 모델을 주로 사용하고, 중복 문자와 공백 등을 처리한 후 최종 단어를 예측한다. 마지막으로, End-to-end scene text recognition는 scene text detection과 scene text recognition의 두 문제를 한 번에 해결하기 위한 방법으로, 각 작업에서 활용되는 정보를 서로 공유한다는 점에서 더 좋은 성능을 보인다는 장점이 있다. 이미지에서 적절한 글자를 적절한 위치에서 잘 찾아내는 것, 그리고 그 글자들을 잘 조합하여 최종 단어를 예측하는 것까지 상당히 어려운 문제라는 생각이 들었는데, 현재 연구들이 꽤 높은 성능을 보이고 있다는 점에서 흥미로웠다. 또한, 글자가 전혀 없는 이미지를 인풋으로 제공하면 모델이 어떻게 예측할지도 궁금해졌다. 현실적으로 활용 가능한 곳이 많은 해당 분야가 앞으로도 더 많은 발전을 할 것이라 생각된다.