- 2019년 9월 20일 오후 12:36
- 조회수: 2197
INFORMATION
- 2019년 9월 20일
- 오후 1시 ~
- 고려대학교 신공학관 218호
TOPIC
OVERVIEW
발표자 후기
오늘의 세미나는 논문 리뷰가 아닌 업무와 실사례 중심이었다. 기술의 발전 트렌드를 이해하고 클라우드시대에 우리가 하는 연구가 어떤 역할을 하는지도 같이 이야기하였다. 머신러닝, 딥러닝이 현재 기술 발전의 trend에 중요한 역할을 하고 있다.
특히 앞으로는 cloud상에서 training 및 inference를 하는 것이 성능 및 빠른 결과를 위해서 중요함을 강조하고 싶다. 클라우드의 기술을 위해서 scheduling algorithm이 중요하며 그 중 가장 어렵고 연구가 덜 된 분야가 모델 수행 시간 분야이다.
다양한 code로 작성된 model의 수행시간 예측을 위한 단계를 설명하였고 다소 생소한 분야이지만 같이 고민하며 활발한 토론을 이어갔다. 질문의 깊이가 있었기에 발표자 역시 가진 지식을 최대한 동원해야하는 즐거운 학습의 시간이었다. 질문을 받으면서 아이디어를 얻을수 있었다.
이번 세미나를 통하여 여러 연구원들이 쏟고 있는 노력을 조금이나마 이해하였으며 나 역시 더 노력해야겠다는 생각을 하게되었다. 오늘의 발표주제를 좀 더 연구하고 싶은 생각이 강하게 드는 뜻깊은 시간이 된 것에 참석한 연구원들 모두에게 감사를 표한다.
청취자 후기
오늘 전체세미나는 클라우드에서의 딥러닝이라는 주제로 욱수형이 진행하였다. 평소 컴퓨팅 관련 이슈들이 생소했던 나는 욱수형이 그 분야의 전문가로써 AI관점에서 어떻게 이야기를 풀어가실지 기대되는 세미나였다. 가장 흥미롭게 들었던 부분은 클라우드 환경 내 GPU 연산자를 여러 사람이 사용하고 있을 때, 어떻게 우선순위를 부여할 지에 대한 문제다. 한정된 GPU 자원내에서 여러사람이 GPU 가 필요한 상황으로 A라는 사람은 1시간정도 사용할 예정이고, B라는 사람은 10시간을 사용할 예정이지다. 하지만 업무의 중요도나 맡은 일을 끝마져야하는 시점까지 남은 시간 등을 고려하면 여간 복잡한 문제가 아니다. 정의하자면, GPU할당 우선순위 지표 개발 문제로 볼 수 있을 것 같다. 더 나아가 GPU 할당 로직개발을 위해 우선순위 지표가 필요한 상황이다. AI 관점에서는 data driven reinforcement learning 문제로 볼 수 있다고 생각한다. 일반적인 예측모델을 적용하기엔 반응변수가 애매한 점이 있고, 예측이 목적이기 보다는 최적의 할당 로직(policy)를 도출하는 데 목적이 있기 때문이다. 현재 할당로직에서 생성되는 데이터를 기반으로, 반응변수를 최대최소 하는 policy(어떤 식으로 할당하라)를 도출하는 것으로 예상되는 데이터셋 변수는 직급(선배먼저?), 업무마감일까지 남은시간, 예상소요시간 등으로 정의하고, 보상은 일정 시간내 업무 처리량으로 생각해 본다. 우리가 생각해볼 기회가 적은 분야의 문제를 접하게 된 것 같아 신선한 세미나였다.
금일 세미나의 주제는 ai platform에 관한 내용이었다. 과거의 세미나들은 방법론들에 대한 내용이었다면, 이번 세미나는 이러한 방법론들을 사용할 때 필요한 컴퓨팅에 관한 내용으로 모델을 직접 학습시키는 실무자들에게 필요한 내용이었다. 연구실에서는 각자의 GPU를 사용하여 학습시키기 때문에 대부분 ai platform에 대해 큰 관심이 없었다. 하지만 올해 들어온 dgx station을 같이 사용하게 되면서 자원 할당에 대한 생각을 하게 되었다. 각자에게 충분한 양의 computing power가 제공되면 좋겠지만 기업에서는 현실적으로 불가능하다. 따라서 어느 정도의 자원을 공유하게 되며 이 때 효율적인 할당이 필요해진다. 이러한 할당에서는 제약 조건만 완성된다면 최적화 알고리즘을 사용할 수 있을 것 같았다. 또한 컴퓨팅 전문가인 발표자분의 시각에서 새로운 문제들을 발견하는 것을 보고 상당히 흥미로웠다. 이러한 문제들은 산업공학적 지식을 새로운 분야에도 적용할 수 있다는 자신감을 얻게 해 주었으며 나 뿐만 아니라 다른 연구원들에게도 흥미로운 문제였던 것 같다.
금주 세미나 주제는 클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning이라는 주제로 진행되었다. 기존 논문 리뷰세미나와는 달리 업무와 실제 사례가 중심이였다. 그중에서 가장 관심있었던 내용은 R&D Cloud 환경에서의 GPU사용을 효율적으로 관리하는 GPU Job 스케쥴러를 개발하여 시간을 예측하는 것 이였다. 어떤 환경에서든 한정된 자원을 가지고 효율적으로 운영해야한다. GPU Job은 우선순위/대기시간 기반으로 어떻게 GPU를 할당하여 순위를 정하기 위해서는 작업시간, 업무의 중요도 등 많은 변수를 고려해야한다. 또한 작업도중 더 중요한 업무가 들어왔을때 어떻게 처리해야할지가 중요하다. 이러한 예측 모델 개발단계를 1, 2, 3단계로 나누었는데 마지막 단계에서 Deep Learning Code로 소요시간을 예측하는 방법이 가장 흥미롭게 들렸다. Code만 보고 소요시간을 예측하게 되면 소요시간으로 그 코드의 quality도 판단할 수 있기때문에 또 다른 평가지표가 생기게 된다. 우리 연구실에서 많이 접하는 알고리즘에 관한 세미나가 아닌 컴퓨팅과 관련된 재미있는 세미나를 준비해준 욱수형에게 감사하다.
금일 세미나는 욱수오빠가 ‘클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning’라는 주제로 진행해주셨다. 초기 인공신경망이 외면 받은 데에는 알고리즘을 구현하기 위한 하드웨어의 역량이 충분하지 않았기 때문이었지만 근래 하드웨어 기술이 발전하고, 공연히 사용됨에 따라 분산학습 효율성을 고려한 클라우드 딥러닝 플랫폼이 각광받고있다. 단순히, 하드웨어의 성능이라하면 메모리 집적도 같이 단순한 구조에 대해서만 생각했었는데, 업무할당 및 분산 최적화 알고리즘이 중요하다는 것이 흥미로웠다. 이 때 업무 분산 policy중에서는 할당 시간 이외에도 사용자가 설정할 수 있는 일종의 타겟 변수가 된다. 우리가 대부분이 수행하는 과제나 연구에서는 주어진 데이터와 목적이 있는 반면, 해당 테스크에 대해 고민해보았을 때, 알고리즘 연산이 어느정도 부하가 걸리는지를 측정하기 위한 feature들을 어떻게 정의하고 구상하는지 설계하는 것이 굉장히 중요하게 작용할 것으로 예상된다. 욱수오빠 덕분에 내가 평소에 관심 갖기 어려운, 혹은 들어보기 어려운 주제에 대해 편안히 접근해주시기 위해 노력해주신다는 느낌을 많이 받았다. 앞으로 남은 기간 동안에는 오빠께 이런 흥미로운 연구들 혹은 로직 개발에 대한 경험담에 대해 자주 논의하고 싶다는 생각이 들었다.
금주 세미나의 주제는 GPU 자원의 효율적인 사용을 위한 Cloud에서 Deep Learning을 수행하는 Platform에 관한 내용이었다. 현재 NSML, Brightics AI 등 다양한 AI Platform들이 Deep Learning 알고리즘 설계 과정에서 Cloud를 통해 효율적으로 GPU를 사용하도록 하여 연구개발이 용이해지도록 돕고 있다. 또한 편리한 모델링 환경 제공 등 많은 서비스를 제공하려고 노력하고 있다. 하지만 이렇게 현재 진행 중인 AI Platform 서비스 내에서도 욱수 형님이 발표에서 언급하셨듯이 GPU 자원 할당 문제가 이슈가 되고 있다. 우연한 기회로 NSML을 써볼 기회가 있었는데 많은 사용자가 몰리는 시간대에는 실제로 GPU 할당에 문제가 생겨 작업에 지장이 있었다. 다행히 Deep Learning Cloud Platform을 사용하면서 발표에서 문제 제기했던 이슈를 직접 경험해 봤었기에 이번 발표가 더욱 와 닿고 흥미롭게 다가왔던 것 같다. 특히 발표 내용 중 GPU 할당 우선순위를 결정하기 위해, Deep Learning Code 소요시간 분석하는 알고리즘 개발 이슈가 흥미로웠다. 이러한 알고리즘은 Code 작업이 필요한 여러 분야에서도 유용하게 사용될 것 같다. 컴퓨팅 전문가이신 욱수 형님이 이해하기 쉽고, 친절하게 알려주셔서 너무나도 유익한 세미나였다.
이번 오픈 세미나의 주제는 클라우드를 활용한 딥러닝 학습 플랫폼에 대한 내용이었습니다. 세미나에 본격적으로 들어가기에 앞서 컴퓨팅 파워의 발전 흐름을 먼저 살펴 보았습니다. 딥러닝을 효율적으로 처리해내기 위해서 현재 CPU에서 병렬연산이 가능한 GPU로 넘어가고 있고, 양자 컴퓨터가 가능해지는 먼 미래에는 또 한번의 큰 지각변동이 올 것이라는 예상이 가능했습니다. 또한 세가지 축의 관점에서 설명할 수 있는데, 그것들은 바로 efficiency, capacity 그리고 speed 입니다. 그 중에서도 저희처럼 딥러닝을 연구하는 사람들은 알고리즘을 잘 고안해내어 efficiency를 증가시키는 방향으로 연산 시간을 줄여야 한다는 목적성을 이해할 수 있었습니다.
세미나의 주된 주제는 클라우드를 활용하여 협업의 수월성을 높이고 한정적인 컴퓨팅 파워 자원의 효율적인 분배 및 사용을 실현하자는 것입니다. 실제로 많은 기업에서 클라우드 딥러닝 플랫폼을 제공하고 있고, 삼성SDS에서도 Brightics Deep Learning을 제공하여 좀 더 편리하고 집약적인 딥러닝 학습이 가능합니다. 또한 이런 플랫폼을 더욱 발전시키기 위해 다양한 연구주제들도 세미나 중간중간에 언급되었습니다. 예를 들면, 한정된 컴퓨팅 자원에 수요가 몰릴 경우에 효과적으로 분배해주는 알고리즘을 개발하고 적용해보는 것입니다. 이런 식으로 플랫폼이 진화한다면 가까운 미래에는 개인PC에서 딥러닝 학습을 시키는 환경에서 클라우드에서 딥러닝 학습을 시키는 모습으로 변해갈 것이라 생각합니다. 평소에 잘 알지못했던 컴퓨팅 파워의 관점에서 딥러닝을 바라볼 기회를 제공해주어서 흥미로웠던 세미나였습니다.
집적회로 성능의 향상에 따라서 대중적인 PC 또한 좋아지고 있지만, 마찬가지로 각종 기술과 서버 컴퓨터도 비약하고 있기 때문에, 여전히 예나 지금이나 일반적인 소규모의 개인이 그 시대에 상위 tier의 컴퓨팅을 원한다면 유저는 강력한 서버 자원을 선택해야 할 것이다. 기존의 서버(클라우드) 컴퓨터의 주요 자원은 CPU 및 메모리였다면, 최근 Deep Learning에 대한 관심이 높아짐에 따라 클라우드 GPU 자원의 배분이 중요한 문제로 떠올랐다. 이러한 추세에 따라서 Google 뿐만 아니라 국내에서 Naver, SKT 그리고 Samsung이 딥러닝 클라우드 플랫폼을 만들기 위해 혈안이 되어 있으며, 삼성은 Brightics Deep Learning이라는 이름으로 GPU 자원 배분 뿐만 아니라, AutoML 과 같은 총체적인 pipe-lining product 개발에 힘쓰고 있다고 한다. 컴퓨터 구조/OS 수업에서 스케줄링 이론을 접할 때, 단일프로세서의 파이프 라이닝도 잘 하기가 힘들어서 멀티프로세서 스케줄링은 어떻게 할까라고 생각했는데, 현재 도전 과제는 many-core-architecture의 표본인 GPU, 그리고 (다수의)사용자-level 에서의 스케줄링 policy를 고려해야 한다고 한다. 끝으로, IT의 선봉을 달리고 있는 삼성이 어디를 향해가는 가를 옅보여준 욱수 형의 값진 발표에 감사한 마음을 표한다.
금일은 클라우드에서 딥러닝 학습 플랫폼을 주제로 세미나가 진행되었다. 개인적으로는 머신러닝, 딥러닝 알고리즘을 공부하고 이를 파이썬 같은 언어로 구현하는 일에 집중하고 있다. 하지만 가끔은 이러한 알고리즘을 컴퓨터는 어떻게 실행하고 발전해 왔는지 궁금한 경우가 있었다. 이번 세미나는 이러한 평소 내 궁금증을 조금은 해소시켜 줄 수 있는 좋은 기회였다. 클라우드 컴퓨터는 Speed, Capacity, Efficiency라는 3가지 축으로 발전해왔다. 컴퓨터 연산 속도를 빠르게, 용량은 크게, 그리고 많은 사람들이 빠른 속도와 용량을 효율적으로 사용할 수 있는 방향으로 지속해서 발전해왔다. 특히 많은 사람들이 함께 환경을 공유할 때에는 어떻게 효율적으로 함께 사용할 것인가에 대한 고민이 필요하다. 해당 고민을 푸는 방법 중 하나가 컴퓨터 내의 다양한 Task에 대한 스케줄링 방식을 제안하는 것이다. 욱수 형이 실제로 고민하고 있던 사례는 꽤 흥미로웠다. 파이썬 코드를 통해 해당 Task가 걸리는 시간을 예측하고 그 시간을 기반으로 Task의 우선순위를 분배하는 것이었다. 해당 연구가 진행되어 코드를 보고 시간을 예측할 수 있는 알고리즘이 개발 된다면 더 흥미로울 것 같다. 이번 세미나는 우리가 사용하는 하드웨어인 컴퓨터에 대해 현업 전문가의 고견을 들을 수 있어서 좋았다. 앞으로도 궁금한 사항에 대해 욱수형에게 많이 물어볼 것 같다. 흥미로운 세미나를 준비해주신 욱수형에게 감사함을 표한다.
이번 세미나는 클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning를 주제로 진행되었다. 최근 딥러닝 등 분석 기술이 급격히 발달하고 있는데 이는 빠른 연산처리를 지원해주는 하드웨어의 발달이 있었기 때문이다. 기술이 발달 되면서 차츰 모든 업무 분야에서 딥러닝 기술이 활용되는 추세이기는 하나 이를 뒷받침해줄 하드웨어 자원의 한계로 기업체에서도 일부 연구원들만 사용을 하고 있다. 하드웨어를 살 여력이 있는 회사라고 하더라도 충분히 빠른 하드웨어를 모든 사람에게 제공할 수 는 없고 제공했다고 하더라도 모든 사람이 항상 장비를 사용하는게 아니므로 효율성에 문제가 있다. 이를 극복하기 위한 방안으로 클라우드 딥러닝 학습 플랫폼이 있다. 서버에 있는 GPU 를 요청하는 사용자에게 할당해서 최적의 성능을 제공하는 플랫폼이다. 공용으로 사용할 수 있는 플랫폼을 만들어 효율성 측면에서는 우수한 성과를 이루었으나 일의 경중이나 난이도, 긴급도 등 여러가지 상황에 맞게 유연하게 대처하기에는 현제 어려움이 있다. 이러한 어려움을 극복할 수 있는 방안에 대한 연구가 필요하며 그 중 하나의 과제가 학습 스케줄링이다. 학습 스케줄링이란 하나의 과제에 대하여 여러가지 사항을 고려하여 우선순위를 할당하는 방식으로 하나의 일에 대한 최적 학습 스케쥴링이 아닌 다른 과제를 포함하여 전체적으로 최적으로 학습을 진행 할 수 있는 스케쥴링 방안이다. 오늘 세미나에서 클라우드 관련 최신 트렌드를 접할 수 있어 좋았고 다양한 분야로 시각을 넓힐 수 있었던 유익한 시간이었다.
이번 세미나는 클라우드 환경을 이용한 딥러닝 플랫폼에 대한 주제로 연구실의 큰 형인 신욱수님께서 발표해 주셨다. 진공관에서부터 캐패시터로 변화한 컴퓨터의 역사부터 시작해 컴퓨터의 미래로 평가받는 양자 컴퓨터까지 간단하면서도 핵심적인 부분을 짚어주어서 듣기 편한 세미나였다. 인공지능은 컴퓨터의 발전과 그 역사를 같이 한다. 인공지능의 개념은 있었으나 그를 실행하기 위한 툴이 없었고, 이제 컴퓨터의 발전에 따라 인공지능 또한 급속한 속도로 발전하고 있다. 수많은 머신러닝, 딥러닝 모델이 나오고 있고, 또 한번에 여러 모델을 수행하여 조합하는 앙상블 모델등 성능을 높이기 이러한 시도는 필연적으로 기하급수적인 컴퓨팅 리소스를 요구한다. 이러한 인공지능 연구의 환경에서 클라우드 시스템은 좋은 대안책이 된다. 클라우드 시스템은 간단히 소개하면 여러대의 컴퓨터를 연결하여 하나의 슈퍼 컴퓨터 처럼 활용하는 것이다. 여러대의 컴퓨터에 연산량을 나누어 빠르게 계산하게 되면 고가의 슈퍼컴퓨터 없이 연산을 할 수 있기 때문이다. 이 경우 사용자의 순위 결정이 크게 문제가 된다. 각 주인이 있는 컴퓨터를 모아 함께 사용하는 개념이기 때문이다. 이 때문에 작업의 우선 순위를 지정하는 알고리즘이 또 다른 이슈가 되었고 이를 해결하기 위한 방법에 대해 다같이 토론한 유익한 세미나 였다. 인공지능 시대 새로운 사업의 방면을 보여주었던 신욱수님께 감사한 마음을 전한다.
금일 세미나 주제는 클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning에 대해 욱수형이 발표하였다. 이번 세미나는 다양한 방법론을 적용할 때 필요한 컴퓨팅에 관한 내용을 다루며 GPU를 사용하는 연구원들에게는 필요한 내용이었다. 이러한 컴퓨팅의 자원은 최근 들어 효율적인 할당을 고려하게 된다. 하지만 제약 조건이 많기 때문에, 아직까지는 자원배분의 효율성이 떨어진다. 이러한 문제가 해결된다면 많은 문제를 해결하기 위한 방법론들을 효율적으로 사용할 수 있을 기대된다. 특히 어떤 방법론을 작업하고 있을 때, 다른 작업이 도중에 들어오는 경우를 어떻게 처리할지에 대한 중요성을 말하며 가장 흥미롭게 들었던 부분이었다. 이번 세미나는 익숙한 혹은 필요한 알고리즘에 대한 내용이 아닌 컴퓨팅과 관련한 내용이었고 컴퓨팅과 관련한 문제들을 산업공학에서도 해결해볼 수 있다는 점, 연구원들에게 흥미로운 주제를 보여주었던 문제였다.
이번 발표는 클라우드 환경을 이용한 딥러닝 플랫폼에 대한 주제로 진행되었다. 연구실에서는 주로 머신러닝, 딥러닝 알고리즘에 초점을 둔 연구를 수행하는데 이들 알고리즘이 효율적으로 돌아갈 수 있는 환경에 대한 설명을 해 주어 지식을 넓이는데 많은 도움이 되었다. 특히, 욱수가 잘 할 수 있는 전문분야을 머신러닝 알고리즘을 통해 해결하려는 고민이 엿보인점은 매우 고무적이다.
금일 세미나는 클라우드에서의 딥러닝이라는 주제로 신욱수 연구원님이 진행하셨습니다.
기존의 분석 방법 및 알고리즘 영역에서의 발표와 달리 데이터 분석을 위한 하드웨어의 발전부터 시작해서 현재까지의 상황을 소개하고 현 상태에서 클라우드에서 데이터 분석을 수행할 때, 효율적인 하드웨어 관리 및 job 스케쥴링을 어떻게 할 것인지에 대해 심도 깊은 이야기를 나눌 수 있었습니다.
특히 job 스케쥴링 부분에서 다양한 관점에서의 접근 방법과 이를 위한 분석을 토대로, 모두가 효율적으로 자원을 공유하면서 최적의 상황을 만들 수 있는 환경을 구성하는 방안을 고려하는 것을 보며 많은 생각을 하게되는 세미나였습니다.
좋은 주제로 발표를 진행하신 신욱수 연구원님께 다시 한번 감사의 말씀을 드립니다.
금일 세미나는 '클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning'이라는 주제로 욱수형이 진행하였다. 세미나의 내용에는 컴퓨터 산업의 발전 과정과 현재 연구중인 내용들이 발전 과정내에 어떠한 위치에 있는지를 알려주었다. 양자 컴퓨팅이라는 분야가 계속해서 발전하고 있지만, 많은 제약이 있어 현재는 진행하기 어렵다는 이야기를 들었다. 또한 욱수형의 석사논문 주제가 순간이동과 양자컴퓨팅의 내용을 결합한 내용이었다는 것이 충격적이었다. 또한 연구실에 GPU들이 있지만 이를 개인마다 가지고 있어 효율적으로 사용하지 못하고 있다는 걸 지적해주었다. 우리 연구실 뿐만 아니라 많은 곳에서 GPU를 개인마다 가지고 있고, 비효율적으로 사용하고 있는 상황을 지적하며 클라우드 시스템의 필요성을 언급해주었다. 또한 욱수형이 진행하고 있는 플랫폼 구축의 효율성을 위해 여러가지가 필요하다는 것과 그를 위해 연구실 차원에서 같이 연구를 진행해보고자 하는 내용을 전달해주었다.
연구실 차원에서는 인공지능 모델의 성능을 올리는데 주로 초점을 가지고 연구를 한다. 욱수형이 매번 전달해주는 컴퓨터 자체에 관한 지식들이 도움이 많이 되고, 인공지능 모델의 학습 시간을 줄여주는 것에 많이 이용하고 있다. 또한 이미지 전처리를 위해 리눅스를 사용해야 하는 상황이 있는데, 이에 관해서도 항상 친절하게 답변해주셔서 항상 감사하게 생각하고 있다. 학기 종료와 동시에 리눅스로 운영체제를 변경하고자 하는데, 계속해서 컴퓨터 자체에 대해 많은 이야기를 하고자 한다.
[세미나주제]
클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning
[세미나를 통해 얻은 지식]
- GPU의 현 시점 한계인 Time Slicing이 되지 않는 제약 극복을 위한
GPU Job Scheduling에 대한 연구 방향
[세미나 Good Point]
- Presentation skills, 청중의 집중도를 높이는 발표 내용
[세미나 소감]
- 많은 기업들이 GPU를 활용한 AI연구를 하고 싶어합니다. 하지만 GPU노트북만해도 500만원이 넘어가고 Nvidia GPU Workstation은 1억원가량, Nvidia DGIX Server의 경우 2억원에 육박할 정도로 고가입니다. 직접 구매가 아닌 경우 AWS, Azure등의 Public Cloud를 사용할수 있으나 이러한 instance들은 사용시간당 금액이 매우 고가이며, 비용이 충분치 않은 기업은 부담일수 밖에 없습니다. 따라서, 적은 금액으로 GPU장비를 구입하고 이를 가장 효율적인 최적화된 방법으로 공유하는 것은 매우 중요한 이슈입니다. 이러한 관점에서의 연구 방향 그리고 플랫폼에 대한 컨셉을 잘 소개해 주었습니다.
[세미나 지식의 활용]
- 범용 AI Platform은 누구나 갖고 싶어하지만 어려운 영역입니다. H2o의 Driverless AI와 더불어 이러한 컨셉적인 내용은 향후 관련 플랫폼 개발에 도움이 될 듯 합니다.
이번 세미나는 삼성 SDS의 딥러닝 학습 플랫폼 Brightics Deep Learning에 관한 주제로 진행 되었다.
최근 딥러닝 기술이 더 크게 발달 할 수 있었던 큰 이유 중 하나는 하드웨어의 발달 때문이라고 해도 과언이 아니다. 그만큼 현대 데이터 분석 기술은 많은 컴퓨팅 리소스를 필요로 하고, 이를 어떻게 효율적으로 관리할 것 인가도 중요한 이슈이다. 클라우드 환경에서 컴퓨팅 리소스를 사용 할 경우 사용자는 편리하게 사용 할 수 있는 것 처럼 보이지만 실제 클라우드 단에서는 사용자들의 요청을 어떻게 적재적소에 배치하고 자원을 관리할 지가 큰 이슈일 것이다. 이에 따라 제시하신 방법들이 굉장히 흥미로웠으며 추후 작성된 코드들의 퀄리티까지 검증 할 수 있는 기능과 관련하여 토론하였을 땐 새로운 인사이트를 얻은 것 같아 유익한 시간 이었다.
클라우드에서의 딥러닝 학습 플랫폼 Brightics Deep Learning 을 주제로 신욱수 연구원님께서 진행해주신 세미나 잘 들었습니다.
여러사람이 한정된 GPU 자원을 공유해 사용할 수 있게하는 방법을 실제 프로젝트 사례를 이용해 발표해 주셔서 현실감이 있고 이해도 빨랐습니다.
또한 양자 컴퓨팅에 관한 견해도 재미있게 풀어 설명해주셔서 좋았고 추후에 세미나 중간에 말씀하신 순간이동에 관한 논문 설명도 들을 수 있는 기회가 있으면 좋겠습니다.
평소에 접하기 힘든 주제로 흥미로운 세미나를 진행해주신 신욱수 연구원님께 감사드립니다.
오늘 세미나는 클라우드 컴퓨팅을 주제로 진행되었다. 최근 등장하는 많은 기계학습/딥러닝 알고리즘들은 기본적으로 엄청난 규모의 컴퓨팅 자원을 필요로 한다. 불과 2~3년 전만 해도 새로운 논문을 재구현해보려면 Titan GPU 한 대로 충분했는데 요새 소개되는 SOTA 논문들은 기본적으로 V100 GPU 4대에서 많게는 수십 대씩 사용한다. 학교 연구실 차원에서는 감히 엄두를 낼 수 없다는 게 참 많이 아쉽다. GPU를 활용한 분산처리를 해볼 수 있는 장비와 환경이 주어진다면 졸업 전에 반드시 익히고 싶은 기술이다.
금주 세미나는 클라우드에서의 딥러닝 학습 플랫폼이라는 주제로 진행되었다. 최근 몇 년간 딥러닝이 급격한 성장을 할 수 있었던 배경에는 행렬 연산을 효율적으로 수행할 수 있는 하드웨어(GPU)가 발달했기 때문이다. 최근 딥러닝 관련 기술이 발전하고 적용사례들이 많이 알려짐에 따라 많은 회사에서 다양한 업무 분야에 딥러닝을 적용하려는 움직임들이 나타나고 있다. 그러나 GPU의 경우 일반 PC와 같이 회사의 모든 인원에게 할당하기 어렵고, 모든 인원에게 할당한다고 하더라도 모든 사람이 연산장치를 항상 사용하는 것이 아니기 때문에 효율성에 문제가 발생할 수 있다. 세미나에서는 이런 상황에서 클라우드 딥러닝 학습 플랫폼이 해결책이 될 수 있을 것이라고 제안했다. 딥러닝의 특성상 GPU를 사용하더라도 실험이 오래걸리는 경우가 많은데, GPU 자원 할당 및 관리를 위해 고려해야할 사항들이 몇 가지 있었다. 한가지 흥미로원던 주제는, 코드를 보고 실행시간을 예측하는 방법론에 대한 내용이었다. 코드를 보고 실행시간을 예측할 수 있다면, 작업 스케줄링을 효율적으로 수행할 수 있을 것이다. 코드는 자연어보다 구조화된 언어이기 때문에 코드를 보고 실행시간을 예측하는 것이 불가능하지는 않을 것 같다. 재밌는 연구주제라고 생각한다.
이번 세미나는 욱수형이 클라우드에서의 딥러닝이라는 주제로 진행하였다. 실제로 머신러닝, 딥러닝을 연구하다 보면 부딪히는 컴퓨팅 이슈들이 있다. 아마존이나 구글같은 인프라를 갖춘 기업이 아니고서야, AI 모델을 학습시킬 수 있는 컴퓨팅 리소스는 제한적이다.(이는 실제로 지금 우리 연구실이 DGX라는 좋은 장비를 두고 겪고 있는 문제이기도 하다. ) 그리고 딥러닝 학습에서 누구나 겪는 고민인 하이퍼파라미터 최적화와, 어떤 데이터셋이 들어왔을 때 어떤 모델이 가장 적합할지에 대한 고민도 많은 개발자들이 겪고 있는 문제이다. 이를 SI 기업에서 딥러닝 클라우드 플랫폼을 통해 극복하고자 어떤 ;노력을 하고 있는지에 대한 내용이 주된 발표 내용이였다. 특히 작업 스케줄링에 관한 부분이 가장 흥미로웠는데 세미나 내용만 들었을 때는 효율적인 작업 플랫폼이 되기 위해서는 작업 우선순위를 선정할 때 보완해야 할 부분들이 아직은 있어 보였다. 그리고 보안 상(?) 내용을 적지는 못했지만 욱수형께서 미래 연구 과제로 생각하고 있는 주제가 매우 흥미로워 보였는데 좋은 연구를 해주셨으면 좋겠다. 연구실에서 세미나 주제로 다루기 어려운 내용을 SI 전문가의 입장에서 차근차근 설명해주신 욱수형에게 감사하다는 말을 드린다.
금일 세미나 주제는 "클라우드에서의 딥러님 학습 플랫폼" 라는 내용 이었다. 중요한 점은 지금까지의 세미나의 경우 방법론에 대한 내용이었다면 이번에는 시스템의 발전의 흐름부터 들을 수 있는 세미나 였다. 앞으로의 세상에서는 클라우드 기술 기반으로 GPU 의 할당으로 모든 테스트가 진행 될 것이다. 모든 사람들이 최고 성능으로 테스트를 돌리는 것이 가장 좋겠지만 현실적으로 불가능하다. 그렇기에 효율적인 자원 할당의 개념으로 GPU 의 우선순위의 할당이 매우 중요한 상황이 될 것이다. 우선순위 할당에 대한 쉬운 설명으로 현재 GPU 를 모두 사용하고 있는 상태에서 누군가 7일 짜리 테스트를 돌리기 위해 먼저 Queue 에 쌓아두었고 그 다음 사람이 1시간 짜리 테스트를 Queue 에 쌓아 두었을 경우 순서대로 진행을 한다면 1시간 짜리 테스트는 간단한 테스트임에도 불구하고 결과를 7일이라는 긴 시간 뒤에 얻게 된다. 이를 방지하기 위해 업무 중요도, 프로젝트의 남은 시간, 테스트 시간, 등등 고려할 부분이 많다. 하지만 이런 제약들을 잘 조절 해서 사용하게 된다면 기업 입장에서는 매우 효과적인 자원 관리 를 할 수 있고 테스트 하는 사람 입장에서도 정확한 시간을 가지고 일정에 임할 수 있기 때문에 문제가 날 소지가 줄어든다.
이번 세미나는 기업의 입장에서 자원의 효율적 사용 에 대한 시각으로 최적화 알고리즘이 사용되는 바로 사용가능한 세미나 라는 점에서 매우 흥미로운 세미나 였다.
이번 세미나는 'Brightics Deep Learning'으로 삼성SDS에서 진행 중인 클라우드 딥러닝 학습 플랫폼에 관한 주제로 진행되었다. 대부분 딥러닝 모델을 Tain 하거나 Inference 할 때는 고성능의 GPU가 탑재된 서버를 구매하여 진행하는 것이 대부분이다. 그러나 이러한 고성능 서버는 개인이 구매하기에는 부담스럽고 관리도 부담스러운 게 사실이다. 이러한 문제 상황을 해결하기 위해 현재는 국내외 IT 기업들에서 클라우드 기반의 학습 플랫폼을 개발 및 운영하고 있다. 실제로 나는 'Google'에서 제공하는 Colab이라는 클라우드 환경에서 딥러닝 모델을 Train 하거나 Inference을 진행하기도 하였다. 그러나 이러한 Public 클라우드를 사용함에 있어 문제점도 존재한다고 생각한다. 바로 Public 클라우드에 업로드하는 DataSet의 보안 문제이다. 러닝 모델에 활용되는 데이터는 일반적인 데이터도 있겠지만 민감한 개인 정보나 회사의 민감정보를 포함할 수 있다. 이러한 문제는 나아가 기업에서 더욱 고려되는 부분일 것이고 이러한 점은 기업 내부에서 호스팅 하는 Private Cloud 플랫폼이 구축을 통해서 해결할 수 있는 부분이라고 생각한다. 그래서 금일 세미나에서 발표한 Brightics Deep Learning은 굉장히 의미 있는 연구분야라고 생각한다. 나아가 진행중인 플랫폼의 연구분야인 자원관리에 대한 방향성과 사용자 친화적인 기능들은 그동안 고민해보지 못했던 새로운 부분이었다. 이렇게 흥미로운 내용을 위해 시간을 마련해준 신욱수님께 감사함을 전하고 싶다.