- 2026년 3월 12일 오후 9:14
- 조회수: 460
REFERENCES
INFORMATION
- 2026년 3월 13일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
최지형
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김혜준
이번 세미나에서는 온디바이스 AI로의 전환이 왜 중요한지부터, 그 과정에서 메모리와 연산 자원이 얼마나 큰 제약으로 작용하는지를 매우 명확하게 설명해 주어 인상적이었다. 특히 클라우드 기반 추론의 한계를 단순한 기술 문제가 아니라 프라이버시, 지연 시간, 운영 비용과 연결해서 보여준 점이 흥미로웠다. 개인적으로는 양자화 과정에서 성능 저하를 얼마나 줄일 수 있는지, 비트 폭 선택이나 가중치·활성화 양자화 방식에 따라 실제 정확도와 속도가 어떻게 달라지는지가 더 궁금해졌다. 앞으로는 최신 LLM이 온디바이스 환경에서 어느 수준까지 실용화되고 있는지, 그리고 양자화 외에 pruning이나 distillation 같은 기법들과는 어떻게 결합되는지도 더 알아보고 싶다.
송하영
소개해주신 Basic of Quantization이라는 주제에 대해 naive하게 생각해보면 float type을 integer type으로 변환하는 과정을 고려할 수 있으며, 이를 통해 메모리 사용량과 연산 효율 측면에서 큰 이점을 기대할 수 있다. 그러나 이러한 과정에서는 표현의 정밀도 손실과 원본 정보의 일부 손실이 발생할 수 있다는 trade-off가 존재한다. 즉, 이러한 trade-off를 최소화하는 방향의 연구가 핵심이라고 볼 수 있다.
이를 위해 원하는 범위를 맞추기 위한 shifting 전략이 소개되었는데, float-to-integer 변환뿐만 아니라 다양한 데이터 타입을 활용한 확장적인 접근도 가능하지 않을까라는 생각이 들었으며, 이에 대한 추가적인 연구도 함께 찾아볼 필요가 있다고 느꼈다.
이 과정에서 중요한 것은 quantization error를 최소화하면서 효과적인 quantization을 수행하는 것이며, 이를 위해서는 필요한 값의 범위를 정확히 파악하는 것이 중요하다. 이러한 맥락에서 Range Calibration의 중요성이 강조된다.
Range Calibration 방법으로는 Post Training Quantization(PTQ)과 Quantization Aware Training(QAT)이 존재하며, PTQ는 다시 Dynamic Quantization과 Static Quantization으로 나뉜다.
Dynamic Quantization은 추론 과정에서 범위를 동적으로 설정하는 방식이며, Static Quantization은 추론 이전에 calibration 과정을 통해 범위를 결정하고 이를 고정하는 방식이다.
QAT는 학습 과정에서 quantization error를 함께 고려하며 최적화하는 기법으로, fake quantization을 통해 모델이 quantization 환경을 직접 경험하면서 학습이 이루어진다.
각 방법에 대해 절대적으로 우수한 하나의 방법이 존재한다기보다는, 설명해주신 것처럼 상황에 맞게 적절한 quantization 방법을 선택하는 것이 중요하다고 느꼈다.
또한 outlier가 존재하는 상황에서의 quantization도 중요한 이슈인데, 이를 고려하지 않을 경우 단순히 error가 증가하는 문제가 발생할 수 있다. 이를 해결하기 위해 SmoothQuant에서는 activation의 변동성을 weight로 이동시키는 방식을 사용한다. 특히 이 과정에서 사용되는 scaling matrix S가 역행렬을 가지기 때문에 변환 전후의 표현이 동일하게 유지되며, 이를 통해 quantization error를 줄일 수 있다.
SpintQuant에서는 activation의 outlier가 특정 채널에 집중되는 현상에 주목하며, 이로 인해 quantization 난이도가 증가하는 문제를 다룬다. 이를 해결하기 위해 회전 행렬(rotation matrix)을 활용하여 outlier 분포를 분산시키고, quantization이 보다 용이한 방향으로 변환한다. 이 과정에서도 변환 전후의 결과가 동일하게 유지된다는 점이 특징이다.
전반적으로 어려운 주제인 quantization을 직관적으로 이해할 수 있었던 세미나였으며, 특히 모델 경량화를 연구하는 관점에서 매우 유익한 내용이었다고 느꼈다. 좋은 세미나를 준비해주신 최지형 연구원님께 감사의 인사를 드리며 후기를 마친다.
정재우
이번 세미나는 모델 경량화의 핵심 기법 중 하나인 Quantization을 주제로 진행되었다. 최근 거대 모델의 등장으로 인해 이를 제한된 하드웨어 자원에서 효율적으로 운용하기 위한 경량화 연구는 필수적인 과제가 되었으며, 그 중심에 있는 양자화를 단순 테크닉으로만 사용하고 있었는데, 세미나를 통해 개념을 명확히 이해할 수 있는 시간이었다. 먼저 양자화의 핵심은 32-bit 실수형 자료형을 8-bit와 같은 정수형으로 변환하여 메모리 사용량을 줄이고 추론 속도를 개선하는 것이다. 이 과정에서 실수 범위를 정수 범위로 매핑하기 위해 스케일링(s)과 쉬프팅(z) 파라미터를 정의해야 하며, 수치가 실제로 존재하는 유효 구간(alpha, beta)을 설정하는 것이 정밀도 유지의 관건임을 알 수 있었다. 특히 범위를 벗어나는 값들을 Clipping 함수로 처리하고, 비록 수치값은 변하더라도 각 수치가 가지는 상대적인 의미는 유효하다는 점이 핵심으로 느껴졌다.
또한 세미나에서는 양자화의 두 가지 주요 방법론인 PTQ(Post Training Quantization)와 QAT(Quantization Aware Training)를 상세히 다루었는데, 추론 중 동적으로 범위를 설정하는 Dynamic Quantization과 시뮬레이션을 통해 범위를 고정하는 Static Quantization의 차이를 통해 모델 사이즈에 따른 적절한 기법 선택이 강조된다고 생각한다. 특히 학습 과정에 Fake Quantization 레이어를 도입하여 양자화 오차를 최소화하는 QAT 방식은 소형 모델의 성능 하락을 방어하는 데 매우 강력한 도구가 될 것으로 보였으며, SmoothQuant와 SpinQuant와 같은 최신 연구를 통해 Activation Outliers 문제를 해결하려는 시도들을 접할 수 있었다. 이는 단순히 비트 수를 줄이는 것을 넘어, 가중치와 활성화 값 사이의 수치적 특성을 고려하여 정밀도 향상과 연산 비용 절감을 동시에 달성하려는 고도화된 전략으로 볼 수 있다.
이번 세미나를 통해 현재 연구 중인 강화학습이나 VLA 모델을 실제 환경에 적용할 때, 모델의 정밀도를 유지하면서도 효율성을 극대화할 수 있는 구체적인 가이드라인을 얻을 수 있었다. 특히 양자화 오차를 최소화하기 위한 Range Calibration의 개념과 중요성을 다시 한번 상기할 수 있었고, 유익한 세미나를 준비해준 최지형 연구원께 감사를 표하며, 세미나 후기를 마친다.
장성인
이번 세미나를 통해서 Quantization이 어떤 것이고, 진행 방식이 어떠한지에 대해서 알아볼 수 있었다. 또한 각 과정에서의 문제점과 보완해야할 점들이 무엇인지를 순서에 맞게 Range Calibration, Activation Outliers라는 2가지 방안에 대해서 알아볼 수 있었던 시간이였다.
처음 Basic of Quantization을 설명해주면서 왜 우리는 연산 과정을 줄여야하고 이 과정이 어떻게 되는지 쉽게 잘 설명해줘서 잘 이해할 수 있었다.
처음 저장되어 있는 데이터를 quantization을 통해 범위를 줄이고 다시 원상태로 복귀할 때 error를 줄이기 위한 방안으로 range calibration의 필요성에 대해 알게 되었다. Range calibration에는 Post Training Quantization(PTQ)과 Quantization Aware Traning(QAT)이 있었고 PTQ에는 Static Quantization, Dynamic Quantization이 있었다. 각 과정은 학습 완료, 추론 시작을 기점으로 방법론이 나눠지는데 학습하는 도중에 사용되는 QAT, 모델 학습이 되고 시뮬레이션 중 진행되는 Static Quantization, 추론 도중에 범위를 동적으로 설정하는 Dynamic Quantization이 있었다.
하지만 최초 데이터에 outlier가 있을 떄 어떻게 처리할 수 있을까?라는 질문에 해당하는 방안으로 Activation Outliers가 있었고 이에 대한 방안으로 SmoothQuant, SpinQuant라는 2가지 방안이 있었다. SmoothQuant는 Activation의 변동이 가중치 대비 크면 quantization의 난이도가 높다라는 가정을 통해 변동성 일부를 가중치로 이전하는 방법이다. Spinquant는 outlier가 특정 채널에 분포되어 있을거라는 가정을 통해 회전 행렬을 이용해서 quantization의 분포를 고르게 펼쳐 친화적 분포로 변형하는 방법이다.
평소에 지나가면서 들었던 quantization에 대해서 이번 세미나를 통해 자세히 알아볼 수 있었고, 쉽게 잘 설명해준 최지형 연구원님께 감사의 말을 남긴다.
손병우
최근 VLA 및 MLLM과 같은 대규모 모델을 실제 환경에 적용하는 과정에서 모델 경량화와 온디바이스 추론의 중요성을 느끼게 되었고, 이에 따라 본 세미나를 청취하게 되었다. 본 세미나는 모델 경량화 기법 중 하나인 Quantization의 기본 원리와 실제 적용 과정에서 발생하는 문제, 그리고 이를 해결하기 위한 방법론의 흐름을 다루고 있다. Quantization이란 FP32와 같은 실수 자료형으로 표현된 weight와 activation 값을 INT8과 같은 정수 자료형으로 변환하는 기법으로, 모델의 메모리 사용량을 줄이고 추론 속도를 개선하는 데 목적이 있다.
세미나 초반부에서는 Quantization이 왜 필요한지를 직관적으로 설명하였다. FP32는 하나의 값을 표현하기 위해 32비트를 사용하지만, INT8은 8비트만을 사용하기 때문에 이론적으로 약 4배의 메모리 절감 효과를 기대할 수 있다. 하지만 실수를 정수로 변환하는 과정에서는 표현 정밀도가 낮아지기 때문에 Quantization Error가 발생한다. 따라서 Quantization의 핵심은 단순히 모델을 작게 만드는 것이 아니라, 성능 하락을 최소화하면서 모델 크기와 추론 속도를 개선하는 데 있다고 이해할 수 있었다.
이후 세미나에서는 Quantization 방식이 크게 Post Training Quantization(PTQ)과 Quantization Aware Training(QAT)의 두 갈래로 설명되었다. 먼저 PTQ는 학습이 완료된 FP32 모델에 사후적으로 quantization을 적용하는 방식이다. PTQ 안에서도 Dynamic Quantization은 추론 중 입력에 따라 activation 범위를 동적으로 계산하는 방식이고, Static Quantization은 calibration dataset을 이용해 추론 전에 activation 범위를 미리 정해두는 방식이다. 즉, PTQ는 별도의 재학습 없이 적용할 수 있다는 장점이 있지만, activation 범위를 얼마나 적절하게 추정하느냐가 성능에 큰 영향을 준다. 반면 QAT는 학습 과정에서 fake quantization과 fake dequantization을 적용하여 모델이 Quantization Error를 미리 경험하도록 하는 방식이다. PTQ가 학습이 끝난 모델에 quantization을 적용하는 방식이라면, QAT는 모델이 학습 과정에서부터 quantization 이후의 환경에 적응하도록 만든다는 점에서 차이가 있다. 이를 통해 모델은 quantization 이후에도 성능이 유지될 수 있는 방향으로 학습되며, 특히 quantization error에 민감한 소형 모델에서 성능 하락을 줄이는 데 효과적일 수 있다고 한다.
또한 세미나에서는 Activation Outlier 문제도 다루었다. 대부분의 activation 값이 좁은 범위에 몰려 있어도 일부 큰 outlier가 존재하면 전체 quantization 범위가 넓어지고, 그 결과 중요한 값들의 세밀한 차이를 표현하기 어려워진다. 이를 해결하기 위한 방법으로 SmoothQuant와 SpinQuant가 소개되었다. SmoothQuant는 activation의 quantization 난이도 일부를 weight로 옮겨 전체 분포를 더 다루기 쉽게 만드는 방식이며, SpinQuant는 회전 행렬을 활용해 특정 채널에 집중된 outlier 문제를 완화하는 방식이다.
이번 세미나를 통해 Quantization이 단순히 FP32를 INT8로 바꾸는 압축 기법이 아니라, 모델의 수치 분포, activation 변화, range calibration, outlier 문제까지 함께 고려해야 하는 중요한 연구 주제임을 알 수 있었다. 특히 VLM, VLA, On-device AI와 같이 제한된 메모리와 연산 자원 안에서 모델을 실제로 활용해야 하는 분야에서는 Quantization이 LoRA나 Adapter와 같은 PEFT 기법과 함께 매우 중요한 역할을 할 수 있다고 느꼈다. 전반적으로 본 세미나는 Quantization의 기초부터 실제 문제와 해결 방향까지 자연스럽게 설명해주어 이해하기 좋았으며, 쉽게 잘 설명해주신 최지형 선배님에게 감사의 인사를 전한다.