고려대학교 DMQA 연구실

Quantization

2026년 3월 12일 오후 9:14
조회수: 350

REFERENCES

[260313 DMQA Open Seminar] Quantization.pdf

INFORMATION

2026년 3월 13일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

최지형

TOPIC

Quantization

On-Line Video

OVERVIEW

생성형 인공지능과 대규모 언어 모델(Large Language Models, LLMs)의 활용이 보편화됨에 따라, 클라우드 기반 추론 방식에서 벗어나 사용자 기기에서 직접 모델을 구동하는 온디바이스 AI(On-device AI)로의 패러다임 전환이 가속화되고 있다. 이러한 전환의 배경에는 사용자 데이터 프라이버시 보호, 네트워크 지연 시간의 최소화, 그리고 서버 운영 비용 절감과 같은 전략적 요구가 존재한다. 그러나 수십억 개의 파라미터를 보유한 현대적 모델을 4GB에서 12GB 수준의 제한된 메모리를 가진 모바일 기기에 탑재하는 과정에서, 모델의 크기와 연산량은 이른바 메모리 벽이라는 중대한 제약으로 작용한다. 이러한 문제를 완화하기 위한 핵심 기술 중 하나가 양자화(Quantization)이다. 양자화는 모델의 가중치와 활성화 값을 낮은 비트 폭의 정수 표현으로 변환함으로써 메모리 사용량을 줄이고 연산 효율을 높여, 제한된 자원을 가진 환경에서도 효율적인 추론을 가능하게 한다. 본 세미나에서는 양자화 기술의 기본 원리와 연구 동향을 소개한다.

[1] Gholami, A., Kim, S., Dong, Z., Yao, Z., Mahoney, M. W., & Keutzer, K. (2022). A survey of quantization methods for efficient neural network inference. In Low-power computer vision (pp. 291-326). Chapman and Hall/CRC.

[2] Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., ... & Kalenichenko, D. (2018). Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2704-2713).

[3] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... & Chintala, S. (2019). Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32.

[4] Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., ... & Kalenichenko, D. (2018). Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2704-2713).

[5] Xiao, G., Lin, J., Seznec, M., Wu, H., Demouth, J., & Han, S. (2023, July). Smoothquant: Accurate and efficient post-training quantization for large language models. In International conference on machine learning (pp. 38087-38099). PMLR.

[6] Liu, Z., Zhao, C., Fedorov, I., Soran, B., Choudhary, D., Krishnamoorthi, R., ... & Blankevoort, T. SpinQuant: LLM Quantization with Learned Rotations. In The Thirteenth International Conference on Learning Representations.

청취자 후기

김혜준

이번 세미나에서는 온디바이스 AI로의 전환이 왜 중요한지부터, 그 과정에서 메모리와 연산 자원이 얼마나 큰 제약으로 작용하는지를 매우 명확하게 설명해 주어 인상적이었다. 특히 클라우드 기반 추론의 한계를 단순한 기술 문제가 아니라 프라이버시, 지연 시간, 운영 비용과 연결해서 보여준 점이 흥미로웠다. 개인적으로는 양자화 과정에서 성능 저하를 얼마나 줄일 수 있는지, 비트 폭 선택이나 가중치·활성화 양자화 방식에 따라 실제 정확도와 속도가 어떻게 달라지는지가 더 궁금해졌다. 앞으로는 최신 LLM이 온디바이스 환경에서 어느 수준까지 실용화되고 있는지, 그리고 양자화 외에 pruning이나 distillation 같은 기법들과는 어떻게 결합되는지도 더 알아보고 싶다.

송하영

소개해주신 Basic of Quantization이라는 주제에 대해 naive하게 생각해보면 float type을 integer type으로 변환하는 과정을 고려할 수 있으며, 이를 통해 메모리 사용량과 연산 효율 측면에서 큰 이점을 기대할 수 있다. 그러나 이러한 과정에서는 표현의 정밀도 손실과 원본 정보의 일부 손실이 발생할 수 있다는 trade-off가 존재한다. 즉, 이러한 trade-off를 최소화하는 방향의 연구가 핵심이라고 볼 수 있다.

이를 위해 원하는 범위를 맞추기 위한 shifting 전략이 소개되었는데, float-to-integer 변환뿐만 아니라 다양한 데이터 타입을 활용한 확장적인 접근도 가능하지 않을까라는 생각이 들었으며, 이에 대한 추가적인 연구도 함께 찾아볼 필요가 있다고 느꼈다.

이 과정에서 중요한 것은 quantization error를 최소화하면서 효과적인 quantization을 수행하는 것이며, 이를 위해서는 필요한 값의 범위를 정확히 파악하는 것이 중요하다. 이러한 맥락에서 Range Calibration의 중요성이 강조된다.

Range Calibration 방법으로는 Post Training Quantization(PTQ)과 Quantization Aware Training(QAT)이 존재하며, PTQ는 다시 Dynamic Quantization과 Static Quantization으로 나뉜다.

Dynamic Quantization은 추론 과정에서 범위를 동적으로 설정하는 방식이며, Static Quantization은 추론 이전에 calibration 과정을 통해 범위를 결정하고 이를 고정하는 방식이다.

QAT는 학습 과정에서 quantization error를 함께 고려하며 최적화하는 기법으로, fake quantization을 통해 모델이 quantization 환경을 직접 경험하면서 학습이 이루어진다.

각 방법에 대해 절대적으로 우수한 하나의 방법이 존재한다기보다는, 설명해주신 것처럼 상황에 맞게 적절한 quantization 방법을 선택하는 것이 중요하다고 느꼈다.

또한 outlier가 존재하는 상황에서의 quantization도 중요한 이슈인데, 이를 고려하지 않을 경우 단순히 error가 증가하는 문제가 발생할 수 있다. 이를 해결하기 위해 SmoothQuant에서는 activation의 변동성을 weight로 이동시키는 방식을 사용한다. 특히 이 과정에서 사용되는 scaling matrix S가 역행렬을 가지기 때문에 변환 전후의 표현이 동일하게 유지되며, 이를 통해 quantization error를 줄일 수 있다.

SpintQuant에서는 activation의 outlier가 특정 채널에 집중되는 현상에 주목하며, 이로 인해 quantization 난이도가 증가하는 문제를 다룬다. 이를 해결하기 위해 회전 행렬(rotation matrix)을 활용하여 outlier 분포를 분산시키고, quantization이 보다 용이한 방향으로 변환한다. 이 과정에서도 변환 전후의 결과가 동일하게 유지된다는 점이 특징이다.

전반적으로 어려운 주제인 quantization을 직관적으로 이해할 수 있었던 세미나였으며, 특히 모델 경량화를 연구하는 관점에서 매우 유익한 내용이었다고 느꼈다. 좋은 세미나를 준비해주신 최지형 연구원님께 감사의 인사를 드리며 후기를 마친다.

정재우

이번 세미나는 모델 경량화의 핵심 기법 중 하나인 Quantization을 주제로 진행되었다. 최근 거대 모델의 등장으로 인해 이를 제한된 하드웨어 자원에서 효율적으로 운용하기 위한 경량화 연구는 필수적인 과제가 되었으며, 그 중심에 있는 양자화를 단순 테크닉으로만 사용하고 있었는데, 세미나를 통해 개념을 명확히 이해할 수 있는 시간이었다. 먼저 양자화의 핵심은 32-bit 실수형 자료형을 8-bit와 같은 정수형으로 변환하여 메모리 사용량을 줄이고 추론 속도를 개선하는 것이다. 이 과정에서 실수 범위를 정수 범위로 매핑하기 위해 스케일링(s)과 쉬프팅(z) 파라미터를 정의해야 하며, 수치가 실제로 존재하는 유효 구간(alpha, beta)을 설정하는 것이 정밀도 유지의 관건임을 알 수 있었다. 특히 범위를 벗어나는 값들을 Clipping 함수로 처리하고, 비록 수치값은 변하더라도 각 수치가 가지는 상대적인 의미는 유효하다는 점이 핵심으로 느껴졌다.
또한 세미나에서는 양자화의 두 가지 주요 방법론인 PTQ(Post Training Quantization)와 QAT(Quantization Aware Training)를 상세히 다루었는데, 추론 중 동적으로 범위를 설정하는 Dynamic Quantization과 시뮬레이션을 통해 범위를 고정하는 Static Quantization의 차이를 통해 모델 사이즈에 따른 적절한 기법 선택이 강조된다고 생각한다. 특히 학습 과정에 Fake Quantization 레이어를 도입하여 양자화 오차를 최소화하는 QAT 방식은 소형 모델의 성능 하락을 방어하는 데 매우 강력한 도구가 될 것으로 보였으며, SmoothQuant와 SpinQuant와 같은 최신 연구를 통해 Activation Outliers 문제를 해결하려는 시도들을 접할 수 있었다. 이는 단순히 비트 수를 줄이는 것을 넘어, 가중치와 활성화 값 사이의 수치적 특성을 고려하여 정밀도 향상과 연산 비용 절감을 동시에 달성하려는 고도화된 전략으로 볼 수 있다.
이번 세미나를 통해 현재 연구 중인 강화학습이나 VLA 모델을 실제 환경에 적용할 때, 모델의 정밀도를 유지하면서도 효율성을 극대화할 수 있는 구체적인 가이드라인을 얻을 수 있었다. 특히 양자화 오차를 최소화하기 위한 Range Calibration의 개념과 중요성을 다시 한번 상기할 수 있었고, 유익한 세미나를 준비해준 최지형 연구원께 감사를 표하며, 세미나 후기를 마친다.