Quantization
- 2026년 3월 12일 오후 9:14
- 조회수: 109
REFERENCES
INFORMATION
- 2026년 3월 13일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
최지형
최지형
TOPIC
Quantization
On-Line Video
OVERVIEW
생성형 인공지능과 대규모 언어 모델(Large Language Models, LLMs)의 활용이 보편화됨에 따라, 클라우드 기반 추론 방식에서 벗어나 사용자 기기에서 직접 모델을 구동하는 온디바이스 AI(On-device AI)로의 패러다임 전환이 가속화되고 있다. 이러한 전환의 배경에는 사용자 데이터 프라이버시 보호, 네트워크 지연 시간의 최소화, 그리고 서버 운영 비용 절감과 같은 전략적 요구가 존재한다. 그러나 수십억 개의 파라미터를 보유한 현대적 모델을 4GB에서 12GB 수준의 제한된 메모리를 가진 모바일 기기에 탑재하는 과정에서, 모델의 크기와 연산량은 이른바 메모리 벽이라는 중대한 제약으로 작용한다. 이러한 문제를 완화하기 위한 핵심 기술 중 하나가 양자화(Quantization)이다. 양자화는 모델의 가중치와 활성화 값을 낮은 비트 폭의 정수 표현으로 변환함으로써 메모리 사용량을 줄이고 연산 효율을 높여, 제한된 자원을 가진 환경에서도 효율적인 추론을 가능하게 한다. 본 세미나에서는 양자화 기술의 기본 원리와 연구 동향을 소개한다.
[1] Gholami, A., Kim, S., Dong, Z., Yao, Z., Mahoney, M. W., & Keutzer, K. (2022). A survey of quantization methods for efficient neural network inference. In Low-power computer vision (pp. 291-326). Chapman and Hall/CRC.
[2] Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., ... & Kalenichenko, D. (2018). Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2704-2713).
[3] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... & Chintala, S. (2019). Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32.
[4] Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., ... & Kalenichenko, D. (2018). Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2704-2713).
[5] Xiao, G., Lin, J., Seznec, M., Wu, H., Demouth, J., & Han, S. (2023, July). Smoothquant: Accurate and efficient post-training quantization for large language models. In International conference on machine learning (pp. 38087-38099). PMLR.
[6] Liu, Z., Zhao, C., Fedorov, I., Soran, B., Choudhary, D., Krishnamoorthi, R., ... & Blankevoort, T. SpinQuant: LLM Quantization with Learned Rotations. In The Thirteenth International Conference on Learning Representations.