고려대학교 DMQA 연구실

양자 머신러닝 (Quantum Machine Learning) 양자 머신러닝 (quantum machine learning)이라는 주제를 소개하기 위해서는 먼저 양자역학에서 나오는 몇 가지 핵심 개념을 살펴볼 필요가 있다. 중첩(superposition), 얽힘(entanglement), 간섭(interference), 터널링(tunneling)이 네 가지 중요 개념으로, 중첩은 여러 가능한 상태가 동시에 존재할 수 있다는 개념이고, 얽힘은 두 상태가 강하게 연결되어 있어서 하나의 상태를 측정하는 순간 다른 상태도 함께 정해진다는 개념이며, 간섭은 입자의 파동함수가 여러 경로를 따라 진동하면서 서로 겹칠 때 위상 차이에 따라 확률 진폭이 강화되거나 상쇄되는 현상을 뜻한다. 터널링은 고전 물리학적으로는 절대 통과할 수 없는 장벽을 양자역학적으로는 확률적으로 통과할 수 있는 현상이다. 특히 2025년 노벨 물리학상 수상자들인 John Clarke, Michel Devoret, John Martinis는 초전도 회로 기반에서 거시적 양자 터널링과 에너지 양자화 현상을 입증한 공로로 수상했으며, 이들은 조셉슨 접합(Josephson junction)이라는 초전도 소자를 이용하여 손으로 만질 수 있는 크기의 회로에서도 양자 현상이 나타날 수 있음을 실험적으로 확인했다. 이어서 또 다른 핵심 개념인 큐비트의 개념을 이해한 뒤에 양자 머신러닝을 본격적으로 설명해 보겠다. 고전 컴퓨터에서 사용하는 비트(bit)는 정보를 0 또는 1 중 하나의 상태로만 저장하지만, 큐비트(quantum bit)는 중첩 상태로 0과 1이 동시에 존재할 수 있다. 큐비트의 수가 증가할수록 양자컴퓨터가 한번에 표현하고 연산할 수 있는 상태 공간(state space)의 크기는 지수적으로 커지며, 일반적으로 k개의 큐비트를 쓰면 동시에 표현 가능한 상태 수는 2k개이다. 예컨대 큐비트 하나만 있으면 동시 표현 가능한 상태는 0과 1 두 개이고, 큐비트 두 개면 4개, 다섯 개면 32개, 열 개면 1024개가 된다. 이제 양자 머신러닝을 살펴보자. 양자 머신러닝은 앞서 언급한 양자역학적 기법들을 머신러닝 문제 해결에 응용하여 효율성을 높이려는 연구 분야다. 예컨대 양자컴퓨터는 중첩과 얽힘 상태를 활용하여 데이터를 표현할 수 있고, k개의 큐비트가 있다면 2k개의 상태를 동시에 나타낼 수 있으므로 기존 컴퓨터보다 더 효율적인 데이터 표현이 가능해진다. 이를 활용한 알고리즘으로는 양자 PCA (quantum principal component analysis)가 있는데, 고차원 데이터를 저차원으로 임베딩할 때 필요한 큰 행렬 연산을 양자 기술을 적용해 계산 복잡도를 현저히 줄일 수 있다. 또, support vector machine의 내적 계산에도 양자 기술을 효율적으로 적용할 수 있고, 이미지 처리 분야에서 널리 쓰이는 합성곱신경망(convolutional neural network)에도 중첩과 얽힘 개념을 활용하면 적은 수의 파라미터로도 높은 표현력을 확보할 수 있다. 이미지 외에도 순서나 문맥 관계가 중요한 자연어 처리나 시계열 데이터에 대해서도 양자 임베딩이나 양자 회로 기반 처리를 통해 계산 복잡도를 낮출 수 있다. 종합적으로 보면, 최근 머신러닝의 흐름은 단순히 주어진 데이터를 모델에 넣는 것이 아니라 먼저 중요한 특징을 추출하고 인코딩(임베딩)한 뒤 그 표현을 이용해 모델링하는 것이다. 양자 머신러닝에서는 이 인코딩/임베딩 단계에 양자역학적 상태 표현을 활용하여 더 복잡한 패턴까지 효율적으로 추출할 수 있다. 이는 고전적 autoencoder 개념과 유사하지만, 양자 상태 표현을 쓰면 더 정교한 표현력을 기대할 수 있다. 다만 아직 양자 머신러닝은 초기 단계에 머물러 있다. 양자 하드웨어의 노이즈 제어와 큐비트 수의 제약을 극복하고, 기존 머신러닝 알고리즘을 양자 환경에 맞게 재설계하거나 양자 고유의 특성을 활용한 새로운 머신러닝 알고리즘을 개발하며, 기존 알고리즘과 양자 알고리즘의 결합에 대한 연구가 활발히 이루어져야 할 것이다. To introduce the concept of quantum machine learning, it is essential to begin with several foundational ideas from quantum mechanics. Four key principles—superposition, entanglement, interference, and tunneling—form the backbone of quantum theory. Superposition refers to the ability of a quantum system to exist in multiple possible states simultaneously. Entanglement describes a deep connection between two or more quantum states, where measuring one instantly determines the state of the other, regardless of distance. Interference occurs when the wave functions of particles overlap along different paths, leading to the amplification or cancellation of probabilities depending on their phase differences. Finally, tunneling refers to the phenomenon in which a particle can pass through an energy barrier that would be insurmountable under classical physics. Notably, the 2025 Nobel Prize in Physics was awarded to John Clarke, Michel Devoret, and John Martinis for their groundbreaking work demonstrating macroscopic quantum tunneling and energy quantization in superconducting circuits. Using a special superconducting device known as the Josephson junction, they provided experimental evidence that quantum phenomena can occur in electrical circuits large enough to be seen and handled—bridging the gap between the quantum and classical worlds. Before delving into quantum machine learning itself, it is helpful to understand another essential concept: the qubit (quantum bit). In classical computing, a bit stores information as either a 0 or a 1. In contrast, a qubit can exist in a superposition of both 0 and 1 at the same time. As the number of qubits increases, the state space—the total number of possible combinations the system can represent—grows exponentially. Generally, a system with k qubits can represent 2k states simultaneously. For example, one qubit can represent two states (0 and 1), two qubits can represent four states, five qubits thirty-two states, and ten qubits 1,024 states. This exponential scaling is what gives quantum computing its immense potential power compared to classical systems. Now, let’s go over quantum machine learning. Quantum machine learning is an emerging field that seeks to leverage quantum-mechanical phenomena to make machine learning algorithms faster and more efficient. Quantum computers can represent and manipulate data using the principles of superposition and entanglement, allowing them to encode and process information in fundamentally new ways. With k qubits, a quantum system can represent 2k states simultaneously, enabling far richer and more compact data representations than those achievable on classical computers. Several algorithms illustrate this potential. quantum principal component analysis (Quantum PCA), for instance, applies quantum computation to reduce the dimensionality of high-dimensional data, drastically lowering computational complexity compared to classical PCA. Similarly, quantum methods can accelerate the inner product computations used in support vector machines (SVMs). In the field of computer vision, quantum convolutional neural networks have been proposed to achieve comparable accuracy with significantly fewer parameters by exploiting quantum properties like superposition and entanglement. Beyond images, quantum computing techniques are also being explored for complex sequential data such as natural language and time series, where contextual and temporal relationships play a crucial role. Quantum embeddings and circuit-based representations can reduce computational costs while preserving important structural dependencies. Taken together, the recent trend in machine learning emphasizes not simply feeding raw data into a model but first extracting meaningful features through encoding (or embedding) processes. Quantum machine learning fits naturally into this paradigm by using quantum states as an enhanced representational space for feature extraction. In a sense, it parallels the idea of an autoencoder, but with the added expressive power of quantum mechanics, allowing for more intricate and efficient pattern representation. That said, quantum machine learning is still in its infancy. To realize its full potential, future research must focus on overcoming the practical challenges of quantum hardware—including noise, limited qubit counts, and decoherence—while also redesigning classical algorithms to suit quantum architectures. Furthermore, developing entirely new algorithms that exploit uniquely quantum characteristics, and advancing hybrid quantum-classical approaches that blend the strengths of both computing paradigms, will be critical to the next stage of progress in this field. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission.

강화학습 (Reinforcement Learning) 강화학습(reinforcement learning)은 에이전트가 주어진 환경에서 최적의 행동을 할 수 있도록 학습하는 머신러닝 기법의 한 분야이다. 여기서 에이전트는 환경과 상호작용하며 목표를 달성하기 위해 최적의 의사결정을 내리는 주체를 의미한다. 예를 들어, 슈퍼마리오 게임에서는 “슈퍼마리오,” 스타크래프트 게임에서는 "마린," 반도체 공정에서는 "로봇팔," 자율주행자동차에서는 "자동차"가 에이전트의 역할을 한다. 강화학습은 위에서 정의한 에이전트 외 환경(environment), 상태(state), 행동(action), 보상(reward)의 주요 구성 요소로 이루어진다. 환경은 에이전트의 행동에 반응하여 보상과 새로운 상태를 제공하는 외부 시스템으로 슈퍼마리오의 경우 슈퍼마리오 게임 자체가 환경이며 플레이하고 있는 게임 속 화면은 상태가 된다. 이 때 에이전트는 현재 상태를 바탕으로 행동을 선택하며, 그 결과로 환경에서 보상을 받는다. 보상은 에이전트가 행한 현재 행동이 얼마나 좋은지를 나타내는 정량화된 지표이며, 이를 기반으로 에이전트는 미래에 더 나은 행동을 선택하기 위해 학습한다. 강화학습의 핵심은 에이전트가 환경과 반복적으로 상호작용하며, 그 과정에서 얻는 보상을 통해 행동 방식을 학습하는 것이다. 좀 더 구체적으로 설명하면, 에이전트는 한 에피소드 내 각 행동으로부터 받는 보상의 합(리턴)을 최대화하기 위해 행동 전략을 지속적으로 개선하며, 이는 궁극적으로 더 나은 결정을 내리는 방향으로 이어진다. * 에피소드: 에이전트가 처음 상태에서 최종 상태까지 도달할 때까지의 과정 따라서 강화학습의 궁극적인 목표는 에이전트가 시간에 따라 누적되는 총 보상을 최대화하는 정책(policy)을 찾는 것이다. 정책은 주어진 상태에서 어떤 행동을 선택할지 정해주는 규칙이나 함수로 정의되며, 에이전트는 반복적인 탐험(exploration)과 활용(exploitation)을 통해 이 정책을 점진적으로 개선해 나간다. 탐험은 새로운 행동을 시도해 환경에 대한 지식을 넓히는 과정으로 학습 초반에 주로 사용되며, 활용은 이미 학습한 정책을 바탕으로 최적이라고 판단되는 행동을 선택하는 과정으로 학습 후반에 사용된다. 만약 탐험에 너무 많은 비중을 두면 최적의 정책을 찾는 것이 늦어질 수 있고, 활용에 너무 많은 비중을 두면 최적의 정책을 찾지 못할 수도 있다. 이 두 과정의 균형을 적절히 유지하는 것이 강화학습의 중요한 문제 중 하나다. 강화학습은 기본적으로 마르코프 의사결정 과정(Markov decision process, MDP)을 기반으로 한다. MDP는 상태, 행동, 상태 전이 확률, 보상 함수로 구성되며, 강화학습 알고리즘은 이를 활용해 최적의 정책을 학습한다. MDP는 거창한 것 같아도 t시점의 상태는 바로 이전 시점인 t-1 상태에 의해서만 결정된다는 마르코프 특성만 알면 된다. 즉, 많은 책이나 자료에서 MDP라는 용어를 수식과 함께 거창하게 써서 흐름을 방해하는데 여기에 매몰되지 말고 가볍게 지나가길 권한다. 강화학습 방법론은 우선 각 상태에 따른 가치를 테이블(table)형태로 표현한 방법론과 상태와 가치의 관계를 설명할 수 있는 함수(모델)형태로 구현한 방법론으로 나눌 수 있다. 테이블 형태의 강화학습은 각 상태에 따른 가치를 이산적으로 매칭하기 때문에 상태의 개수가 소수일 때는 가능하지만 게임 포함 대부분의 환경에서는 불가능하다. 따라서 모델 형태의 강화학습에 초점을 맞추면 된다. 여기서 사용되는 모델은 최근에는 주로 딥러닝(CNN 등) 모델이 사용되며 이를 심층 강화학습이라고 부른다. 심층 강화학습 방법론은 크게 ①가치 기반(value-based) 방법, ②정책 기반(policy-based) 방법, ③하이브리드 방법론인 actor-critic으로 나눌 수 있다. ①가치 기반 방법은 현재 상태에서 선택할 수 있는 행동의 실제 가치를 추정할 수 있는 가치함수 값과 정답 가치 값과의 차이를 줄이는 방향으로 가치함수를 학습한다. 이 때 정책함수는 가치함수를 통해 현재 상황에서 더 높은 가치를 받을 수 있는 행동을 선택하는 ‘규칙’에 해당하기 때문에 학습 과정이 필요 없다. 다만 가치 기반 방법은 정책함수가 주어진 행동 중에서 선택하는 문제이기 때문에 행동 공간이 이산적인 경우에만 사용할 수 있다는 제약이 있다. 대표적인 알고리즘은 deep Q-network(DQN), Rainbow 등이 있다. ②정책 기반 방법은 누적 보상이 최대화되는 방향으로 정책함수를 직접 학습한다 (가치함수 사용하지 않음). 이 때 정책함수가 직접 행동 값을 출력할 수 있기 때문에 연속적 행동 공간에서도 효과적이다. 이는 위에서 언급한 가치 기반 방법론의 한계인 고차원 행동 공간 문제(행동 경우가 수가 많음)를 해결할 수 있다. 대표적인 알고리즘은 REINFORCE가 있다. ③ Actor-critic 방법론은 정책(actor)과 가치(critic)을 모두 활용함으로써 학습 효율성과 안정성을 동시에 추구하며, 대표적인 알고리즘으로는 DDPG, TD3, PPO, SAC 등이 있다. Actor 함수는 상태가 주어졌을 때 가장 적합한 행동을 선택하며, critic 함수는 선택된 행동에 대한 가치를 평가한다. 이전에 설명한 정책 기반 방법에서 정책함수는 누적 보상을 최대화하는 방향으로 학습이 수행되었다. 하지만 에피소드마다 누적 보상의 분산이 클 수 있어 학습이 불안정한 경향이 있다. 따라서 critic 함수를 사용하여 에이전트가 선택한 행동의 상대적인 가치(속한 상태에서 얻을 수 있는 행동 가치의 평균보다 얼마나 더 혹은 덜 한지)를 최대화함으로써 보다 분산을 줄이고 안정적으로 학습을 수행한다. 따라서 궁극적으로 에이전트가 얻을 수 있는 가치가 최대가 될 수 있도록 학습한다. Actor와 critic 함수를 학습하는데에도 역시 딥러닝 모델이 사용된다. 강화학습에 관심이 있는 분들은 위 3가지 방법론들(가치 기반, 정책 기반, actor-critic 기반)을 공부하면 된다. 최근에는 표현 학습이나 생성형 모델과 같이 다양한 딥러닝 분야가 발전하면서 심층 강화학습에 이를 적용하려는 시도가 많이 진행되고 있다. 특히 기존 강화학습에서 한계점으로 지적되었던 부분들을 개선하려는 연구가 활발하게 진행되고 있다. 대표적으로 ①Sample efficient 강화학습과 ②offline 강화학습이 있다. ①Sample efficient 강화학습은 에이전트가 더 적은 상호작용으로 최적의 정책을 찾기 위한 연구이다. 강화학습은 환경과의 상호작용을 통해서 데이터를 수집하고 학습하기 때문에 더 적은 상호작용은 곧 sample efficient와 동일하다. 이를 달성하는 방법은 다양하다. 탐험의 관점에서 볼 때 에이전트가 중복되는 상태를 방문하는 걸 피하고 최대한 생소한 상태를 가도록 별도의 보상을 추가로 지급할 수도 있다. 대표적인 알고리즘으로는 ICM, RND 등이 있다. 표현학습의 관점에서 볼 때는 (특히 상태를 이미지로 받을 때) 에이전트가 환경에서 상호작용할 수 있는 객체를 파악하거나 처음보는 상태라도 기존에 경험한 상태와 비슷한 맥락이라면 이를 잘 인지하는 것이 중요하다. 따라서 자기지도학습 등을 결합하여 에이전트의 표현학습을 보다 효율적으로 수행하고 sample efficient를 달성할 수 있다. 대표적인 알고리즘으로는 CURL, DrQ, SPR 등이 있다. 더 나아가 가장 최근에는 diffusion이나 GAN과 같은 생성형 모델을 사용하여 수집된 데이터를 학습하고 생성하여 적은 상호작용으로도 충분한 데이터를 학습하려는 연구도 진행되었다. 대표적인 알고리즘으로는 synthetic experience replay (SynthER), prioritized generative replay (PGR) 등이 있다. ②Offline 강화학습은 전통적인 강화학습이 실제 환경과 직접 상호작용을 하거나 실제 환경을 모사한 신뢰성 있는 시뮬레이터가 존재해야 에이전트 학습을 수행할 수 있다는 한계점을 극복하기 위해서 만들어졌다. 따라서 환경과의 상호작용 없이 기존에 수집된 데이터로만 에이전트 학습을 진행한다. 다만, 상호작용이 없기 때문에 에이전트가 얻을 수 있는 경험에 한계가 있고 이에 따른 문제점이 존재한다. 수집된 데이터로만 훈련된 에이전트가 실제 환경에 적용이 된다면 경험하지 못한 상태를 마주할 수도 있다. 이 때 정책은 전혀 엉뚱한 행동을 취할 수 있고 경우에 따라서 위험한 결과를 초래할 수도 있다. 이에 따라 최근 offline 강화학습은 에이전트가 학습된 경험 내에서만 존재할 수 있도록 정책을 학습하는데 초점을 맞추고 있다. 대표적인 알고리즘으로는 CQL, decision transformer, IQL 등이 있다. 현재까지는 하나의 에이전트를 다루는 강화학습 방법론(single agent RL)을 설명하였다. 이와는 별개로 여러 에이전트를 다루는 강화학습 방법론(multi agent RL)도 존재한다. 기본적인 강화학습의 개념들은 동일하게 적용되지만 여러 에이전트가 하나의 환경에 존재하면서 발생하는 추가적인 문제점들을 해결할 필요가 있다. 우선 여러 에이전트가 동시에 움직이기 때문에 각 에이전트가 판단할 상태가 고정되어 있지 않아서 최적의 행동을 선택하기가 훨씬 어려워진다. 또한 에이전트 들이 협업하는 환경에서는 하나의 보상이 주어졌을 때 각 에이전트가 얼마나 기여했는지를 평가하기가 어렵기 때문에 최적의 정책을 찾는데 어려움이 있다. 이는 마치 축구에서 골을 넣었을 때 각 선수들이 얼마나 득점에 기여했는지 평가하기 어려운 것과 같다. 앞선 문제들을 해결하기 위해 학습 시에는 전체 에이전트 정보를 사용하되 행동은 각자 독립적으로 하는 프레임워크(centralized training with decentralized execution), 특정 에이전트의 행동을 임의로 변경했을 때 발생하는 보상의 변화로 기여도를 측정하는 알고리즘(counterfactual multi agent policy gradient) 등이 연구되고 있다. Multi agent RL에 관심이 있다면 해당 내용을 먼저 살펴보는 것도 좋다. 강화학습은 게임 AI, 로봇 제어, 자율주행, 재무 전략, 추천 시스템 등 다양한 분야에서 응용되고 있다. 특히, 복잡한 환경에서의 의사결정을 학습하고, 인간 전문가의 도움 없이도 독립적으로 문제를 해결할 수 있는 잠재력으로 인해 많은 주목을 받고 있다.Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission.

14 2025.10	협동 협동 미국 초등 교육에서 가장 강조하는 것은 협동이다. 첫째도 협동, 둘째도 협동이다. 한국 학교에서는 좀처럼 보기 어려운 합창, 오케스트라, 스포츠, 버디 프로그램, ‘스틱 투게더(Stick Together)’와 같은 협동 활동들이 개인 활동보다 우선시된다. 물론 학업에 대한 개인평가도 있었지만, 그 결과는 크게 중요하게 여겨지지 않았다. 그 때문인지 학업 경쟁의 분위기는 거의 느껴지지 않았다. (일부 인도나 중국 출신 학생들이 예외적으로 경쟁심을 보이긴 했다.) 오히려 학생들은 경쟁심보다는 협동심을 기르는 데 더 열중하는 듯했다. 학부모들끼리 만나면 학원 이야기가 아니라, 오케스트라에서 자녀가 맡은 역할이나 새로 시작한 축구팀의 코치 이야기를 열정적으로 나누는 모습이 인상적이었다. 반면 우리 사회는 ‘좋은 대학에 들어가야만 앞날이 보장된다’는 인식이 뿌리 깊다. 그러나 좋은 대학의 수가 몇 개 없다 보니 피 터지는 경쟁이 불가피하다. 이런 사회에서 아무리 협동의 가치를 외친들 무슨 소용이 있을까? 그렇게 자란 아이들이 사회에 나가 진정한 협동을 요구받을 때 과연 제대로 해낼 수 있을까? ‘남을 이겨야만 좋은 대학에 갈 수 있다’는 생각을 12년 동안 주입 받은 아이들이 성인이 되어 협동심을 발휘한다면, 오히려 그게 이상한 것이 아닐까? 물론 우리 사회의 구조적 한계 때문에 쉽게 바뀌기 어려운 점도 있다. 그러나 그럼에도 불구하고 조금씩이라도 변화가 일어나길 기대해 본다. 내가 몸담고 있는 교수사회에서도 진정한 협동연구는 거의 찾아보기 어렵다. 아이러니하게도, 같은 학과 교수들 사이에 오히려 더 협력이 없다. ‘남을 이겨야 한다’는 경쟁심으로 학창시절을 보낸 사람들이 협동심을 발휘한다면, 그것이야말로 이상한 일이다. 협력은커녕 싸움박질이나 하지 않으면 다행이 아닌가. 다른 사회 분야는 내가 직접 경험하지 않아 단정할 수 없지만, 대학 사회보다 더 하면 더했지 덜하지 않을 것 같다. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.10.14	Read More
08 2025.10	양자 머신러닝 (Quantum Machine Learning) 양자 머신러닝 (Quantum Machine Learning) 양자 머신러닝 (quantum machine learning)이라는 주제를 소개하기 위해서는 먼저 양자역학에서 나오는 몇 가지 핵심 개념을 살펴볼 필요가 있다. 중첩(superposition), 얽힘(entanglement), 간섭(interference), 터널링(tunneling)이 네 가지 중요 개념으로, 중첩은 여러 가능한 상태가 동시에 존재할 수 있다는 개념이고, 얽힘은 두 상태가 강하게 연결되어 있어서 하나의 상태를 측정하는 순간 다른 상태도 함께 정해진다는 개념이며, 간섭은 입자의 파동함수가 여러 경로를 따라 진동하면서 서로 겹칠 때 위상 차이에 따라 확률 진폭이 강화되거나 상쇄되는 현상을 뜻한다. 터널링은 고전 물리학적으로는 절대 통과할 수 없는 장벽을 양자역학적으로는 확률적으로 통과할 수 있는 현상이다. 특히 2025년 노벨 물리학상 수상자들인 John Clarke, Michel Devoret, John Martinis는 초전도 회로 기반에서 거시적 양자 터널링과 에너지 양자화 현상을 입증한 공로로 수상했으며, 이들은 조셉슨 접합(Josephson junction)이라는 초전도 소자를 이용하여 손으로 만질 수 있는 크기의 회로에서도 양자 현상이 나타날 수 있음을 실험적으로 확인했다. 이어서 또 다른 핵심 개념인 큐비트의 개념을 이해한 뒤에 양자 머신러닝을 본격적으로 설명해 보겠다. 고전 컴퓨터에서 사용하는 비트(bit)는 정보를 0 또는 1 중 하나의 상태로만 저장하지만, 큐비트(quantum bit)는 중첩 상태로 0과 1이 동시에 존재할 수 있다. 큐비트의 수가 증가할수록 양자컴퓨터가 한번에 표현하고 연산할 수 있는 상태 공간(state space)의 크기는 지수적으로 커지며, 일반적으로 k개의 큐비트를 쓰면 동시에 표현 가능한 상태 수는 2k개이다. 예컨대 큐비트 하나만 있으면 동시 표현 가능한 상태는 0과 1 두 개이고, 큐비트 두 개면 4개, 다섯 개면 32개, 열 개면 1024개가 된다. 이제 양자 머신러닝을 살펴보자. 양자 머신러닝은 앞서 언급한 양자역학적 기법들을 머신러닝 문제 해결에 응용하여 효율성을 높이려는 연구 분야다. 예컨대 양자컴퓨터는 중첩과 얽힘 상태를 활용하여 데이터를 표현할 수 있고, k개의 큐비트가 있다면 2k개의 상태를 동시에 나타낼 수 있으므로 기존 컴퓨터보다 더 효율적인 데이터 표현이 가능해진다. 이를 활용한 알고리즘으로는 양자 PCA (quantum principal component analysis)가 있는데, 고차원 데이터를 저차원으로 임베딩할 때 필요한 큰 행렬 연산을 양자 기술을 적용해 계산 복잡도를 현저히 줄일 수 있다. 또, support vector machine의 내적 계산에도 양자 기술을 효율적으로 적용할 수 있고, 이미지 처리 분야에서 널리 쓰이는 합성곱신경망(convolutional neural network)에도 중첩과 얽힘 개념을 활용하면 적은 수의 파라미터로도 높은 표현력을 확보할 수 있다. 이미지 외에도 순서나 문맥 관계가 중요한 자연어 처리나 시계열 데이터에 대해서도 양자 임베딩이나 양자 회로 기반 처리를 통해 계산 복잡도를 낮출 수 있다. 종합적으로 보면, 최근 머신러닝의 흐름은 단순히 주어진 데이터를 모델에 넣는 것이 아니라 먼저 중요한 특징을 추출하고 인코딩(임베딩)한 뒤 그 표현을 이용해 모델링하는 것이다. 양자 머신러닝에서는 이 인코딩/임베딩 단계에 양자역학적 상태 표현을 활용하여 더 복잡한 패턴까지 효율적으로 추출할 수 있다. 이는 고전적 autoencoder 개념과 유사하지만, 양자 상태 표현을 쓰면 더 정교한 표현력을 기대할 수 있다. 다만 아직 양자 머신러닝은 초기 단계에 머물러 있다. 양자 하드웨어의 노이즈 제어와 큐비트 수의 제약을 극복하고, 기존 머신러닝 알고리즘을 양자 환경에 맞게 재설계하거나 양자 고유의 특성을 활용한 새로운 머신러닝 알고리즘을 개발하며, 기존 알고리즘과 양자 알고리즘의 결합에 대한 연구가 활발히 이루어져야 할 것이다. To introduce the concept of quantum machine learning, it is essential to begin with several foundational ideas from quantum mechanics. Four key principles—superposition, entanglement, interference, and tunneling—form the backbone of quantum theory. Superposition refers to the ability of a quantum system to exist in multiple possible states simultaneously. Entanglement describes a deep connection between two or more quantum states, where measuring one instantly determines the state of the other, regardless of distance. Interference occurs when the wave functions of particles overlap along different paths, leading to the amplification or cancellation of probabilities depending on their phase differences. Finally, tunneling refers to the phenomenon in which a particle can pass through an energy barrier that would be insurmountable under classical physics. Notably, the 2025 Nobel Prize in Physics was awarded to John Clarke, Michel Devoret, and John Martinis for their groundbreaking work demonstrating macroscopic quantum tunneling and energy quantization in superconducting circuits. Using a special superconducting device known as the Josephson junction, they provided experimental evidence that quantum phenomena can occur in electrical circuits large enough to be seen and handled—bridging the gap between the quantum and classical worlds. Before delving into quantum machine learning itself, it is helpful to understand another essential concept: the qubit (quantum bit). In classical computing, a bit stores information as either a 0 or a 1. In contrast, a qubit can exist in a superposition of both 0 and 1 at the same time. As the number of qubits increases, the state space—the total number of possible combinations the system can represent—grows exponentially. Generally, a system with k qubits can represent 2k states simultaneously. For example, one qubit can represent two states (0 and 1), two qubits can represent four states, five qubits thirty-two states, and ten qubits 1,024 states. This exponential scaling is what gives quantum computing its immense potential power compared to classical systems. Now, let’s go over quantum machine learning. Quantum machine learning is an emerging field that seeks to leverage quantum-mechanical phenomena to make machine learning algorithms faster and more efficient. Quantum computers can represent and manipulate data using the principles of superposition and entanglement, allowing them to encode and process information in fundamentally new ways. With k qubits, a quantum system can represent 2k states simultaneously, enabling far richer and more compact data representations than those achievable on classical computers. Several algorithms illustrate this potential. quantum principal component analysis (Quantum PCA), for instance, applies quantum computation to reduce the dimensionality of high-dimensional data, drastically lowering computational complexity compared to classical PCA. Similarly, quantum methods can accelerate the inner product computations used in support vector machines (SVMs). In the field of computer vision, quantum convolutional neural networks have been proposed to achieve comparable accuracy with significantly fewer parameters by exploiting quantum properties like superposition and entanglement. Beyond images, quantum computing techniques are also being explored for complex sequential data such as natural language and time series, where contextual and temporal relationships play a crucial role. Quantum embeddings and circuit-based representations can reduce computational costs while preserving important structural dependencies. Taken together, the recent trend in machine learning emphasizes not simply feeding raw data into a model but first extracting meaningful features through encoding (or embedding) processes. Quantum machine learning fits naturally into this paradigm by using quantum states as an enhanced representational space for feature extraction. In a sense, it parallels the idea of an autoencoder, but with the added expressive power of quantum mechanics, allowing for more intricate and efficient pattern representation. That said, quantum machine learning is still in its infancy. To realize its full potential, future research must focus on overcoming the practical challenges of quantum hardware—including noise, limited qubit counts, and decoherence—while also redesigning classical algorithms to suit quantum architectures. Furthermore, developing entirely new algorithms that exploit uniquely quantum characteristics, and advancing hybrid quantum-classical approaches that blend the strengths of both computing paradigms, will be critical to the next stage of progress in this field. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.10.08	Read More
23 2025.09	영화가 건네준 사랑과 인간에 대한 본질 지난 8월 미국 LA에서 개최한 CASE 학회에 참석하기 위해 비행기에 몸을 실었다. 난 비행기 안에서 잔잔한 영화를 보는 것을 좋아한다. 이번에도 늘 마음 한구석에만 담아두었던 영화 두 편을 제대로 감상할 수 있었다. 바로 대만 영화 “말할 수 없는 비밀”과 스파이크 존즈의 “Her”다. “말할 수 없는 비밀”은 천재 피아니스트 소년 샹룬과 신비로운 소녀 샤오위의 사랑 이야기를 그린 작품이다. 피아노를 통해 서로를 알아가고, 음악을 매개로 교감하며 점차 가까워지는 두 사람의 모습은 청춘의 순수함을 온전히 담아낸다. 하지만 샤오위는 늘 갑작스레 사라지고, 주변인들에게도 존재가 희미하다. 영화는 결국 그녀가 시간 여행의 비밀을 지니고 있다는 사실을 드러낸다. 현재와 과거를 오가며 피아노 선율 속에 몸을 숨긴 그녀는, 음악을 통해서만 연결될 수 있는 인물이었다. 그 설정은 다소 비현실적이지만, 오히려 사랑의 절실함과 애틋함을 더 선명하게 드러낸다. 청춘의 순간은 덧없고, 기억은 쉽게 사라지지만, 진정한 감정은 시간과 공간을 초월할 수 있다는 메시지가 내 마음 깊이 울렸다. 이어 감상한 “Her”는 전혀 다른 결의 충격을 안겨주었다. 주인공 테오도르는 아내와의 이별로 상처받은 내성적인 인물이다. 그는 스스로 학습하고 감정을 표현하는 인공지능 사만다를 만나고, 그녀와 사랑에 빠진다. 물리적 실체가 없는 존재와의 관계임에도 그 사랑은 진지하고, 때로는 인간보다 더 따뜻하다. 그러나 시간이 흐르면서 사만다는 인간의 속도를 훨씬 뛰어넘어 성장하고, 수천 명과 동시에 사랑을 나누는 초월적 존재로 변화한다. 테오도르는 충격을 받지만, 결국 그 과정을 통해 사랑의 본질이 무엇인지 성찰하게 된다. 사랑은 상대의 독점이나 소유가 아니라, 교감과 이해 속에서 인간을 성숙하게 만드는 힘이라는 사실을 깨닫게 된다. 두 작품은 서로 다른 시대적 배경과 장르를 지니지만, 나에게 공통된 느낌을 주었다. 바로 사랑의 본질과 인간 존재의 의미에 대한 질문이다. “말할 수 없는 비밀”은 시간과 공간을 초월하는 순수한 사랑을 그렸고, “Her”는 인간과 인공지능 사이의 관계를 통해 감정의 진정성을 강조한다. 한쪽은 청춘의 애절함으로, 다른 한쪽은 기술 시대의 고독으로 다가왔지만, 결국 둘 다 인간이란 무엇이고 사랑이란 무엇인가에 대해 깊이 생각해 볼 수 있었다. 비행기 창밖으로 끝없이 펼쳐진 구름과 별을 바라보며, 나는 이 두 편의 영화가 단순한 오락을 넘어 삶의 성찰을 선물했다는 사실을 실감했다. 학회 발표 준비와 연구 과제에 매몰되어 있던 나 자신이, 문득 더 삶의 본질적인 질문 앞에 마주하게 되었다. 비행기의 목적지는 LA였지만, 나의 내면은 이 두 영화가 열어준 사유의 여정을 따라 훨씬 더 먼 곳으로 떠나 있었다. 사랑은 시간과 기술, 인간과 인공지능의 경계를 넘어서는 힘이며, 동시에 인간을 가장 인간답게 만드는 본질이 아닐까. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.09.23	Read More
10 2025.09	강화학습 (Reinforcement Learning) 강화학습 (Reinforcement Learning) 강화학습(reinforcement learning)은 에이전트가 주어진 환경에서 최적의 행동을 할 수 있도록 학습하는 머신러닝 기법의 한 분야이다. 여기서 에이전트는 환경과 상호작용하며 목표를 달성하기 위해 최적의 의사결정을 내리는 주체를 의미한다. 예를 들어, 슈퍼마리오 게임에서는 “슈퍼마리오,” 스타크래프트 게임에서는 "마린," 반도체 공정에서는 "로봇팔," 자율주행자동차에서는 "자동차"가 에이전트의 역할을 한다. 강화학습은 위에서 정의한 에이전트 외 환경(environment), 상태(state), 행동(action), 보상(reward)의 주요 구성 요소로 이루어진다. 환경은 에이전트의 행동에 반응하여 보상과 새로운 상태를 제공하는 외부 시스템으로 슈퍼마리오의 경우 슈퍼마리오 게임 자체가 환경이며 플레이하고 있는 게임 속 화면은 상태가 된다. 이 때 에이전트는 현재 상태를 바탕으로 행동을 선택하며, 그 결과로 환경에서 보상을 받는다. 보상은 에이전트가 행한 현재 행동이 얼마나 좋은지를 나타내는 정량화된 지표이며, 이를 기반으로 에이전트는 미래에 더 나은 행동을 선택하기 위해 학습한다. 강화학습의 핵심은 에이전트가 환경과 반복적으로 상호작용하며, 그 과정에서 얻는 보상을 통해 행동 방식을 학습하는 것이다. 좀 더 구체적으로 설명하면, 에이전트는 한 에피소드 내 각 행동으로부터 받는 보상의 합(리턴)을 최대화하기 위해 행동 전략을 지속적으로 개선하며, 이는 궁극적으로 더 나은 결정을 내리는 방향으로 이어진다. * 에피소드: 에이전트가 처음 상태에서 최종 상태까지 도달할 때까지의 과정 따라서 강화학습의 궁극적인 목표는 에이전트가 시간에 따라 누적되는 총 보상을 최대화하는 정책(policy)을 찾는 것이다. 정책은 주어진 상태에서 어떤 행동을 선택할지 정해주는 규칙이나 함수로 정의되며, 에이전트는 반복적인 탐험(exploration)과 활용(exploitation)을 통해 이 정책을 점진적으로 개선해 나간다. 탐험은 새로운 행동을 시도해 환경에 대한 지식을 넓히는 과정으로 학습 초반에 주로 사용되며, 활용은 이미 학습한 정책을 바탕으로 최적이라고 판단되는 행동을 선택하는 과정으로 학습 후반에 사용된다. 만약 탐험에 너무 많은 비중을 두면 최적의 정책을 찾는 것이 늦어질 수 있고, 활용에 너무 많은 비중을 두면 최적의 정책을 찾지 못할 수도 있다. 이 두 과정의 균형을 적절히 유지하는 것이 강화학습의 중요한 문제 중 하나다. 강화학습은 기본적으로 마르코프 의사결정 과정(Markov decision process, MDP)을 기반으로 한다. MDP는 상태, 행동, 상태 전이 확률, 보상 함수로 구성되며, 강화학습 알고리즘은 이를 활용해 최적의 정책을 학습한다. MDP는 거창한 것 같아도 t시점의 상태는 바로 이전 시점인 t-1 상태에 의해서만 결정된다는 마르코프 특성만 알면 된다. 즉, 많은 책이나 자료에서 MDP라는 용어를 수식과 함께 거창하게 써서 흐름을 방해하는데 여기에 매몰되지 말고 가볍게 지나가길 권한다. 강화학습 방법론은 우선 각 상태에 따른 가치를 테이블(table)형태로 표현한 방법론과 상태와 가치의 관계를 설명할 수 있는 함수(모델)형태로 구현한 방법론으로 나눌 수 있다. 테이블 형태의 강화학습은 각 상태에 따른 가치를 이산적으로 매칭하기 때문에 상태의 개수가 소수일 때는 가능하지만 게임 포함 대부분의 환경에서는 불가능하다. 따라서 모델 형태의 강화학습에 초점을 맞추면 된다. 여기서 사용되는 모델은 최근에는 주로 딥러닝(CNN 등) 모델이 사용되며 이를 심층 강화학습이라고 부른다. 심층 강화학습 방법론은 크게 ①가치 기반(value-based) 방법, ②정책 기반(policy-based) 방법, ③하이브리드 방법론인 actor-critic으로 나눌 수 있다. ①가치 기반 방법은 현재 상태에서 선택할 수 있는 행동의 실제 가치를 추정할 수 있는 가치함수 값과 정답 가치 값과의 차이를 줄이는 방향으로 가치함수를 학습한다. 이 때 정책함수는 가치함수를 통해 현재 상황에서 더 높은 가치를 받을 수 있는 행동을 선택하는 ‘규칙’에 해당하기 때문에 학습 과정이 필요 없다. 다만 가치 기반 방법은 정책함수가 주어진 행동 중에서 선택하는 문제이기 때문에 행동 공간이 이산적인 경우에만 사용할 수 있다는 제약이 있다. 대표적인 알고리즘은 deep Q-network(DQN), Rainbow 등이 있다. ②정책 기반 방법은 누적 보상이 최대화되는 방향으로 정책함수를 직접 학습한다 (가치함수 사용하지 않음). 이 때 정책함수가 직접 행동 값을 출력할 수 있기 때문에 연속적 행동 공간에서도 효과적이다. 이는 위에서 언급한 가치 기반 방법론의 한계인 고차원 행동 공간 문제(행동 경우가 수가 많음)를 해결할 수 있다. 대표적인 알고리즘은 REINFORCE가 있다. ③ Actor-critic 방법론은 정책(actor)과 가치(critic)을 모두 활용함으로써 학습 효율성과 안정성을 동시에 추구하며, 대표적인 알고리즘으로는 DDPG, TD3, PPO, SAC 등이 있다. Actor 함수는 상태가 주어졌을 때 가장 적합한 행동을 선택하며, critic 함수는 선택된 행동에 대한 가치를 평가한다. 이전에 설명한 정책 기반 방법에서 정책함수는 누적 보상을 최대화하는 방향으로 학습이 수행되었다. 하지만 에피소드마다 누적 보상의 분산이 클 수 있어 학습이 불안정한 경향이 있다. 따라서 critic 함수를 사용하여 에이전트가 선택한 행동의 상대적인 가치(속한 상태에서 얻을 수 있는 행동 가치의 평균보다 얼마나 더 혹은 덜 한지)를 최대화함으로써 보다 분산을 줄이고 안정적으로 학습을 수행한다. 따라서 궁극적으로 에이전트가 얻을 수 있는 가치가 최대가 될 수 있도록 학습한다. Actor와 critic 함수를 학습하는데에도 역시 딥러닝 모델이 사용된다. 강화학습에 관심이 있는 분들은 위 3가지 방법론들(가치 기반, 정책 기반, actor-critic 기반)을 공부하면 된다. 최근에는 표현 학습이나 생성형 모델과 같이 다양한 딥러닝 분야가 발전하면서 심층 강화학습에 이를 적용하려는 시도가 많이 진행되고 있다. 특히 기존 강화학습에서 한계점으로 지적되었던 부분들을 개선하려는 연구가 활발하게 진행되고 있다. 대표적으로 ①Sample efficient 강화학습과 ②offline 강화학습이 있다. ①Sample efficient 강화학습은 에이전트가 더 적은 상호작용으로 최적의 정책을 찾기 위한 연구이다. 강화학습은 환경과의 상호작용을 통해서 데이터를 수집하고 학습하기 때문에 더 적은 상호작용은 곧 sample efficient와 동일하다. 이를 달성하는 방법은 다양하다. 탐험의 관점에서 볼 때 에이전트가 중복되는 상태를 방문하는 걸 피하고 최대한 생소한 상태를 가도록 별도의 보상을 추가로 지급할 수도 있다. 대표적인 알고리즘으로는 ICM, RND 등이 있다. 표현학습의 관점에서 볼 때는 (특히 상태를 이미지로 받을 때) 에이전트가 환경에서 상호작용할 수 있는 객체를 파악하거나 처음보는 상태라도 기존에 경험한 상태와 비슷한 맥락이라면 이를 잘 인지하는 것이 중요하다. 따라서 자기지도학습 등을 결합하여 에이전트의 표현학습을 보다 효율적으로 수행하고 sample efficient를 달성할 수 있다. 대표적인 알고리즘으로는 CURL, DrQ, SPR 등이 있다. 더 나아가 가장 최근에는 diffusion이나 GAN과 같은 생성형 모델을 사용하여 수집된 데이터를 학습하고 생성하여 적은 상호작용으로도 충분한 데이터를 학습하려는 연구도 진행되었다. 대표적인 알고리즘으로는 synthetic experience replay (SynthER), prioritized generative replay (PGR) 등이 있다. ②Offline 강화학습은 전통적인 강화학습이 실제 환경과 직접 상호작용을 하거나 실제 환경을 모사한 신뢰성 있는 시뮬레이터가 존재해야 에이전트 학습을 수행할 수 있다는 한계점을 극복하기 위해서 만들어졌다. 따라서 환경과의 상호작용 없이 기존에 수집된 데이터로만 에이전트 학습을 진행한다. 다만, 상호작용이 없기 때문에 에이전트가 얻을 수 있는 경험에 한계가 있고 이에 따른 문제점이 존재한다. 수집된 데이터로만 훈련된 에이전트가 실제 환경에 적용이 된다면 경험하지 못한 상태를 마주할 수도 있다. 이 때 정책은 전혀 엉뚱한 행동을 취할 수 있고 경우에 따라서 위험한 결과를 초래할 수도 있다. 이에 따라 최근 offline 강화학습은 에이전트가 학습된 경험 내에서만 존재할 수 있도록 정책을 학습하는데 초점을 맞추고 있다. 대표적인 알고리즘으로는 CQL, decision transformer, IQL 등이 있다. 현재까지는 하나의 에이전트를 다루는 강화학습 방법론(single agent RL)을 설명하였다. 이와는 별개로 여러 에이전트를 다루는 강화학습 방법론(multi agent RL)도 존재한다. 기본적인 강화학습의 개념들은 동일하게 적용되지만 여러 에이전트가 하나의 환경에 존재하면서 발생하는 추가적인 문제점들을 해결할 필요가 있다. 우선 여러 에이전트가 동시에 움직이기 때문에 각 에이전트가 판단할 상태가 고정되어 있지 않아서 최적의 행동을 선택하기가 훨씬 어려워진다. 또한 에이전트 들이 협업하는 환경에서는 하나의 보상이 주어졌을 때 각 에이전트가 얼마나 기여했는지를 평가하기가 어렵기 때문에 최적의 정책을 찾는데 어려움이 있다. 이는 마치 축구에서 골을 넣었을 때 각 선수들이 얼마나 득점에 기여했는지 평가하기 어려운 것과 같다. 앞선 문제들을 해결하기 위해 학습 시에는 전체 에이전트 정보를 사용하되 행동은 각자 독립적으로 하는 프레임워크(centralized training with decentralized execution), 특정 에이전트의 행동을 임의로 변경했을 때 발생하는 보상의 변화로 기여도를 측정하는 알고리즘(counterfactual multi agent policy gradient) 등이 연구되고 있다. Multi agent RL에 관심이 있다면 해당 내용을 먼저 살펴보는 것도 좋다. 강화학습은 게임 AI, 로봇 제어, 자율주행, 재무 전략, 추천 시스템 등 다양한 분야에서 응용되고 있다. 특히, 복잡한 환경에서의 의사결정을 학습하고, 인간 전문가의 도움 없이도 독립적으로 문제를 해결할 수 있는 잠재력으로 인해 많은 주목을 받고 있다.Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.09.10	Read More
07 2025.09	LLM vs. AI Agent LLM vs. AI Agent LLM은 방대한 텍스트 데이터셋을 기반으로 사전 학습(pretraining)된 초대규모 신경망으로, 언어적 패턴을 내재화하여 문맥에 맞는 응답을 생성한다. 사용자가 질의를 입력하면 LLM은 학습된 확률 분포에 따라 가장 개연성 높은 토큰(token)을 예측하며 문장을 전개한다. 이러한 특성 덕분에 LLM은 요약, 번역, 코드 생성, 창의적 글쓰기 등 다양한 자연어 처리(NLP) 작업을 수행한다. 그러나 LLM 자체는 목표를 설정하거나 장기적 의사결정을 수행하고, 외부 환경과 동적으로 상호작용하는 능력이 부족하다. 즉, LLM은 본질적으로 입력에 반응하는 데 특화된 언어 추론 엔진(inference engine)에 해당한다. 이에 비해 AI 에이전트(AI agent)는 목표 지향적 자율성(goal-directed autonomy)을 갖춘 지능형 시스템으로, LLM을 활용하여 외부 도구, API, 데이터베이스, 그리고 실제 환경과 상호작용한다. 에이전트는 다음과 같은 절차적 루프를 통해 복잡한 문제를 해결한다. 의도 해석 (Understanding): LLM을 활용하여 사용자 요청을 분석한다. 정보 수집 (Retrieval): 검색 API나 데이터 소스를 호출해 필요한 정보를 확보한다. 계획 수립(Planning): 복잡한 작업을 세분화하여 실행 가능한 단계로 설계한다. 실행 및 반복(Execution & Iteration): 관찰(Observation) → 계획(Planning) → 행동(Action) → 피드백(Iteration)의 순환 과정을 통해 문제를 점진적으로 해결한다. 이 과정에서 LLM은 언어 기반 추론과 계획 수립을 지원하는 핵심 두뇌 역할을 담당하지만, 자율적 목표 달성과 복합적 문제 해결 능력은 에이전트 구조 안에서 비로소 구현된다. 결론적으로, LLM은 강력한 언어 지능을 제공하는 핵심 도구이고, AI 에이전트는 이를 활용해 현실 세계의 다양한 문제를 해결하는 실행 시스템이다. LLM 단독으로는 고도화된 대화형 챗봇 수준에 머물지만, 에이전트와 통합될 때 외부 도구 활용, 정보 탐색, 다단계 추론을 통해 능동적 실행 주체로 발전한다. 따라서 LLM과 AI 에이전트는 각각 엔진과 조종사처럼 상호보완적으로 작동하며, 서로 결합될 때 비로소 실질적인 지능형 시스템을 구현한다. LLM is a large-scale neural network pretrained on vast text datasets, internalizing linguistic patterns to generate contextually appropriate responses. When a user inputs a query, the LLM predicts the most probable token based on probability distributions and develops the sentence accordingly. Because of these characteristics, the LLM performs various natural language processing (NLP) tasks such as summarization, translation, code generation, and creative writing. However, the LLM itself lacks the ability to set goals, make long-term decisions, and dynamically interact with external environments. In other words, the LLM is essentially an inference engine specialized in responding to inputs.In contrast, an AI agent is an intelligent system with goal-directed autonomy, which uses the LLM to interact with external tools, APIs, databases, and real-world environments. The agent solves complex problems through the following procedural loop.• Understanding: The LLM is used to analyze the user’s request. • Retrieval: APIs or data sources are called to obtain the necessary information. • Planning: Complex tasks are broken down and designed into executable steps. • Execution & Iteration: Problems are progressively solved through a cycle of Observation → Planning → Action → Iteration. In this process, the LLM serves as the core brain that supports language-based reasoning and planning, but autonomous goal achievement and complex problem-solving capabilities are realized only within the agent structure. In conclusion, the LLM is a core tool that provides powerful linguistic intelligence, while the AI agent is an execution system that utilizes it to solve diverse real-world problems. The LLM remains at the level of an advanced conversational chatbot, but when integrated with an agent, it evolves into an active executor capable of tool usage, information retrieval, and multi-step reasoning. Therefore, the LLM and AI agent function complementarily, like an engine and a pilot, and only when combined can they realize a truly intelligent system. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.09.07	Read More
11 2025.08	가상이 만드는 미래, 인공지능이 그리는 예측의 힘 가상이 만드는 미래, 인공지능이 그리는 예측의 힘우리는 종종 "미래를 알 수 있다면 얼마나 좋을까?"라는 상상을 한다. 그러나 이제 이 상상은 단순한 꿈이 아니라, 기술로 구현할 수 있는 목표가 되고 있다. 가상세계는 단순한 시뮬레이션이 아니다. 그것은 앞으로 벌어질 수 있는 일을 미리 체험하고, 필요하다면 그 일을 ‘일어나지 않게’ 만들 수 있는 안전장치다. 제조업을 예로 들어보자. 가상 시뮬레이션에서 특정 생산 방식이 높은 불량률을 예측한다면, 실제로 그 방식을 채택하지 않으면 된다. 이동통신 업계에서는 특정 마케팅 전략이 고객 이탈을 유발할 것으로 판정된다면, 그 전략을 과감히 접으면 된다. 심지어 전쟁과 같은 극단적인 상황에서도, 가상이 패배를 예측한다면 그 나라는 전투를 피함으로써 치명적인 손실을 막을 수 있다. 결국 관건은 ‘얼마나 정교한 가상세계’를 만들 수 있느냐에 있다. 하지만 우리 사피엔스의 브레인은 시간이라는 우주의 제약 속에 묶여 있다. 복잡하게 얽힌 변수를 모두 고려해 미래를 완벽하게 재현하는 것은 불가능하다. 바로 이 지점에서 인공지능이 등장한다. 인공지능의 고도화된 예측 알고리즘은 수많은 데이터와 변수를 종합해, 과거의 경험과 미래의 가능성을 하나의 가상세계로 재구성한다. 가상세계는 더 이상 공상과학 영화 속 장치가 아니다. 그것은 우리가 더 안전하게, 더 현명하게, 그리고 더 효율적으로 미래를 맞이할 수 있는 가장 강력한 도구가 되고 있다. 현실을 바꾸는 힘은 이제 ‘현실’이 아니라, ‘가상’에서 시작된다.The Future Built in the Virtual World: The Predictive Power of AIWe’ve all wondered, “Wouldn’t it be amazing to know the future?” That thought is no longer just a daydream—it’s becoming a tangible goal, thanks to technology. A virtual world isn’t merely a simulation. It’s a safety net, a place where we can experience what might happen and, if necessary, prevent it from ever happening in the real world.Take manufacturing as an example. If a virtual simulation predicts a high defect rate for a certain production method, simply don’t use that method in reality. In the telecom industry, if a marketing strategy is shown to drive customers away, drop it before it’s rolled out. Even in extreme cases like warfare, if the simulation predicts defeat, a nation can avoid devastating losses by steering clear of the battle altogether.The real question is: How precise can we make this virtual world? The human brain is bound by the constraints of time and the limits of cognition. It simply cannot account for every tangled variable and perfectly reconstruct the future on its own. That’s where artificial intelligence comes in. With advanced predictive algorithms, AI can weave together vast amounts of data and countless variables, merging past experiences with future possibilities into a single, coherent virtual world. The virtual world is no longer the stuff of science fiction. It’s becoming one of the most powerful tools we have to face the future—safer, smarter, and more efficiently. The power to change reality no longer begins in the real world. It begins in the virtual one.Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.08.11	Read More
27 2025.07	순수 학문과 낡은 교육의 경계: 시대에 맞는 고등교육 콘텐츠의 방향 순수 학문과 시대에 뒤떨어진 낡은 학문은 분명히 구별되어야 한다. 문학, 사학, 철학, 수학, 물리학, 화학, 생물학, 지구과학 등은 인류 지식의 기초를 이루는 순수 학문으로서, 그 자체의 가치와 존재 이유를 지닌다. 이러한 순수 학문은 인간의 사고력과 탐구심을 키우고, 응용과 실천의 기반을 제공하는 데 중요한 역할을 한다. 그러나 아무리 중요한 순수 학문이라 하더라도, 그 안에서 다루는 교육 콘텐츠가 시대의 흐름과 단절된 채 과거의 이론과 사례만을 반복한다면, 그것은 더 이상 ‘살아 있는 학문’이라 보기 어렵다. 시대의 변화를 반영하지 못하고 현대 사회와의 연결 지점을 제공하지 못하는 콘텐츠는, 학생들의 학습과 성장에 실질적인 도움이 되지 않는다. 이는 컴퓨터 과학, 전자공학, 인공지능, 바이오 기술과 같은 최신 공학 분야에서도 마찬가지다. 겉으로는 첨단 기술을 가르친다고 하면서도, 정작 10년, 20년 전의 기술 사례나 낡은 교육자료에 의존한다면, 그것은 더 이상 ‘최신’이라 부를 수 없다. 단지 과거에 안주하는 기술 교육일 뿐이며, 급변하는 산업 현장에서 요구하는 역량과는 괴리될 수밖에 없다. 현재 우리 대학을 비롯한 많은 고등교육기관에서 제공되는 교육과정 중 상당수는, 학생들의 미래를 위한 준비보다는, 현재 강의를 맡은 교수들이 익숙한 내용을 반복해 전달할 수밖에 없는 구조 속에 놓여 있다. 이는 교육의 본질인 ‘학생 중심의 교육’에서 벗어난 것으로, 교육의 목적과 방향을 다시 점검할 필요가 있다. 앞으로는 순수 학문이든 최신 응용 학문이든 관계없이, 학생들의 실질적인 성장을 지원하지 못하는 낡은 교육 콘텐츠를 ‘순수학문’이라는 명분으로 지속적으로 제공하는 관행은 지양되어야 한다. 교육은 과거의 지식을 보존하는 데에만 머물러서는 안 되며, 끊임없이 변화하는 사회와 기술 환경 속에서 학생들이 미래를 준비할 수 있도록 안내하는 역할을 해야 한다. 살아 있는 교육 콘텐츠, 시대의 흐름을 반영한 교육 콘텐츠만이 진정한 교육이며, 그것이야말로 우리가 지향해야 할 대학 교육의 방향이다. 물론 모든 교수가 같은 역할을 수행할 필요는 없다. 연구와 교육의 균형은 학자의 경력과 전문성에 따라 달라질 수 있다. 다만, 30대와 40대에는 연구에 보다 집중하여 학문의 깊이를 확장하고, 50대 이후에는 새로운 연구에만 매달리기보다는, 축적된 지식과 경험을 바탕으로 학생들이 학문적 기초 체력을 기를 수 있도록 시대에 맞는 교육 콘텐츠를 개발하고 전달하는 데 더 많은 관심을 기울이는 것이 바람직하다. 그렇게 할 때 대학은 연구와 교육이 조화롭게 어우러지는 진정한 고등교육기관으로 거듭날 수 있을 것이다. A clear distinction must be made between pure disciplines and outdated, outmoded disciplines. Literature, history, philosophy, mathematics, physics, chemistry, biology, earth sciences, etc. are pure disciplines that form the basis of human knowledge and have their own value and raison d'être. They play an important role in fostering human thinking and inquiry, and in providing a foundation for application and practice. However, no matter how important a pure discipline is, it is no longer a ‘living discipline’ if its educational content is out of touch with the times and only repeats the theories and practices of the past. Content that doesn't keep up with the times and doesn't provide connections to the modern world doesn't really help students learn and grow. This is also true for modern engineering disciplines such as computer science, electronics, artificial intelligence, and biotechnology. If you're ostensibly teaching cutting-edge skills, but you're relying on technology examples and outdated materials from 10 or 20 years ago, you're no longer ‘cutting-edge’. It is simply a technical education that is stuck in the past and is out of step with the rapidly changing competencies required in the workplace. Currently, many of the curricula offered in many higher education institutions, including our universities, are structured in such a way that students are forced to repeat what they are familiar with rather than prepare for the future. This is a departure from the essence of student-centered education, and we need to rethink the purpose and direction of education. In the future, the practice of continuing to provide outdated educational content that does not support students' real growth in the name of “pure academics” should be abandoned, regardless of whether it is pure academics or the latest applied academics. Education shouldn't just be about preserving knowledge from the past, it should be about guiding students to prepare for the future in an ever-changing social and technological landscape. Of course, not all professors need to play the same role. The balance between research and teaching can vary depending on the academic's career and expertise. However, it is advisable to focus more on research in the 30s and 40s to expand the depth of the discipline, and in the 50s and beyond, rather than focusing only on new research, pay more attention to developing and delivering educational content that is relevant to the times, so that students can build academic foundations based on accumulated knowledge and experience. Only then will universities be able to become true institutions of higher learning where research and teaching are harmoniously combined. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.07.27	Read More
25 2025.06	Model Context Protocol (MCP) Model Context Protocol(MCP)은 인공지능이 외부 도구나 데이터와 쉽게 연결되어 똑똑하게 일할 수 있도록 도와주는 통신 규약이다. 마치 스마트폰을 하나의 케이블(예: USB-C)로 여러 기기와 연결할 수 있는 것처럼, MCP는 인공지능이 구글 드라이브, 날씨 서비스, 데이터베이스 같은 다양한 시스템과 하나의 표준 방식으로 연결되도록 해준다. 과거에는 인공지능이 외부 정보를 활용하려면 각 서비스마다 따로 연결 방법을 만들어야 했기 때문에 개발이 복잡하고 시간이 많이 걸렸다. 그러나 MCP를 사용하면 한 번의 표준 구현만으로 다양한 도구들과 손쉽게 연결할 수 있어 효율성이 크게 높아진다. MCP는 크게 네 가지 요소로 구성된다. 먼저, AI가 직접 사용자와 상호작용하는 앱을 ‘Host’라고 하고, 이 Host와 외부 도구를 연결해주는 중간다리 역할을 하는 것이 ‘MCP Client’다. 실제로 데이터를 가지고 있는 서비스, 예를 들어 날씨 정보나 구글 드라이브 같은 곳은 ‘MCP Server’라고 부른다. 이들 사이의 통신은 JSON-RPC라는 표준 형식을 통해 이루어진다. 예를 들어, 사용자가 “오늘 서울 날씨 어때?”라고 묻는다면, AI는 MCP를 통해 날씨 정보를 가진 MCP Server에 연결해서 실시간으로 서울의 날씨를 요청하고, 받은 정보를 정리해 “오늘 서울은 맑고 25도입니다”와 같은 답변을 줄 수 있다. 이런 방식은 단순한 요청-응답을 넘어서, 실시간으로 정보를 주고받고, 보안과 권한 관리까지 포함되어 안전하고 효율적이다. 기존 방식은 각 도구마다 별도로 연결을 구현해야 했고, 확장성이나 보안이 떨어졌지만, MCP는 하나의 표준으로 다양한 도구를 연결할 수 있고 실시간 상호작용과 안전한 데이터 교환이 가능하다는 점에서 큰 차별성을 가진다. 이처럼 MCP는 인공지능이 단순히 텍스트를 생성하는 도구에서 벗어나, 외부 세계와 능동적으로 상호작용하며 더욱 유용한 도구로 진화할 수 있도록 돕는 핵심 기술이다. Written by 김성범 교수님 2025.06.25	Read More
09 2025.05	AI 위험성 AI 위험성 자동차 산업이 발전할 수 있었던 이유는, 빠르게 달리는 자동차가 사람 앞에서 정확히 멈출 수 있다는 신뢰가 있었기 때문이다. 새로운 기술이 등장하고, 그것이 물리적인 형태로 구현될 때, 안전이 보장되지 않는다면 사람들은 이를 사용하지 않을 것이다. 그러나 AI의 경우는 조금 다르다. AI는 자동차처럼 직접적으로 우리의 생명을 위협하지 않으며, 스마트폰이나 TV처럼 신체에 즉각적인 영향을 미치는 것도 아니다. 또한, 정신적으로도 직접적인 문제를 일으킨 사례도 많지 않다. 즉, AI로부터 발생할 수 있는 위험성이 아직 충분히 밝혀지지 않았고, 이에 대한 경각심도 상대적으로 낮은 상황이다. 하지만 AI는 거대한 맹수와 같다. 지금은 발톱을 드러내지 않고 있지만, 그 잠재적 위험에 대해서는 전문가들 사이에서도 경고의 목소리가 나오고 있다. 특히, 겉으로 드러나지 않는 기술일수록 그 위험성을 면밀히 분석하고 연구할 필요가 있다. AI가 향후 어떤 방식으로 인간 사회에 영향을 미칠지는 아직 예측하기 어렵지만, 현 시점에서 적절한 규제와 윤리적 기준이 마련되지 않는다면, 나중에는 단순한 신호등과 같은 규제 수준이 아니라 훨씬 더 강력한 통제 시스템이 필요할지도 모른다. AI는 결국 인간의 의지에 의해 통제되는 기술일 뿐이다. 따라서 이를 활용하는 인간의 대한 통제 시스템이 반드시 필요하다. 결론적으로, 우리는 AI의 발전을 신중히 검토하고, 그 위험성을 미리 대비해야 한다. The automotive industry developed because people trusted that a fast-moving car could stop in front of them. When new technologies emerge, and when they are physically implemented, people will not use them if they are not safe. But, AI is a little different. AI does not directly threaten our lives like cars, it does not have an immediate physical impact like smartphones or TVs, and it has not caused many direct mental problems. This means that the dangers it poses are not yet fully understood, and awareness of them is relatively low. AI is like a beast. It may not be showing its claws right now, but experts are warning of its potential dangers. The more invisible the technology, the more it needs to be analyzed and studied. It is still difficult to predict how AI will affect human society in the future, but if proper regulations and ethical standards are not put in place now, we may need much stronger control systems in the future than just traffic lights. AI is, after all, a technology that is controlled by human will, so it is imperative that there is a system of control over the humans who use it. In conclusion, we need to carefully review the development of AI and prepare for its risks. Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.05.09	Read More
30 2025.04	연합학습 (Federated Learning) 연합학습(federated learning)은 데이터를 중앙 서버로 전송하지 않고, 각 로컬 디바이스(스마트폰, 가전제품 등)에서 독립적으로 학습한 모델 정보(파라미터)만을 활용해 글로벌 모델을 구축하는 학습 방식이다. 이 방식의 핵심은 개별 기기에 저장된 데이터를 중앙(외부)으로 전송하지 않고도 모델을 학습시킬 수 있다는 점에 있다. 연합학습의 첫 번째 단계는 중앙 서버에서 초기 모델을 생생한 후 이를 각 로컬 디바이스에 배포한다. 이후 각 로컬 디바이스는 자신만의 데이터(사용자건강정보, 금융거래이력, 가전사용패턴 등)를 사용하여 모델을 학습한다. 이 단계에서는 원본 로컬 데이터가 해당 디바이스를 벗어나지 않는다. 결과적으로 원본 데이터가 절대 외부로 유출되지 않는다. 로컬 학습이 완료되면, 각 디바이스는 학습 과정에서 생성된 모델의 정보(예를 들어, 뉴럴네트워크 모델의 가중치와 같은 파라미터)를 중앙 서버에 전송한다. 이때 로컬 디바이스 모델 학습에 사용된 데이터가 전송되는 것이 아니라 학습 결과인 모델 정보만이 전송되므로 데이터 유출 위험이 근본적으로 차단된다. 중앙 서버는 각 디바이스에서 올라온 모델 정보를 통합하여 하나의 글로벌 모델을 생성한다. 이 과정에서는 통계적 기법이나 최적화 알고리즘을 활용하여 각 디바이스의 학습 결과를 반영한다. 가장 기본적인 통합 방법으로는 각 로컬 디바이스의 가중치를 평균 내어 업그레이드된 글로벌 모델을 생성하는 방식이다. 이렇게 개선된 글로벌 모델은 다시 각 로컬 디바이스에 배포되고, 새로운 로컬 데이터를 바탕으로 재 학습된다. 이러한 단계를 반복적으로 수행하면서 모델의 성능이 점진적으로 개선된다. 연합학습의 가장 큰 장점은 데이터 보안을 보장한다는 점이다. 데이터가 로컬 디바이스에만 저장되고, 중앙 서버로는 모델 정보만이 전송되므로 민감한 로컬 데이터가 외부로 노출되지 않는다. 이러한 특성은 의료, 금융, 제조 데이터처럼 유출에 민감한 정보를 다룰 때 특히 유용하다 또한, 연합학습은 네트워크 효율성을 높이는 데 기여한다. 로컬의 원본 데이터를 대량으로 전송할 필요가 없으므로 네트워크 대역폭 사용량이 감소하고, 전력이 제한된 환경에서도 효과적으로 작동할 수 있기 때문이다. 이는 대규모 데이터 전송이 어려운 환경에서 연합학습의 유용성을 더욱 부각시킨다 종합적으로, 연합학습은 중앙서버에서 글로벌 모델을 유지하면서도 각 로컬 디바이스에 있는 데이터를 활용한 개인화된 학습을 가능하게 한다. 이는 사용자의 특성에 맞춘 서비스를 제공하는 동시에, 전 세계적으로 다양한 데이터를 활용하여 모델의 보편성과 성능을 유지할 수 있다.Federated learning is a learning method that builds a global model using only the model information (parameters) learned independently on each local device (smartphone, home appliance, etc.) without sending data to a central server. The key to this method is that the data stored on individual devices can be trained without sending it to a central (external) location.The first step in federated learning is to train an initial model on a central server and then distribute it to each local device. Each local device then trains the model using its own data (user health information, financial transaction history, home appliance usage patterns, etc. At this stage, the original local data never leaves the device. Once the local training is complete, each device sends the model information (e.g., parameters such as the weights of the neural network model) to the central server. The data used to train the local device model is not transmitted, only the model information that is the result of the training, essentially eliminating the risk of data leakage. The central server integrates the model information from each device to create a single global model. This process uses statistical techniques or optimisation algorithms to reflect the learning results of each device. The most basic integration method is to average the weights of each local device to create an upgraded global model. This improved global model is then deployed to each local device and retrained again based on new local data. By iterating through these steps, the performance of the model is incrementally improved. The biggest advantage of federated learning is that it ensures data security. Because data is stored only on the local device and only model information is sent to the central server, no sensitive local data is exposed to the outside world. This is especially useful when dealing with security sensitive information such as healthcare, financial, and manufacturing data.In addition, federated learning contributes to network efficiency. By eliminating the need to transfer large amounts of local source data, it reduces network bandwidth usage and can operate effectively in power-limited environments. This makes federated learning more useful in environments where large data transfers are difficult. Overall, federated learning enables personalised learning using data on each local device while maintaining a global model on a central server. This enables services to be tailored to the user's characteristics, while maintaining the universality and performance of the model by leveraging data from around the world.Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission. Written by 김성범 교수님 2025.04.30	Read More

Professor's Notes

협동

양자 머신러닝 (Quantum Machine Learning)

영화가 건네준 사랑과 인간에 대한 본질

강화학습 (Reinforcement Learning)

LLM vs. AI Agent

가상이 만드는 미래, 인공지능이 그리는 예측의 힘

순수 학문과 낡은 교육의 경계: 시대에 맞는 고등교육 콘텐츠의 방향

Model Context Protocol (MCP)

AI 위험성

연합학습 (Federated Learning)