Agentic AI: The age of reasoning—A review

에이전틱 AI의 개념과 정의
에이전틱 AI(Agentic AI)는 지속적인 인간 개입 없이 환경을 인식하고, 추론하며, 목표 달성을 위해 자율적으로 행동하는 AI 시스템으로 정의된다. 전통적 AI가 사전 정의된 규칙과 정적 파라미터 안에서 작동하는 데 비해, 에이전틱 AI는 복잡하고 동적인 환경에 적응하면서 장기적 목표를 추구하는 능동적 문제해결 주체로 기능한다.
이 논문에서 “추론의 시대(Age of Reasoning)”는 AI가 수동적 도구에서 지식 창출, 과학적 탐구, 의사결정에 참여하는 능동적 추론 에이전트로 전환되는 근본적 패러다임 이동을 의미한다. 에이전틱 AI의 핵심 속성은 자율성, 맥락 인식 상호작용, 합리적 적응, 동적 전략 조정, 목표 지향적 계획 수립으로 요약된다.
에이전틱 AI의 운영 프레임워크는 네 단계로 구성된다. 첫째, 데이터 단계에서는 음성, 영상 등 다양한 소스로부터 입력을 수집한다. 둘째, 분석 단계에서는 입력 검증, 메모리 접근, 의사결정 검증, 오류 탐지가 이루어진다. 셋째, 실행 단계에서는 API, GUI, 챗봇 등을 통해 사용자에게 결과를 전달한다. 넷째, 적응 단계에서는 실시간 피드백을 통해 지속적 학습과 미래 의사결정 로직 갱신이 진행된다.

에이전틱 AI의 발전 5단계
에이전틱 AI의 역사는 다섯 단계로 구분된다.
1단계(1980~1990년대)는 초기 기초 형성기이다. Brooks의 행동 기반 AI, Aloimonos의 능동 시각(active vision), 강화학습 이론, 다중 에이전트 시스템의 기초가 확립되었다. 상징적 추론에서 환경 상호작용 중심 지능으로의 전환이 이루어진 시기이다.
2단계(2001~2010년)는 학습 기반 에이전트의 부상기이다. 실시간 객체 탐지, 다중 에이전트 강화학습(MARL), LSTM 기반 순환신경망, 비지도 학습 등 기계학습 기법이 에이전틱 AI를 보다 적응적이고 확장 가능한 방향으로 발전시켰다.
3단계(2011~2017년)는 심층 강화학습(DRL) 시대이다. DQN이 픽셀 데이터만으로 아타리 게임에서 인간 수준의 성능을 달성했으며, AlphaGo가 바둑 세계 챔피언을 제압함으로써 자기 개선 에이전트의 가능성이 입증되었다.
4단계(2018~2021년)는 범용 에이전트의 등장기이다. BERT의 대규모 양방향 사전훈련, GPT-2와 GPT-3의 zero-shot 및 few-shot 학습 능력이 언어 기반 범용 에이전트의 가능성을 보여주었다.
5단계(2022~현재)는 멀티모달·협력 에이전트 시대이다. GPT-4, HuggingGPT, BLIP-2, PaLM-E 등이 텍스트, 이미지, 행동을 통합한 자율적 에이전트 시스템으로 발전했다. AutoGen, LangGraph, CrewAI 등의 협업 프레임워크와 ReAct, Reflexion 등의 추론-행동 통합 메커니즘이 등장했다.

에이전틱 AI의 핵심 패턴
에이전틱 AI 시스템이 작동하는 다섯 가지 설계 패턴이 식별된다.
성찰 패턴(Reflection Pattern)은 초기 반응을 자기 평가하고 반복적으로 개선하는 방식으로, 자기교정 챗봇과 창의적 AI에 적용된다. 도구 활용 패턴(Tool Use Pattern)은 외부 API나 검색 엔진 등을 통해 정보를 획득하거나 연산을 수행한다. ReAct 패턴은 추론과 행동을 교차 반복하면서 쿼리에 동적으로 대응하며, 로봇공학 및 자율주행에 활용된다. 계획 패턴(Planning Pattern)은 복잡한 문제를 다단계 전략을 통해 해결하며 마르코프 의사결정 과정을 기술적 기반으로 한다. 다중 에이전트 협업 패턴(MAC)은 여러 AI 에이전트가 분산 처리와 전문화를 통해 협업하며 군집 로봇공학에 적용된다.

에이전틱 AI의 분류 체계
이 논문은 에이전틱 AI를 자율성과 인지 복잡도에 따라 7가지 유형으로 분류하는 진보적 분류 체계를 제안한다.
반응형 에이전트(Reactive Agents)는 메모리나 학습 기능 없이 현재 입력에만 반응한다. 선제적 에이전트(Proactive Agents)는 미래 사건을 예측하여 명시적 지시 전에 자율적으로 행동한다. 제한 메모리 에이전트(Limited Memory Agents)는 단기간의 과거 데이터를 보유하여 의사결정을 향상시키며, 자율주행과 의료 진단 등에 활용된다. 모델 기반 에이전트(Model-Based Agents)는 환경에 대한 구조화된 내부 표현을 유지하여 미래 행동을 예측하고 계획한다. 목표 지향 에이전트(Goal-Driven Agents)는 사전 정의된 목표를 향해 전략을 최적화하며 STRIPS, SOAR 같은 고전적 계획 시스템에 기반한다. 마음 이론 에이전트(Theory of Mind Agents)는 인간의 감정, 신념, 의도를 추론하여 인간 중심 환경에서 더욱 효과적으로 작동한다. 자기 인식 에이전트(Self-Aware Agents)는 메타인지 능력을 보유하여 자신의 내부 상태를 추론하고 자율적으로 목표를 개선한다.

역량과 한계
에이전틱 AI 시스템의 지각, 메모리, 추론, 학습, 자율성, 사회적 지능 차원에서의 역량과 한계가 분석된다.
지각 측면에서, 반응형 에이전트는 사전 정의된 특징만 처리하는 반면, 자기 인식 에이전트는 지각적 불확실성을 메타인지적으로 인식하고 능동적으로 정보를 탐색한다. 그러나 현재 시스템은 분포 불일치로 인해 새로운 상황에 일반화하기 어려우며, LLM은 감각 데이터를 그라운딩 없이 처리하여 환각을 유발하는 문제를 안고 있다.
메모리 측면에서, 현대 LLM 기반 에이전트는 모델 가중치에 내재된 파라메트릭 메모리, 컨텍스트 윈도우의 작업 메모리, 검색 증강 방식의 외부 메모리를 조합하여 활용한다. 그러나 파라메트릭 메모리는 업데이트가 불가능하고, 작업 메모리는 용량이 제한적이며, 외부 메모리는 검색 정확도가 낮다는 문제가 있다.
추론 측면에서, 연쇄적 사고(chain-of-thought) 프롬프팅, 자기 반성, 도구 활용 등의 기법이 추론 역량을 향상시키고 있다. 그러나 논리적 일관성 부족, 인과 추론의 한계, 복잡한 구성적 일반화의 어려움은 여전히 핵심 과제로 남아 있다.
학습 측면에서, 지도 학습, 강화학습, 자기지도 학습, 소수 사례 학습, 지속 학습 등이 복합적으로 활용된다. 그러나 생애 학습 능력과 메타 학습 역량의 부재로 인해 동적 환경에서의 효율성이 저하된다는 한계가 존재한다.
자율성 측면에서, RLHF와 역강화학습이 인간 선호도와의 정렬을 지원하지만, 장기 과제에 대한 확장성 부족과 에이전트의 내부 추론 불투명성이 문제로 지적된다.

에이전틱 AI의 환경 유형
에이전틱 AI가 작동하는 환경은 정적(static)/동적(dynamic), 완전 관찰 가능(fully observable)/부분 관찰 가능(partially observable), 결정론적(deterministic)/확률론적(stochastic), 단일 에이전트/다중 에이전트 환경으로 분류된다. 각 환경 유형은 에이전트의 적응 전략, 계획 복잡도, 계산 요구량에 상이한 영향을 미친다.

주요 도전과제와 미래 방향
주요 도전과제는 다음과 같다. 인간 가치와의 정렬 문제, 불완전 데이터 환경에서의 적응성 한계, 대규모 학습과 운영에 따른 막대한 계산 비용, 스마트 시티나 의료 시스템 등에서의 확장성 문제, 민감 데이터 처리에 따른 프라이버시 및 보안 위험, 표준화된 평가 벤치마크의 부재, LLM 훈련 데이터의 오염으로 인한 벤치마크 왜곡 등이 주요 과제로 제시된다.
미래 연구 방향으로는 망각 없는 지속 학습(continual learning) 메커니즘 개발, 인간 피드백 기반 가치 정렬과 설명 가능 AI(XAI)의 결합, 분산형 다중 에이전트 조율 알고리즘 개발, 지식 그래프 통합을 통한 실시간 의미 이해 향상, 비기술 사용자를 위한 노코드(no-code) 플랫폼 구축, 반응형에서 선제적 에이전틱 AI로의 전환, 연합 학습(federated learning)과 탈중앙화 학습 프레임워크의 발전이 제시된다.

Nisa, U., Shirazi, M., Saip, M. A., & Pozi, M. S. M. (2025). Agentic AI: The age of reasoning—A review. Journal of Automation and Intelligence. Advance online publication. https://doi.org/10.1016/j.jai.2025.08.003

Anthropic. (2025). Claude (claude-sonnet-4-6, 2025.03.20.), [대형언어모델(LLM)]. https://claude.ai/ 문체의 일관성과 문장 표현을 점검하는 교정 작업에 한해 활용했으며, 결과물은 연구자가 최종 검토 후 수정해 보고서에 반영했다.


댓글

댓글 남기기