Towards End-to-End Automation of AI Research

1. 연구 목적과 핵심 주장

과학의 자동화는 AI 연구의 오랜 숙원이었다. 개별 연구 단계의 자동화는 이미 상당히 진척되었으나, 구상에서 출판까지 전체 연구 생애 주기를 자율적으로 수행하는 시스템은 이 논문 이전까지 실현되지 못했다. 이 논문은 The AI Scientist라는 파이프라인을 통해 연구 아이디어 생성, 코드 작성, 실험 수행, 데이터 분석 및 시각화, 논문 작성, 자동 동료 심사까지 과학적 연구 과정 전체를 종단간(end-to-end) 자동화했음을 보고한다. 이 시스템이 생성한 논문 하나가 실제로 최상위 머신러닝 학회 워크숍의 동료 심사를 통과했으며, 해당 워크숍의 수락률은 70%였다.

2. 시스템 구성: The AI Scientist의 4단계 워크플로

The AI Scientist는 네 단계로 작동한다.

1단계는 아이디어 생성이다. 시스템은 사용자가 지정한 머신러닝 연구 세부 분야 내에서 고수준의 연구 방향과 가설 아카이브를 반복적으로 확장한다. 각 아이디어에는 제목, 핵심 가설 요약, 구체적 실험 계획, 그리고 흥미성·독창성·실현 가능성에 대한 자체 평가 점수가 포함된다. 아이디어의 독창성 보장을 위해 Semantic Scholar API를 통해 기존 문헌과의 유사도를 자동으로 검사하고, 기존 연구와 지나치게 유사한 아이디어는 폐기한다.

2단계는 실험 수행이다. 두 가지 방식이 존재한다. 템플릿 기반 방식은 인간이 제공한 코드 템플릿을 출발점으로 실험을 선형적으로 수행한다. 템플릿 비의존 방식은 시스템이 코드를 처음부터 직접 생성하며, 에이전틱 트리 탐색을 활용하여 예비 조사, 하이퍼파라미터 조정, 연구 의제 실행, 절제 연구(ablation studies)의 4단계를 거친다. 각 단계에서 최상의 체크포인트가 다음 단계의 출발점으로 선택된다. 실험 결과는 실험 일지에 기록되어 이후 단계의 계획 수립과 논문 작성에 활용된다.

3단계는 논문 작성이다. 시스템은 표준 머신러닝 학회 LaTeX 템플릿을 채워가며 논문을 작성한다. 서론, 방법론, 결과, 결론 각 섹션이 실험 일지와 생성된 그림을 바탕으로 작성된다. 관련 연구 섹션은 Semantic Scholar API를 통해 최대 20회의 검색 라운드를 거쳐 구성된다.

4단계는 자동 동료 심사이다. 자동 심사자(Automated Reviewer)가 NeurIPS 심사 지침에 따라 완전성(soundness), 발표(presentation), 기여도(contribution), 전반적 품질, 심사자 신뢰도 항목에 수치 점수를 부여하고 수락 또는 거부 결정을 내린다. 다섯 개의 독립 심사를 앙상블하고 LLM이 에어리어 체어 역할을 맡아 최종 결정을 내린다.

3. 자동 심사자의 성능 검증

자동 심사자의 수락 결정 정확도는 인간 심사자와 비슷한 수준에 도달했다. 균형 정확도(balanced accuracy)는 인간 심사자 0.66에 비해 훈련 데이터 커트오프 이전(2017~2024년) 기준 0.69, 커트오프 이후(2025년) 기준 0.66으로 유사했다. F1 점수에서는 자동 심사자가 0.62로 NeurIPS 2021 인간 심사자 일치도 실험의 0.49보다 높았다. 지식 커트오프 이후 데이터에서 균형 정확도가 소폭 하락(69% → 66%)했으나, 이는 데이터 오염의 영향이 최소화 수준임을 보여준다. 또한 AI Scientist 논문 품질은 기반 모델이 개선될수록 일관되게 향상되는 추세를 보였으며, 이 상관관계는 통계적으로 유의미하다(p < 0.00001).

4. 실제 동료 심사 통과 실험

The AI Scientist가 생성한 논문을 ICLR 2025의 ICBINB(I Can’t Believe It’s Not Better) 워크숍에 제출하는 실험이 ICLR 운영진과 워크숍 조직위의 협조, 브리티시컬럼비아대학교 IRB 승인 하에 진행되었다. 총 43편이 심사된 워크숍에 세 편의 AI 생성 논문을 제출했고, 심사자들에게는 일부 논문이 AI 생성임을 고지했으나 어떤 논문인지는 공개하지 않았다.

세 편 중 하나가 심사자 평균 6.33점을 받아 워크숍 평균 수락 기준을 초과했다. 해당 논문의 주제는 딥러닝의 부정적 결과, 즉 구성적 정규화(compositional regularization)가 신경망 일반화 향상에 예상 외로 실패한다는 내용이었다. 조직위는 AI 생성임이 확인되지 않았더라면 수락되었을 것이라고 밝혔다. 연구진은 사전에 설정한 프로토콜에 따라 심사 후 해당 논문을 철회했다. 나머지 두 편은 수락 기준에 미치지 못했으며, 연구팀의 자체 평가에서도 어떤 논문도 ICLR 본 학회 기준에는 도달하지 못한 것으로 결론 내렸다.

5. 한계와 실패 패턴

The AI Scientist의 주요 한계는 다음과 같다. 피상적이거나 미성숙한 아이디어를 생성하는 경향, 핵심 아이디어의 잘못된 구현, 방법론적 엄밀성 부족, 실험 구현 오류, 본문과 부록의 그림 중복, 부정확한 인용 등 다양한 환각 문제가 존재한다. 세 편 제출 중 한 편만 수락된 것처럼 일관성이 확보되지 않았으며, 워크숍(수락률 70%)과 본 학회(수락률 32%)의 기준 차이를 고려할 때 최상위 출판물 수준에는 아직 미치지 못한다. AI가 쉽게 오도되거나 과신에 찬 오류(환각)를 범하는 문제, 그리고 AI가 과학에서의 개념적 도약에 해당하는 창의적 아이디어를 생성할 수 있는지에 대한 의문도 남아 있다.

그러나 머신러닝에서 일단 작동하기 시작한 시스템은 계산 자원, 데이터, 기반 모델 개선, 기법 발전과 함께 빠르게 인간 수준을 능가해온 역사적 패턴을 고려할 때, 이 궤적에 주목할 필요가 있다. AI가 안정적으로 완수할 수 있는 과제의 길이가 7개월마다 두 배씩 증가하고 있다는 점도 이러한 전망을 뒷받침한다.

6. 윤리적 함의와 향후 방향

자동 논문 생성은 동료 심사 시스템에 과부하를 가중시키고, 연구 자격을 인위적으로 부풀리며, 타인의 아이디어를 적절한 인정 없이 전용하고, 연구자 일자리를 대체하거나, 비윤리적이거나 위험한 실험을 수행할 가능성 등 중요한 윤리적 함의를 제기한다. 과학 공동체가 공개 및 평가에 대한 명확한 기준을 확립하기 전에 완전 자동화 연구를 출판하는 선례를 남기지 않으려는 의도에서 사전 프로토콜에 따라 모든 AI 생성 논문을 철회했다. 향후에는 컴퓨터 기반 실험을 넘어 자동화 화학 실험실 등 다른 과학 분야로의 적용이 모색된다.

참고문헌 (APA 7th)

Lu, C., Lu, C., Lange, R. T., Yamada, Y., Hu, S., Foerster, J., Ha, D., & Clune, J. (2026). Towards end-to-end automation of AI research. Nature, 651, 914–919. https://doi.org/10.1038/s41586-026-10265-5

AI 활용 내역

Anthropic. (2025). Claude (claude-sonnet-4-6, 2025.03.29.), [대형언어모델(LLM)]. https://claude.ai/ 문체의 일관성과 문장 표현을 점검하는 교정 작업에 한해 활용했으며, 결과물은 연구자가 최종 검토 후 수정해 보고서에 반영했다.


댓글

댓글 남기기