2026년 2월 5일, Anthropic이 Claude Opus 4.6을 발표했습니다. Opus 클래스 최초의 1M 토큰 컨텍스트 윈도우, Claude Code에서 여러 에이전트가 협업하는 Agent Teams, 그리고 모델이 스스로 사고 깊이를 조절하는 Adaptive Thinking을 포함한 릴리스입니다.
❝Claude Opus 4.6은 더 신중하게 계획하고, 더 오래 에이전틱 작업을 유지하며, 대규모 코드베이스에서 더 안정적으로 동작합니다.
❞
이 글에서는 Opus 4.6의 주요 벤치마크 성과, 핵심 기능, 안전성, 그리고 개발자에게 의미하는 변화를 정리합니다.
주요 벤치마크 성과
Opus 4.6은 에이전틱 코딩, 추론, 지식 작업, 검색 등 주요 벤치마크에서 업계 최고 수준의 성과를 기록했습니다.
| 벤치마크 | 성과 | 설명 |
|---|---|---|
| Terminal-Bench 2.0 | 최고 점수 | 실제 터미널 환경의 에이전틱 코딩 평가 |
| Humanity's Last Exam | 최고 점수 | 복합 학제간 추론 테스트, 모든 프론티어 모델 상회 |
| GDPval-AA | GPT-5.2 대비 +144 Elo | 금융·법률 등 경제적 가치가 높은 지식 작업 평가 |
| BrowseComp | 최고 점수 | 찾기 어려운 정보의 온라인 검색 능력 측정 |
| MRCR v2 (8-needle 1M) | 76% | Sonnet 4.5의 18.5% 대비 압도적 개선 |
| SWE-bench Verified | 81.42% | 25회 평균, 프롬프트 수정 적용 시 |
GDPval-AA는 Artificial Analysis가 독립적으로 운영하는 벤치마크로, 금융·법률 등 실무 영역의 지식 작업 성과를 측정합니다. Opus 4.6은 GPT-5.2를 약 144 Elo(약 70% 승률), 전작 Opus 4.5를 190 Elo 앞서는 점수를 기록했습니다.
Context rot 해결도 의미 있는 진전입니다. 대화가 길어질수록 모델 성능이 저하되는 현상은 AI 모델의 고질적 문제였습니다. MRCR v2의 8-needle 1M 변형에서 Opus 4.6이 76%, Sonnet 4.5가 18.5%를 기록한 것은, 방대한 텍스트에 숨겨진 정보를 찾아내는 능력에서 질적 도약이 일어났음을 보여줍니다.
핵심 새 기능
✦1M 토큰 컨텍스트 윈도우 (Beta)
Opus 클래스 최초의 100만 토큰 컨텍스트 윈도우입니다. 200K 토큰을 초과하는 프롬프트에는 프리미엄 가격($10/$37.50 per M tokens)이 적용됩니다. 대규모 코드베이스 전체를 컨텍스트에 넣거나, 수백 페이지의 문서를 한 번에 분석하는 작업이 가능해집니다.
✦Adaptive Thinking
이전에는 extended thinking을 활성화하거나 비활성화하는 이진 선택만 가능했습니다. Opus 4.6부터는 모델이 문맥에 따라 깊은 사고가 필요한지 스스로 판단합니다. 간단한 질문에는 빠르게 답하고, 복잡한 문제에서는 자동으로 추론 깊이를 높입니다.
✦Effort 파라미터
개발자가 지능, 속도, 비용의 균형을 직접 제어할 수 있습니다.
| 레벨 | 동작 |
|---|---|
| low | 단순 작업에서 thinking 생략, 속도 우선 |
| medium | 적당한 사고, 간단한 쿼리에서 thinking 건너뛸 수 있음 |
| high (기본값) | 항상 사고, 깊은 추론 제공 |
| max | 제약 없는 최대 깊이 사고 |
Anthropic은 모델이 과도하게 사고하는 경우 기본값인 high에서 medium으로 낮추는 것을 권장합니다.
✦Context Compaction (Beta)
장시간 실행되는 에이전틱 작업에서 컨텍스트 윈도우 한계에 도달하면, 모델이 자동으로 이전 컨텍스트를 요약하여 압축합니다. 설정 가능한 임계값에 도달하면 압축이 트리거되어, 핵심 정보를 보존하면서 작업을 계속할 수 있습니다.
✦Agent Teams (Research Preview)
Claude Code에서 여러 에이전트를 동시에 실행하여 팀처럼 협업할 수 있습니다.
- ❧하나의 리드 에이전트가 전체를 조율
- ❧팀원 에이전트들이 독립적으로 작업 수행
- ❧각 에이전트가 자체 컨텍스트 윈도우 보유
- ❧에이전트 간 직접 통신 가능
- ❧
Shift+Up/Down또는 tmux로 개별 에이전트에 직접 개입 가능
코드베이스 리뷰처럼 독립적이고 읽기 중심인 작업에서 특히 효과적입니다.
✦128K 출력 토큰
최대 128,000 토큰의 출력을 지원합니다. 대규모 코드 생성이나 문서 작업을 여러 요청으로 분할하지 않고 한 번에 완료할 수 있습니다.
제품 업데이트
✦Claude in PowerPoint (Research Preview)
PowerPoint 내에서 Claude를 직접 사용할 수 있습니다. 슬라이드 마스터, 폰트, 레이아웃을 인식하여 브랜드 가이드라인을 유지하면서 프레젠테이션을 생성합니다. Max, Team, Enterprise 플랜에서 사용 가능합니다.
✦Claude in Excel 개선
더 긴 작업과 어려운 작업을 처리할 수 있도록 성능이 향상되었습니다. 실행 전 계획을 세우고, 비정형 데이터의 구조를 자동으로 추론하며, 여러 단계의 변경 사항을 한 번에 처리합니다.
안전성
성능 향상이 안전성 저하로 이어지지 않았다는 점은 주목할 만합니다.
- ❧미정렬 행동 비율: 전작 Opus 4.5 수준 이상의 낮은 비율 유지 (기만, 아첨, 오용 협조 등)
- ❧과잉 거부율: 최근 Claude 모델 중 가장 낮음 — 무해한 질문을 부당하게 거부하는 비율이 가장 적음
- ❧6개 신규 사이버보안 프로브: 향상된 사이버보안 능력의 잠재적 오용을 탐지하기 위한 새로운 평가 항목
- ❧방어적 사이버보안 활용: Opus 4.6을 오픈소스 소프트웨어의 취약점 발견 및 패치에 활용. Axios 보도에 따르면 500건 이상의 고위험 제로데이 취약점을 발견
Anthropic은 이번 모델에 대해 역대 가장 포괄적인 안전성 평가를 수행했으며, 사용자 웰빙 평가, 위험 요청 거부 테스트, 은밀한 유해 행동 탐지 등 새로운 평가 항목을 추가했습니다. 해석 가능성(Interpretability) 연구 기법도 실험적으로 적용하여, 모델 행동의 원인을 이해하고 표준 테스트가 놓칠 수 있는 문제를 포착하고자 했습니다.
업계 맥락
Opus 4.6의 발표는 흥미로운 타이밍에 이루어졌습니다.
✦같은 날 발표된 GPT-5.3-Codex
같은 2월 5일, OpenAI도 GPT-5.3-Codex를 발표했습니다. OpenAI가 자기참조적 개발과 실시간 인터랙티브 코딩에 집중한 반면, Anthropic은 에이전트 협업과 장기 컨텍스트 유지에 무게를 두었습니다. 두 회사가 같은 날 최신 모델을 발표한 것은 AI 코딩 에이전트 시장의 경쟁 강도를 보여줍니다.
✦법률 플러그인과 시장 반응
Opus 4.6 발표 직전 주, Anthropic의 법률 도구 플러그인 공개 이후 소프트웨어·금융서비스 주식에서 약 2,850억 달러 규모의 매도세가 발생했습니다. Thomson Reuters는 장중 최대 약 17% 하락하며 사상 최대 일일 낙폭을 기록했고, LegalZoom은 약 20% 하락했습니다. AI 에이전트가 기존 엔터프라이즈 소프트웨어를 대체할 수 있다는 시장의 우려가 반영된 결과입니다.
가격 및 사용 방법
| 항목 | 내용 |
|---|---|
| 모델 ID | claude-opus-4-6 |
| 입력 토큰 | $5 / M tokens |
| 출력 토큰 | $25 / M tokens |
| 1M 컨텍스트 (>200K) | $10 / $37.50 / M tokens |
| 컨텍스트 윈도우 | 1M tokens (Beta) |
| 최대 출력 | 128K tokens |
| 사용처 | claude.ai, API, AWS, GCP, Azure |
개발자에게 의미하는 것
✦1. 에이전트 협업의 시작
Agent Teams는 "하나의 AI 에이전트"에서 "에이전트 팀"으로의 패러다임 전환입니다. 프론트엔드, API, 마이그레이션을 각각 담당하는 에이전트가 자율적으로 협업하는 구조는, 소프트웨어 개발의 분업 방식이 변하고 있음을 보여줍니다.
✦2. Context rot의 실질적 해결
76% vs 18.5%라는 MRCR v2 점수 차이는 숫자 이상의 의미를 갖습니다. 장시간 코딩 세션에서 모델이 앞서 논의한 맥락을 잊지 않는다는 것은, 장기 프로젝트 협업이 가능해진다는 뜻입니다. Context compaction과 결합하면, 컨텍스트 윈도우 한계를 사실상 넘어서는 작업이 가능합니다.
✦3. 비용과 지능의 세밀한 제어
Effort 파라미터와 Adaptive Thinking은 개발자에게 비용-성능 트레이드오프의 통제권을 줍니다. 간단한 코드 리뷰에는 medium, 아키텍처 설계에는 max — 같은 모델에서 용도에 맞는 비용 최적화가 가능합니다.
✦4. 안전성이 성능을 따라잡다
성능 향상과 동시에 과잉 거부율이 최저치를 기록했다는 점이 인상적입니다. 더 똑똑하면서 더 유용한 모델 — 안전과 성능이 트레이드오프가 아닌 동반 성장이 가능하다는 증거입니다.
마치며
Claude Opus 4.6과 GPT-5.3-Codex가 같은 날 발표된 것은 우연이 아닐 수 있습니다. AI 코딩 에이전트 시장은 그만큼 빠르게 움직이고 있습니다.
주목할 점은 양쪽의 접근 방식 차이입니다. OpenAI가 자기참조적 개발과 실시간 상호작용이라는 단일 에이전트의 깊이에 집중했다면, Anthropic은 Agent Teams와 Context Compaction이라는 여러 에이전트의 협업과 장기 지속성에 투자했습니다. 어느 쪽이 더 실무에서 유효한 접근인지는 시간이 답해줄 것입니다.
참고 자료
- ❧Introducing Claude Opus 4.6 — Anthropic
- ❧Claude Opus 4.6 System Card — Anthropic
- ❧Anthropic's Claude Opus 4.6 uncovers 500 zero-day flaws in open-source code — Axios
- ❧Anthropic's Legal AI Triggers $285B Software Market Selloff — Winbuzzer