2026년 2월 5일, OpenAI가 GPT-5.3-Codex를 발표했습니다. GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 하나의 모델에 통합했으며, 속도는 25% 더 빠릅니다. OpenAI는 이 모델을 자기 자신의 개발에 기여한 최초의 모델이라고 설명합니다.
❝동료처럼, GPT-5.3-Codex가 작업하는 동안 컨텍스트를 잃지 않고 방향을 조정하고 상호작용할 수 있습니다.
❞
이 글에서는 GPT-5.3-Codex의 주요 특징, 벤치마크 성과, 그리고 개발자에게 의미하는 변화를 정리합니다.
GPT-5 시리즈의 진화
GPT-5.3-Codex를 이해하려면, GPT-5 시리즈 전체의 흐름을 먼저 살펴볼 필요가 있습니다.
| 모델 | 출시일 | 핵심 특징 |
|---|---|---|
| GPT-5 | 2025년 8월 7일 | 멀티모달(텍스트·비전·오디오), 적응형 메모리, 팩트 오류 45% 감소(웹 검색 시) |
| GPT-5.1 | 2025년 11월 12일 | 효율성 최적화, 정렬(Alignment) 강화, COLLIE 벤치마크 99% 정확도 |
| GPT-5.1-Codex-Max | 2025년 11월 19일 | 프로젝트 단위 코딩, 장기적 추론, SWE-bench Verified 상태 기반 최적화 |
| GPT-5.2 | 2025년 12월 11일 | 400K 컨텍스트 윈도우, 128K 출력, Thinking/Pro 변형 |
| GPT-5.2-Codex | 2025년 12월 18일 | 에이전틱 코딩 특화, 컨텍스트 압축, 사이버보안 강화 |
| GPT-5.3-Codex | 2026년 2월 5일 | 자기참조 개발, 실시간 상호작용, 25% 속도 향상 |
GPT-5.2에서 이미 인상적이었던 것은 AIME 2025 수학 경시대회 100% 정답률(Thinking, 도구 미사용), GPQA Diamond 93.2%(Pro 변형, 대학원 수준 과학), FrontierMath 40.3%(Thinking, 전문가 수준 수학) 등의 성과였습니다. GPT-5.3-Codex는 이 추론 능력 위에 에이전틱 코딩 역량을 통합한 모델입니다.
스스로를 만든 모델
초기 버전의 GPT-5.3-Codex가 자체 개발 과정에 직접 활용되었습니다. 구체적으로:
- ❧리서치 팀이 훈련 과정을 모니터링하고 디버깅
- ❧엔지니어링 팀이 하네스(harness)를 최적화하고, 컨텍스트 렌더링 버그를 식별하고 캐시 적중률 저하의 근본 원인을 분석
- ❧런칭 과정에서 GPU 클러스터를 동적으로 스케일링하여 트래픽 급증에 대응
OpenAI는 이 모델이 "자기 자신의 개발에 핵심적인 역할을 한 최초의 모델"이라고 말합니다. 다만 System Card를 보면, AI 자기개선(self-improvement) 도메인에서는 아직 High 등급에 도달하지 않았습니다. 자체 훈련에 기여한 것과 완전한 자율적 자기개선은 다른 문제라는 뜻입니다.
하드웨어 측면에서 GPT-5.3-Codex는 NVIDIA GB200 NVL72 시스템과 공동 설계, 훈련, 서빙되었습니다.
주요 벤치마크 성과
SWE-Bench Pro, Terminal-Bench, OSWorld, GDPval 네 가지 벤치마크 결과가 공개되었습니다.
| 벤치마크 | 점수 | 설명 |
|---|---|---|
| SWE-Bench Pro | 56.8% | 4개 프로그래밍 언어의 실제 소프트웨어 엔지니어링 과제. SWE-bench Verified(Python만 테스트)보다 오염에 강하고 난이도가 높음 |
| Terminal-Bench 2.0 | 77.3% | 코딩 에이전트에 필요한 터미널 기술 측정 |
| OSWorld-Verified | 64.7% | 시각적 데스크톱 환경에서의 생산성 작업 수행 (인간: ~72%) |
눈여겨볼 점은, 이전 모델보다 적은 토큰으로 SWE-Bench Pro 점수를 달성했다는 것입니다. 토큰당 비용을 지불하는 입장에서 효율성 개선은 성능만큼이나 중요합니다.
동료처럼 상호작용하는 에이전트
모델의 능력이 강해질수록, 병목은 "에이전트가 무엇을 할 수 있느냐"에서 "인간이 얼마나 쉽게 방향을 조정할 수 있느냐"로 옮겨갑니다. GPT-5.3-Codex는 이 지점을 개선한 모델입니다.
- ❧작업 중 핵심 결정 사항과 진척도를 수시로 업데이트
- ❧최종 결과를 기다리는 대신, 실시간으로 질문하고 접근 방식을 논의하며 방향을 조정
- ❧자신이 무엇을 하고 있는지 설명하고, 피드백에 응답하며, 처음부터 끝까지 컨텍스트를 유지
이전 Codex가 작업을 받고 결과를 반환하는 방식이었다면, GPT-5.3-Codex는 작업 도중에 대화할 수 있다는 점이 가장 큰 차이입니다. Settings > General > Follow-up behavior에서 활성화할 수 있습니다.
✦코딩을 넘어서
GPT-5.3-Codex는 코드 생성만을 위한 모델이 아닙니다. 소프트웨어 라이프사이클 전체, 그리고 그 너머까지 커버합니다:
- ❧디버깅, 배포, 모니터링 — 소프트웨어 라이프사이클 전 과정
- ❧PRD 작성, 카피 편집, 사용자 리서치 — 기획 및 문서 작업
- ❧슬라이드 제작, 스프레드시트 분석 — 소프트웨어를 넘어선 업무
44개 직종의 지식 업무를 측정하는 GDPval 평가에서도 GPT-5.2에 준하는 성능을 보였습니다.
이용 방법
GPT-5.3-Codex는 유료 ChatGPT 플랜에서 Codex를 사용할 수 있는 모든 곳에서 이용 가능합니다: 앱, CLI, IDE 확장, 웹. API 접근은 안전성 평가를 거쳐 곧 제공될 예정입니다.
✦요금 체계
| 플랜 | 월 요금 | Codex 사용량 |
|---|---|---|
| Free | 무료 | 한시적 체험 (기간 한정) |
| Plus | $20 | 5시간당 30~150 로컬 태스크 |
| Pro | $200 | 5시간당 300~1,500 로컬 태스크, 평일 무제한 메시지 |
| Business | $25~30/인 | 무제한 GPT-5 메시지, 공유 크레딧 |
| Enterprise | 커스텀 | 볼륨 할인, 강화된 보안 |
사이버보안: 최초의 'High' 등급
GPT-5.3-Codex는 OpenAI Preparedness Framework에서 사이버보안 관련 작업 High 등급으로 분류된 최초의 모델이며, 소프트웨어 취약점을 식별하도록 직접 훈련된 최초의 모델이기도 합니다.
OpenAI는 사이버 공격을 엔드투엔드로 자동화할 수 있다는 확정적 증거는 없다고 밝히면서도, 예방적 접근을 취하여 가장 포괄적인 사이버보안 안전 스택을 배포했습니다:
- ❧안전 훈련(Safety Training) — 모델 수준의 정렬
- ❧자동화된 모니터링 — 사용 패턴 감시
- ❧Trusted Access for Cyber — 사이버 방어 연구를 위한 파일럿 프로그램
- ❧위협 인텔리전스 파이프라인 — 악용 시도 감지 및 대응
- ❧$10M API 크레딧 — 오픈소스 및 핵심 인프라 사이버 방어 연구 지원 (2023년 $1M 프로그램 확대)
개발자에게 의미하는 것
✦1. 효율성의 개선
SWE-Bench Pro 56.8%는 아직 완벽하지 않습니다. 하지만 이전 모델보다 적은 토큰으로 같은 점수를 달성했다는 점이 눈에 띕니다. 성능 자체보다 같은 결과를 더 적은 비용으로 낼 수 있게 되었다는 것이 실무에서는 더 의미 있을 수 있습니다.
✦2. 자기참조 개발의 시작
모델이 자신의 훈련을 디버깅하고, 배포를 지원하고, 테스트 데이터를 분석했습니다. OpenAI 내부에서 "2개월 전과 업무 방식이 근본적으로 달라졌다"는 말이 나올 정도입니다. 아직 완전한 자율적 자기개선(System Card 기준 High 미달)은 아니지만, 그 방향으로의 첫걸음인 것은 분명합니다.
✦3. 코딩 에이전트에서 업무 에이전트로
디버깅, 배포, PRD 작성, 슬라이드 제작, 데이터 분석까지 — "코딩 에이전트"라는 이름이 더 이상 정확하지 않을 수 있습니다. OpenAI 스스로도 "코드를 작성하고 리뷰하는 에이전트에서, 컴퓨터로 할 수 있는 거의 모든 것을 수행하는 에이전트로" 전환했다고 표현합니다.
마치며
GPT-5.3-Codex를 정리하면서 가장 인상적이었던 것은 개별 수치가 아니라 변화의 방향입니다. 자기 훈련에 참여하고, 작업 중에 대화하고, 코딩을 넘어 슬라이드와 스프레드시트까지 다루는 모델 — 6개월 전만 해도 없던 것들입니다.
물론 OSWorld-Verified 64.7%(인간: ~72%)이 보여주듯, 아직 간극은 있습니다. API 접근도 안전성 평가를 거쳐야 합니다. 하지만 GPT-5 시리즈가 2025년 8월부터 2026년 2월까지 7개 모델을 내놓은 속도를 보면, 그 간극이 오래 유지될 것 같지는 않습니다.
참고 자료
- ❧Introducing GPT-5.3-Codex — OpenAI
- ❧GPT-5.3-Codex System Card — OpenAI
- ❧GPT-5.3-Codex: Agentic AI & The Future of Coding — LLM Stats
- ❧OpenAI Debuts GPT-5.3 Codex — Neowin
- ❧Introducing GPT-5.2 — OpenAI