AI나루

지난 4월 23일 오픈AI는 차세대 인공지능 모델 ‘GPT-5.5’를 공개하고, 복잡한 작업을 스스로 계획하고 수행하는 에이전트형 AI 시대를 본격화한다고 밝혔습니다.

모델 개요와 배포 범위

오픈AI에 따르면 GPT-5.5는 사용자의 의도를 보다 빠르게 이해하고, 다단계로 얽힌 작업을 스스로 계획한 뒤 다양한 도구를 활용해 끝까지 수행하는 능력을 갖춘 것이 특징입니다. 코드 작성과 디버깅, 웹 조사, 데이터 분석, 문서 및 스프레드시트 작성, 소프트웨어 조작 등 여러 도구를 넘나드는 작업을 통합적으로 처리할 수 있습니다.

특히 기존처럼 각 단계를 세밀하게 지시하는 방식이 아니라, 복잡하고 정리되지 않은 작업을 한 번에 맡기면 계획 수립부터 도구 사용, 결과 검증, 모호성 해소까지 이어지는 전 과정을 자율적으로 수행하도록 설계된 점이 강조됩니다.

오픈AI는 GPT-5.5가 에이전트형 작업에서 특히 큰 성능 향상을 보였으며, 코딩과 컴퓨터 사용, 지식 노동, 초기 과학 연구 분야에서 강력한 성능을 나타낸다고 설명했습니다. 대형 모델의 경우 속도 저하 문제가 발생하는 경우가 많지만, GPT-5.5는 실제 서비스 기준 토큰당 지연 시간(per-token latency)을 이전 모델인 GPT-5.4와 동일하게 유지했습니다. 동시에 동일한 작업을 더 적은 토큰으로 완료해 효율성도 개선됐습니다.

안전성 측면에서도 출시 전 내부 및 외부 레드팀 테스트를 강화했으며, 고급 사이버보안과 생물학적 역량에 대한 추가 검증을 진행했습니다. 약 200개의 신뢰 파트너를 대상으로 한 초기 테스트 피드백도 반영됐습니다.

현재 GPT-5.5는 ChatGPT와 Codex를 통해 Plus, Pro, Business, Enterprise 사용자에게 순차적으로 배포되고 있으며, 고성능 버전인 GPT-5.5 Pro는 Pro·Business·Enterprise 사용자에게 제공됩니다. API는 별도의 안전 요구사항을 충족하는 과정을 거친 뒤 제공될 예정입니다.

소프트웨어 엔지니어링과 에이전트형 코딩

소프트웨어 엔지니어링 분야에서도 변화가 두드러집니다. 오픈AI는 지난 1년간 AI가 소프트웨어 개발 속도를 크게 가속했다고 평가하며, GPT-5.5의 도입으로 이러한 흐름이 과학 연구와 일반 컴퓨터 업무 전반으로 확산되고 있다고 밝혔습니다.

코딩 성능 지표에서도 높은 결과를 기록했습니다. GPT-5.5는 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록하며 복잡한 커맨드라인 작업과 실제 GitHub 이슈 해결 능력에서 이전 모델을 상회했습니다. 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞선 것으로 나타났습니다.

특히 구현, 리팩터링, 디버깅, 테스트, 검증 전반에서 성능이 향상됐으며, 대규모 코드베이스의 맥락 유지, 실패 원인 추적, 도구 기반 검증, 시스템 전반에 걸친 변경 반영 등 실제 엔지니어링 업무에 가까운 작업에서 강점을 보였습니다.

코딩 사용 예시와 초기 테스트

초기 테스트 사례에서도 이러한 성능 향상이 확인됐습니다. 실제 우주 탐사 데이터(Artemis II)를 활용한 웹 애플리케이션 구현에서 궤적 시각화 기능을 구현했으며, 초기 사용자들은 시스템 구조 이해도와 오류 분석 능력이 크게 향상됐다고 평가했습니다.

일부 테스트에서는 이전 모델이 실패한 복잡한 재설계 작업을 GPT-5.5가 성공적으로 수행했으며, 대규모 코드 변경을 단시간 내 병합하는 사례도 보고됐습니다. 또한 명시적 지시 없이도 문제를 사전에 식별하고 테스트 및 리뷰 필요성을 예측하는 등 자율성이 강화된 모습이 확인됐습니다.

일반 지식 노동과 컴퓨터 사용

일반 지식 노동 영역에서도 성능 향상이 이어졌습니다. GPT-5.5는 정보 탐색과 중요 정보 선별, 결과 검증, 산출물 생성까지 전 과정을 자연스럽게 수행하며 문서, 스프레드시트, 슬라이드 생성 능력에서도 기존 모델을 능가했습니다.

오픈AI 내부에서도 이미 실무에 적용되고 있으며, 직원의 85% 이상이 매주 Codex를 활용하는 것으로 나타났습니다. 커뮤니케이션, 재무, 마케팅, 데이터 분석 등 다양한 부서에서 활용되고 있으며, 일부 업무에서는 수천 건의 문서를 자동 처리하거나 주간 리포트 생성 시간을 대폭 단축하는 성과를 거둔 것으로 전해졌습니다.

ChatGPT에서의 GPT-5.5 Thinking과 GPT-5.5 Pro

ChatGPT에서는 ‘GPT-5.5 Thinking’과 ‘GPT-5.5 Pro’가 함께 제공됩니다. GPT-5.5 Thinking은 복잡한 문제에 대해 보다 빠르고 간결한 답변을 제공하도록 설계됐으며, 코딩과 연구, 문서 작업 등에서 높은 효율을 보입니다.

GPT-5.5 Pro는 보다 높은 품질과 난이도의 작업을 목표로 하며, 응답의 정확성과 구조, 유용성이 전반적으로 향상됐습니다. 다양한 전문 분야 벤치마크에서도 높은 점수를 기록했으며, 특히 비즈니스, 법률, 교육, 데이터 사이언스 분야에서 강점을 보였습니다.

과학 연구와 기술 연구 워크플로

과학 연구 영역에서도 주목할 만한 성과가 보고됐습니다. GPT-5.5는 단순 질의응답을 넘어 아이디어 탐색, 근거 수집, 가설 검증, 결과 해석, 후속 실험 설계까지 이어지는 연구 과정을 지원하는 능력이 강화됐습니다.

유전학 및 정량 생물학 분야 평가인 GeneBench와 생물정보학 기반 BixBench에서도 성능 향상이 확인됐으며, 일부 테스트에서는 수학 분야 난제인 램지 수 문제에 대한 새로운 증명 탐색에도 활용된 것으로 나타났습니다.

초기 사용자들은 GPT-5.5 Pro를 단순한 답변 도구가 아닌 연구 파트너로 활용하고 있으며, 논문 검토, 기술 검증, 데이터 분석, 코드 작성 등 연구 전반의 워크플로를 지원하는 도구로 자리 잡고 있다고 평가했습니다.