GPT 5.5 공개 후 코덱스부터 봐야 하는 이유와 비용 판단법

4월 26, 2026

시작하며

GPT 5.5를 처음 봤을 때 내가 먼저 떠올린 건 “이제 코딩 보조 도구가 아니라 작업 파트너에 가까워졌나?”였다. 예전에는 AI에게 코드를 맡겨도 중간에 끊기고, 디자인은 어색하고, 파일 흐름은 사람이 계속 잡아줘야 했다. 그런데 이번 GPT 5.5는 코덱스와 붙었을 때 체감 포인트가 꽤 뚜렷했다.

OpenAI가 2026년 4월 24일 업데이트에서 GPT 5.5와 GPT 5.5 Pro의 API 제공 내용을 반영했고, GPT 5.5는 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 순차적으로 열린 상태다. 코덱스에서는 400K 컨텍스트 창을 제공하고, API 가격은 GPT 5.5가 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러로 제시됐다.

1. GPT 5.5를 보면서 내가 먼저 놀란 건 코딩보다 작업 흐름이었다

예전에는 새 모델이 나오면 숫자부터 봤다. 벤치마크가 몇 점 올랐는지, 이전 모델보다 몇 퍼센트 나아졌는지부터 확인했다. 그런데 이번에는 숫자보다 먼저 눈에 들어온 게 작업을 끝까지 밀고 가는 느낌이었다.

OpenAI는 GPT 5.5를 코드 작성, 온라인 조사, 정보 분석, 문서와 스프레드시트 생성, 여러 도구를 오가며 일하는 모델로 설명한다. 특히 이전 모델보다 작업 의도를 더 빨리 파악하고, 안내를 덜 요구하고, 도구를 더 잘 쓰고, 스스로 확인하면서 계속 진행하는 방향을 강조한다.

(1) 코덱스에서 체감이 더 크게 오는 이유가 있었다

나는 개발자처럼 매일 대규모 코드를 붙잡는 사람은 아니지만, 온라인 판매와 콘텐츠 작업을 오래 하다 보니 간단한 웹페이지, 랜딩페이지, 자동화 도구는 자주 만져왔다. 이때 가장 피곤한 지점은 늘 같았다.

① 채팅만 잘하는 AI와 파일을 다루는 AI는 느낌이 다르다

채팅형 AI는 아이디어를 잡는 데 좋다.
코덱스는 폴더, 파일, 반복 작업을 같이 다루는 쪽에 더 가깝다.
기존 작업물을 이어받아 고치는 상황에서는 코덱스 쪽이 손이 덜 간다.
오류가 난 뒤 다시 설명하는 시간이 줄면, 그 차이가 꽤 크게 느껴진다.

OpenAI도 Codex를 “실제 작업을 맡길 수 있는 AI 에이전트”로 설명하고, ChatGPT가 대화 속 사고와 초안 작성에 좋다면 Codex는 파일과 도구, 반복 워크플로를 넘나드는 작업에 맞춰졌다고 안내한다.

② 내가 봤을 때 코덱스는 ‘만들기’보다 ‘고치기’에서 더 빛났다

새 프로젝트를 만드는 것도 빠르다.
하지만 기존 프로젝트를 읽고, 꼬인 부분을 찾아내고, UI를 다듬을 때 더 유용했다.
사람이 놓친 파일 연결이나 반복 코드도 비교적 잘 짚는다.
“여기만 고쳐줘”보다 “이 흐름이 왜 불편한지 보고 개선해줘”라고 맡길 때 결과가 더 좋았다.

나처럼 개발을 전업으로 하지 않는 사람에게는 이 차이가 크다. 코드 한 줄을 몰라서 막히는 게 아니라, 어디서부터 손대야 할지 몰라서 멈추는 경우가 더 많기 때문이다.

(2) 웹사이트 디자인 쪽 변화는 그냥 넘어가기 어려웠다

내가 예전 GPT 계열 모델을 쓰면서 아쉬웠던 건 디자인이었다. 기능은 돌아가는데, 화면이 어딘가 허전하거나 버튼 간격이 이상하거나 모바일에서 갑자기 무너지는 일이 있었다.

① 첫 화면 완성도가 올라가면 수정 시간이 줄어든다

헤더, 카드, 버튼, 검색창 간격이 더 자연스럽게 잡힌다.
숙소 예약형 페이지나 서비스형 랜딩페이지처럼 익숙한 화면 구성을 빠르게 흉내 낸다.
색상 조합과 여백을 한 번에 맞추는 경우가 늘었다.
애니메이션이나 전환 효과도 이전보다 덜 어색하다.

여기서 중요한 건 “한 번에 완벽하다”가 아니다. 처음 나온 결과물이 덜 부끄럽다는 점이다. 이 말이 오히려 실무에서는 더 현실적이다. 초안이 괜찮으면 사람은 기획과 문구에 시간을 더 쓸 수 있다.

② 3D 작업은 코드만으로 밀어붙이면 한계가 보였다

단순 도형이나 와이어프레임은 꽤 잘 만든다.
도시 풍경, 게임 장면, 궤도 시각화 같은 작업도 접근성이 좋아졌다.
다만 완성도를 높이려면 3D 에셋을 같이 쓰는 편이 낫다.
코드만으로 모든 걸 만들려는 방식은 결과가 밋밋해질 수 있다.

나는 여기서 오히려 생각이 바뀌었다. AI에게 “다 만들어줘”라고 맡기는 것보다, 사람이 재료를 잘 준비해주고 AI에게 조립과 개선을 맡기는 방식이 더 현실적이다.

2. 벤치마크 숫자보다 내가 더 본 건 어디에 써먹을 수 있느냐였다

새 모델이 나올 때마다 점수표는 화려하다. 그런데 40대가 되니 이런 숫자를 볼 때도 조금 차분해진다. 숫자가 좋아도 내가 하는 일에 안 맞으면 비용만 나간다.

OpenAI가 공개한 평가에서 GPT 5.5는 Terminal-Bench 2.0 82.7%, GDPval 84.9%, BrowseComp 84.4%를 기록했고, GPT 5.5 Pro는 BrowseComp에서 90.1%를 보였다. 코딩, 전문 업무, 도구 사용 쪽에서 전작보다 오른 부분이 확인된다.

(1) 코딩 작업자는 ‘처음부터 끝까지’ 맡겨볼 만한 순간이 늘었다

내가 AI 코딩 도구를 쓸 때 제일 답답했던 순간은 중간까지는 잘 가다가 마무리에서 무너지는 경우였다. 파일 하나는 잘 고쳤는데 다른 파일이 깨지고, 버튼 하나를 살리니 전체 레이아웃이 흔들리는 식이다.

① 이런 작업에서는 GPT 5.5가 더 잘 맞아 보였다

기존 웹사이트를 비슷한 톤으로 다시 만드는 작업
로컬 폴더 안의 여러 파일을 함께 읽고 수정하는 작업
프론트엔드 UI를 빠르게 잡고 반응형을 다듬는 작업
간단한 게임, 3D 시각화, 데이터 기반 화면을 만드는 작업
보안 점검 전 단계에서 의심 지점을 훑어보는 작업

OpenAI 개발자 문서에서도 2026년 4월 23일 변경 내역으로 GPT 5.5가 Codex에서 복잡한 코딩, 컴퓨터 사용, 지식 업무, 연구 워크플로에 맞는 새 프런티어 모델로 제공된다고 안내한다.

② 이런 사람에게는 아직 비용부터 계산하는 게 낫다

간단한 블로그 글감 변환만 하는 사람
짧은 코드 한두 줄만 고치는 사람
무료 또는 낮은 비용 모델로도 충분한 반복 작업을 하는 사람
결과물을 사람이 많이 손봐야 하는 디자인 취향 작업을 주로 하는 사람

비싼 모델은 항상 좋은 선택이 아니다. 내가 써보니 작업 실패 비용이 큰 일에 먼저 쓰는 게 낫다. 예를 들어 하루 종일 잡고 있어야 할 오류 수정, 여러 파일이 얽힌 프로젝트, 외주 전에 초안을 검토하는 작업 같은 쪽이다.

(2) API 비용은 감탄보다 계산이 먼저 나와야 했다

GPT 5.5 API 가격은 분명 부담스럽다. 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러면 가볍게 많이 돌리는 용도로는 신중해야 한다. GPT 5.5 Pro는 입력 100만 토큰당 30달러, 출력 100만 토큰당 180달러로 더 높다.

💰 내가 비용을 볼 때 먼저 따져보는 질문

상황	내가 고르는 쪽
간단한 문장 변환	낮은 비용 모델
코드 전체 흐름 점검	GPT 5.5
중요한 배포 전 검토	GPT 5.5 또는 Pro 검토
반복 대량 처리	비용 낮은 모델과 조합
복잡한 에이전트 작업	GPT 5.5 우선 검토

① 모델을 하나만 고집하면 손해가 날 수 있다

빠른 초안은 저렴한 모델로 돌린다.
중요한 수정은 GPT 5.5에 맡긴다.
최종 검토는 사람이 직접 본다.
비용이 큰 API 작업은 입력 길이를 먼저 줄인다.

내가 온라인 판매 일을 할 때도 마찬가지였다. 비싼 도구가 늘 이익을 남겨주지는 않았다. 다만 실수를 줄여주는 도구라면, 한 번의 사고를 막는 것만으로도 값어치를 했다.

② 토큰 비용보다 ‘수정 시간’도 같이 봐야 한다

싼 모델로 5번 실패하면 더 비쌀 수 있다.
비싼 모델이 한 번에 방향을 잡으면 시간이 줄어든다.
사람의 피로도가 줄면 다른 판단을 더 잘할 수 있다.
다만 단순 반복 작업까지 비싼 모델에 맡기면 낭비가 된다.

결국 핵심은 하나다. 어려운 일에는 비싼 모델, 단순한 일에는 가벼운 모델이다. 이걸 나눠 쓰는 사람이 비용을 덜 태운다.

3. GPT 5.5를 코덱스에서 써볼 때 나는 이렇게 접근하겠다

GPT 5.5를 처음 쓰는 사람은 흥분해서 큰 프로젝트부터 맡기고 싶어질 수 있다. 나도 예전에는 그랬다. 그런데 여러 도구를 써보니 처음에는 작게 테스트하고, 그다음에 맡기는 범위를 넓히는 게 덜 피곤했다.

(1) 처음에는 완성품보다 작업 습관을 보는 게 좋다

코딩 AI를 볼 때 나는 결과 화면만 보지 않는다. 중간에 어떻게 판단하는지, 파일을 어떻게 읽는지, 오류가 났을 때 어떻게 다시 잡는지를 본다.

① 첫 테스트는 이런 식으로 하는 게 편했다

기존 랜딩페이지를 하나 준비한다.
“모바일에서 어색한 부분을 찾아 고쳐달라”고 요청한다.
수정 전후 차이를 파일별로 설명하게 한다.
사람이 직접 실행해서 깨진 부분을 다시 말해준다.
마지막에는 불필요한 코드가 늘었는지 확인한다.

이 방식이 좋은 이유는 간단하다. 처음부터 거창한 앱을 만들면 뭐가 좋아졌고 뭐가 문제인지 판단하기 어렵다. 작은 화면 하나를 고치게 하면 모델의 습관이 보인다.

② 프롬프트는 길게 쓰기보다 맥락을 분명히 주는 게 낫다

“예쁘게 만들어줘”보다 “숙소 예약 페이지처럼 검색, 카드, 가격, 후기 흐름이 보이게 해줘”가 낫다.
“버그 고쳐줘”보다 “로그인 뒤 화면 전환이 멈추는 이유를 찾아줘”가 낫다.
“3D 게임 만들어줘”보다 “에셋을 불러와 캐릭터 이동과 충돌만 먼저 구현해줘”가 낫다.
“보안 봐줘”보다 “입력값 검증, 인증 흐름, 노출된 키를 먼저 확인해줘”가 낫다.

AI가 좋아질수록 프롬프트를 아무렇게나 써도 된다고 생각하기 쉽다. 그런데 내가 보기엔 반대다. 모델이 좋아질수록 요구가 분명할 때 결과 차이가 더 크게 난다.

(2) 코덱스 앱과 CLI 중에서는 편한 쪽부터 잡아도 된다

명령어 창이 편한 사람은 CLI가 빠르다. 하지만 나처럼 화면에서 흐름을 보며 대화하는 게 편한 사람은 앱으로 시작해도 충분하다.

🧭 처음 쓰는 사람이 덜 헤매는 순서

내가 하는 일	먼저 써볼 방식
파일 몇 개 고치기	코덱스 앱
터미널 작업이 익숙함	CLI
전체 프로젝트 점검	앱에서 흐름 확인 후 CLI 병행
빠른 실험	앱 대화 방식
자동화 반복	CLI 중심

① 앱으로 시작하면 부담이 적다

폴더를 연결하고 대화하듯 요청할 수 있다.
수정 내용을 눈으로 따라가기 쉽다.
개발 환경이 낯선 사람도 진입 장벽이 낮다.
결과가 마음에 안 들면 요청을 이어가기 편하다.

② CLI는 익숙해지면 속도가 붙는다

반복 작업을 빠르게 돌리기 좋다.
개발 환경과 붙여 쓰기 편하다.
터미널 로그를 바로 보며 고치기 좋다.
자동화 흐름을 만들 때 더 유리하다.

나는 처음부터 CLI에 매달릴 필요는 없다고 본다. 중요한 건 도구 이름이 아니라, 내 작업에서 시간을 어디서 줄여주는지를 찾는 일이다.

4. GPT 5.5가 좋아져도 사람이 놓으면 안 되는 부분이 있다

이번 모델을 보며 가장 크게 느낀 건 기대와 경계가 동시에 필요하다는 점이다. 분명 성능은 올라갔다. 하지만 성능이 올라간 만큼, 사람이 검토하지 않은 결과물이 더 그럴듯하게 보일 위험도 있다.

(1) 디자인이 좋아 보여도 사업 판단은 따로 해야 한다

웹사이트가 그럴듯하게 나오면 다 된 것처럼 느껴질 수 있다. 하지만 방문자가 클릭하는지, 결제까지 가는지, 문의가 생기는지는 다른 문제다.

① 나는 이런 부분은 꼭 다시 본다

첫 화면에서 무엇을 팔거나 안내하는지 바로 보이는지
버튼 문구가 행동을 헷갈리게 만들지 않는지
모바일에서 가격과 혜택이 잘 보이는지
너무 멋을 부리느라 속도가 느려지지 않았는지
개인정보 입력 화면이 불안해 보이지 않는지

공인중개사 일을 했던 시절에도 비슷했다. 매물이 아무리 좋아 보여도 손님이 처음 묻는 건 늘 현실적인 부분이었다. 가격, 위치, 관리 상태, 계약 리스크다. 웹사이트도 마찬가지다. 보기 좋은 화면보다 결정에 필요한 정보가 먼저 보여야 한다.

(2) 보안과 비용은 마지막에 보면 늦다

GPT 5.5가 보안 관련 평가에서도 향상된 모습을 보인 건 반가운 일이다. OpenAI 공개 평가에서 CyberGym은 GPT 5.5가 81.8%, 이전 GPT 5.4가 79.0%로 제시됐다.

① 내가 프로젝트를 맡긴 뒤 꼭 확인할 부분

API 키가 코드 안에 그대로 남아 있지 않은지 본다.
사용자 입력값을 그대로 처리하지 않는지 본다.
관리자 페이지 접근 흐름이 허술하지 않은지 본다.
결제, 로그인, 개인정보 관련 코드는 별도로 더 살핀다.
자동 생성된 의존성 패키지가 불필요하게 늘지 않았는지 본다.

AI가 점검을 도와줄 수는 있다. 다만 민감한 작업은 마지막 책임이 사람에게 남는다. 특히 돈과 계정, 개인정보가 걸린 작업은 “돌아간다”에서 멈추면 안 된다.

② 비용은 프로젝트 시작 전에 선을 그어야 한다

하루 테스트 비용을 먼저 정한다.
긴 문서와 큰 코드베이스는 필요한 부분만 넣는다.
반복 요청은 작은 단위로 나눈다.
Pro 모델은 정말 어려운 검토에만 쓴다.
팀 작업이라면 누가 어떤 모델을 쓰는지 미리 맞춘다.

좋은 모델일수록 더 많이 쓰고 싶어진다. 그런데 AI 도구도 결국 사업 도구다. 내가 쓰는 돈보다 줄어드는 시간이 커야 한다. 이 계산이 안 되면, 아무리 성능이 좋아도 오래 쓰기 어렵다.

5. 내가 GPT 5.5를 써본다면 이런 사람에게 먼저 권하겠다

모두에게 당장 바꾸라고 말하고 싶지는 않다. 하지만 어떤 사람에게는 꽤 빠르게 체감이 올 수 있다.

(1) 지금 코딩 AI를 쓰다 답답했던 사람은 한 번 비교해볼 만하다

① 특히 이런 상황이라면 차이가 보일 수 있다

Claude 계열 코딩 도구를 쓰다가 최근 결과가 아쉬웠던 사람
GPT 이전 모델의 디자인 감각이 답답했던 사람
코덱스에서 로컬 프로젝트를 이어서 고치고 싶은 사람
웹사이트 초안과 UI 개선을 빠르게 반복해야 하는 사람
3D, 게임, 데이터 시각화 작업을 가볍게 실험하고 싶은 사람

다만 모델 하나에만 매달리는 건 별로 좋지 않다. 나는 AI 도구를 볼 때도 한쪽만 믿지 않는다. 어느 날은 GPT가 낫고, 어느 날은 다른 모델이 더 잘 맞는다. 중요한 건 내 작업에 맞는 조합을 찾는 일이다.

(2) 아직은 무료 감탄보다 유료 계산이 먼저다

① 내가 최종적으로 남긴 생각은 이렇다

GPT 5.5는 코덱스와 붙었을 때 가치가 더 커진다.
단순 질문보다 파일과 도구를 오가는 작업에서 차이가 난다.
웹사이트 디자인 초안 품질은 확실히 좋아진 편이다.
API 비용은 가볍지 않으니 작업 난도별로 나눠 써야 한다.
중요한 프로젝트는 AI 결과를 그대로 믿지 말고 사람이 다시 봐야 한다.

결국 GPT 5.5는 “신기한 모델”보다 “일을 맡길 범위가 넓어진 도구”에 가깝다. 나는 이 지점이 더 중요하다고 본다. 감탄은 하루지만, 작업 시간이 줄어드는 건 계속 남기 때문이다.

마치며

GPT 5.5를 둘러싼 반응은 뜨겁지만, 내가 보기엔 핵심은 단순한 모델 경쟁이 아니다. 코덱스에서 프로젝트를 읽고, 고치고, 디자인하고, 점검하는 흐름이 얼마나 자연스러워졌느냐다.

처음 써본다면 큰 프로젝트를 한 번에 맡기기보다, 기존 웹페이지 하나나 작은 코드 폴더부터 연결해보는 편이 낫다. 그리고 결과가 마음에 들면 그때 API 비용, Pro 모델 필요 여부, 보안 점검 범위를 차근차근 넓히면 된다.

좋은 도구는 사람을 게으르게 만드는 게 아니라, 사람이 더 중요한 판단에 시간을 쓰게 만든다. GPT 5.5도 그렇게 써야 오래 간다.