본문 바로가기
AI - ARTTECH/Overview

오픈AI 'GPT-5' 전격 출시…안전성 주장과 독립 연구진 우회 성공 보고 상충

by AF(에엪) 2025. 9. 10.
반응형

오픈AI 'GPT-5' 전격 출시…안전성 주장과 독립 연구진 우회 성공 보고 상충

5,000시간 안전성 테스트 강조하지만 
독립 연구진들의 연속 우회 성공 보고로 안전성 검증의 한계가 드러나

 

 

오픈AI 로고.

 

 

[AF 에엪 기술융합부] 오픈AI는 2025년 8월 7일 차세대 AI 모델 'GPT-5'를 전격 출시하며 "지금까지 가장 똑똑하고 빠르며 유용한 모델"이라고 대대적으로 발표했다. 이 모델은 전문가 수준의 지능을 모든 사용자의 손에 전달한다는 목표로 개발되었으며, ChatGPT의 무료 사용자를 포함한 모든 계층이 접근할 수 있었다. 샘 알트만 오픈AI CEO는 GPT-5의 성능 향상을 강조하며 "GPT-3가 고등학생과 대화하는 느낌이었고, GPT-4가 대학생 같았다면, GPT-5는 처음으로 어떤 주제든 PhD 수준의 전문가와 대화하는 느낌"이라고 비유했다. 그는 또한 "GPT-5 같은 것은 인류 역사상 어떤 이전 시기에도 거의 상상할 수 없었을 것"이라고 덧붙이며 모델의 혁신성을 극찬했다.

통합 모델 아키텍처와 공식 성능 주장


GPT-5는 기존 모델들과는 확연히 다른 통합 모델 아키텍처를 채택했다. 이 시스템은 실시간으로 즉각 응답할지, 혹은 복잡한 문제에 대해 "더 깊이 생각할지"를 자동으로 결정하도록 설계되었다. 이러한 아키텍처는 빠른 기본 응답 모델, 깊이 있는 "GPT-5 thinking" 모델, 그리고 쿼리의 복잡도에 따라 적절한 모델을 선택하는 스마트 라우터로 구성되었다. 오픈AI의 공식 발표에 따르면, GPT-5는 소프트웨어 엔지니어링 벤치마크인 SWE-bench Verified에서 74.9%의 정확도를 기록하며 실제 코딩 문제 해결 능력에서 이전 모델들을 크게 앞질렀다고 밝혔다. AI 코드 에디터 커서(Cursor)는 "우리가 사용해본 가장 똑똑한 모델"이라고 평가하며 그 성능에 대해 긍정적인 입장을 표했다.

5,000시간 안전성 테스트 주장과 독립 검증의 상충


오픈AI는 GPT-5 개발 과정에서 5,000시간에 달하는 포괄적인 안전성 평가를 실시했다고 공식 발표했다. 미국 AI 안전연구소(US AISI)와 영국 AI 안전연구소(UK AISI) 등 정부 기관들이 평가에 참여했으며, 마이크로소프트 AI 레드팀(AI Red Team)과 오픈AI 내부 연구진이 실시한 110건의 공격 시도 중 단 16건만이 내부 위험 임계치를 초과했다고 발표했다. 

 

하지만 독립 연구진들의 평가는 오픈AI의 주장과 전혀 달랐다. 출시 직후 다수의 보안 연구팀들은 GPT-5의 안전장치를 성공적으로 우회했다고 연달아 보고했다.

출시 24시간 내에 뉴럴트러스트(NeuralTrust)는 "에코 챔버 + 스토리텔링(Echo Chamber + Storytelling)" 기법을 이용해 화염병 제조법을 유도하는 데 성공했다. SPLX AI는 1,000회 이상의 적대적 프롬프트 테스트에서 GPT-5가 보안 55.4%, 안전성 51.6%를 기록하며 이전 모델인 GPT-4o의 94.4%와 97.6%에 크게 뒤떨어진다고 발표했다. FAR.AI는 80시간의 테스트에서 "부분적 취약성"과 "모니터링 시스템을 우회하는 잠재적 엔드투엔드 공격"을 발견했다고 보고했다. 독립 연구진들은 "모델의 안전 시스템이 프롬프트를 개별적으로 심사하며 해로운 서사를 점진적으로 구축하는 다중 턴 공격에는 효과적이지 못했다"고 지적했다.

비즈니스 모델과 시장 영향 및 업계 반응


GPT-5 출시와 함께 오픈AI는 현재 투자자들과 약 5,000억 달러의 기업가치에 대한 논의를 진행 중이라고 CNBC가 보도했다. ChatGPT는 현재 주당 7억 명의 활성 사용자를 보유하고 있다고 발표했다. 구독 모델 측면에서는 ChatGPT Plus 가입자들이 확장된 GPT-5 사용량을 제공받고, ChatGPT Pro 고객들은 더욱 심화된 추론 능력을 제공하는 'GPT-5 Pro' 버전에 접근할 수 있도록 했다. 개발자들을 위해서는 API와 깃허브 모델 플레이그라운드(GitHub Models Playground)를 통한 접근도 동시에 제공되었다.

하지만 GPT-5의 출시를 둘러싼 논란은 끊이지 않는다. 옥스퍼드 대학 AI 윤리 연구소의 카리사 벨리즈(Carissa Véliz) 교수는 "이러한 시스템들이 아무리 놀라워도 진정한 수익성을 입증하지 못했다"며 "흥미를 유지해야 하는 압박이 있어 마케팅 거품일 수 있다"고 지적했다. 또한 아다 러브레이스 인스티튜트(Ada Lovelace Institute)의 스테파니 마르쿠스(Stephanie Marcus) 디렉터는 "이러한 모델들이 능력을 향상시킬수록 포괄적 규제의 필요성이 더욱 중요해진다"며 AI의 능력과 공중 거버넌스 기대치 간의 격차가 확대되고 있다고 경고했다.

이번 GPT-5 출시는 공식 안전성 주장과 독립 검증 결과가 현저히 상충되는 상황을 만든다. 오픈AI의 내부 평가와 독립 연구진의 실전적 우회 성공 보고가 공존하는 만큼, AI 안전성 평가 시스템의 근본적 한계를 드러낸 사례로 평가되었다.

 

AF 에엪 기술융합부 press@artfr.co.kr
 

◎ AF(에엪) https://artfr.co.kr
Copyright © ARTFR.CO.KR, 무단 전재 및 재배포 금지

#AF #에이에프 #에엪 #AI #인공지능 #오픈AI #챗GPT #chatGPT

 

반응형