NVIDIA, Blackwell 아키텍처로 GPT-oss 모델 150만 TPS 가속화

AI - ARTTECH/Overview

NVIDIA, Blackwell 아키텍처로 GPT-oss 모델 150만 TPS 가속화

AF(에엪) 2025. 8. 19. 09:00

NVIDIA, Blackwell 아키텍처로 GPT-oss 모델 150만 TPS 가속화

GB200 NVL72 시스템에서 실시간 AI 추론 성능 비약적 향상

[AF 에엪 기술융합부] 2025년 8월 5일, NVIDIA가 차세대 GPU 아키텍처인 블랙웰(Blackwell) 기반의 GB200 NVL72 시스템을 공개했다. 이 시스템은 GPT-oss-20b 및 GPT-oss-120b 모델을 최대 150만 토큰/초(TPS)의 속도로 실행하는 데 성공했다. 이는 AI 언어 모델의 추론(Inference) 성능을 획기적으로 끌어올린 결과로, 특히 대규모 언어 모델(LLM)의 실시간 서비스 가능성을 크게 확장했다고 평가된다.

이번 성능 향상은 블랙웰 아키텍처의 여러 기술적 혁신 덕분이다. 먼저, FP4 텐서코어는 기존의 FP8보다 더 낮은 정밀도를 사용해 연산 속도를 높이는 핵심 기술이다. 여기에 GPU 간 초고속 통신을 지원하는 5세대 NVLink와 NVLink Switch, 그리고 AI 모델의 연산을 최적화하는 소프트웨어인 TensorRT-LLM의 플래시인퍼(FlashInfer) 및 컷라스 MoE(CUTLASS MoE) 최적화 커널이 결합되었다. 이 모든 기술들이 시너지를 일으켜 대규모 AI 모델의 실시간 응답 속도를 극대화했다.

AI 서비스의 새로운 지평을 열다

NVIDIA는 단일 GB200 NVL72 랙(Rack)이 수천 명의 동시 사용자에게도 안정적인 응답 속도를 제공할 수 있다고 발표했다. 이는 AI 기반의 실시간 비서, 대화형 교육 플랫폼, 고품질 챗봇 등 다양한 AI 애플리케이션의 상용화를 현실로 만들었다는 의미이다. NVIDIA는 이러한 고성능을 데이터 센터의 클라우드(Cloud) 환경뿐만 아니라, 사용자와 가까운 기기인 엣지(Edge) 디바이스에서도 구현하는 '클라우드 투 엣지(Cloud to Edge)' 전략을 제시했다. 이를 통해 HPC 클러스터와 엣지 환경 모두에서 일관된 AI 성능을 보장해 AI 서비스 개발을 가속화할 계획이다.

성능 지표의 추가 공개 필요성

이번 발표에서 가장 중요한 수치는 150만 TPS 달성이었다. 그러나 이전 세대인 H100 GPU 대비 모델 훈련 시간 단축, 전력 효율 개선, 메모리 사용량 감소 등과 같은 구체적인 정량적 비교 수치는 아직 공식적으로 공개되지 않았다. NVIDIA의 공식 기술 블로그나 개발자 포럼에서도 이러한 상세한 데이터는 언급되지 않아, 시장에서는 향후 발표될 추가 정보를 기다리고 있다. NVIDIA 개발자 포럼은 "150만 TPS 달성은 실시간 AI 비서, 대화형 교육 플랫폼 등 새로운 서비스의 가능성을 연다"고 평가하며 기술의 잠재력에 기대를 나타냈다.

AF 에엪 기술융합부 press@artfr.co.kr