OpenAI가 대규모 AI 인프라에 최적화된 gpt-oss-120b와 gpt-oss-20b 두 종의 오픈소스 추론 모델을 출시했다. 이들 모델은 수억여 대에 달하는 NVIDIA CUDA GPU 환경에서 손쉽게 운용할 수 있도록 설계됐다.
두 모델 모두 NVIDIA H100 GPU에서 훈련됐으며, Blackwell GB200 NVL72 시스템에서는 초당 150만 토큰에 달하는 추론 성능을 구현한다. Real-time 응답이 요구되는 애플리케이션에서 지연을 최소화해 산업 전반의 AI 도입을 가속화할 것으로 기대된다.
또한 FlashInfer, llama.cpp, vLLM, Hugging Face 등 주요 오픈 프레임워크와의 완벽한 호환을 지원해 개발자들이 기존 도구를 그대로 활용할 수 있다. GeForce RTX 및 RTX PRO GPU에서도 최적화된 라이브러리를 통해 뛰어난 성능을 보장한다.
“NVIDIA AI를 통해 구축 가능한 사례를 전 세계에 보여줬다. 이제 오픈소스 소프트웨어 혁신을 한층 가속화할 차례다”라고 Jensen Huang NVIDIA CEO는 밝혔다. 해당 모델은 노트북부터 데이터센터, 클라우드 플랫폼에 이르기까지 광범위한 컴퓨트 환경에서 운용될 예정이다.