엔비디아(CEO 젠슨 황)가 미국 새너제이에서 열린 GTC에서 오픈소스 추론 소프트웨어인 엔비디아 다이나모(NVIDIA Dynamo)를 공개했다. 이를 통해 AI 팩토리에서 AI 추론 모델을 최저 비용, 최고 효율로 가속하고 확장할 수 있다.
대규모 GPU 플릿에서는 AI 추론 요청을 효율적으로 조직하고 조정하는 작업이 매우 중요하다. 이를 통해 AI 팩토리의 운영 비용을 최소화하고 토큰 수익 창출을 극대화할 수 있다.
AI 추론이 보편화됨에 따라 모든 AI 모델은 매 프롬프트마다 ‘생각’에 사용되는 토큰을 수만 개씩 생성하게 될 것이다. 추론 성능을 높이면서 비용을 지속적으로 낮추면 서비스 제공업체의 성장이 가속화되고, 수익 창출 기회가 증가한다.
엔비디아 트리톤 추론 서버™(Triton Inference Server™)의 후속 제품인 엔비디아 다이나모는 추론형 AI 모델을 배포하는 AI 팩토리의 토큰 수익 창출을 극대화하도록 고안된 AI 추론 서빙 소프트웨어다. 수천 개의 GPU에서 추론 통신을 조정, 가속한 뒤 분리 서빙 방식을 통해 거대 언어 모델(Large Language Model, LLM)의 처리와 생성 단계들을 서로 다른 GPU에 분리한다. 이를 통해 각 단계에서 특정 요구 사항에 맞춰 독립적 최적화가 가능하고, GPU 리소스 활용을 극대화할 수 있다.
엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “전세계 산업계가 AI 모델의 사고와 학습에 필요한 훈련의 방식을 다양화함에 따라 모델도 보다 정교해지고 있다. 엔비디아 다이나모는 추론 맞춤형 AI를 구현하기 위해 모델의 대규모 서빙을 지원한다. 이를 통해 AI 팩토리 전반에서 비용을 절감하고 효율을 높인다”고 말했다.
다이나모는 같은 수의 GPU를 사용해 엔비디아 호퍼™(Hopper™) 플랫폼에서 라마(Llama) 모델을 지원하는 AI 팩토리의 성능과 수익을 두 배로 증가시킨다. GB200 NVL72 랙으로 구성된 대형 클러스터에서 딥시크(DeepSeek)-R1 모델을 구동할 경우, 엔비디아 다이나모의 지능형 추론 최적화를 통해 GPU당 생성되는 토큰의 수가 30배 이상 증가한다.
엔비디아 다이나모는 추론 성능 개선을 위해 처리량 증가와 비용 절감에 필요한 기능들을 통합했다. 변동성이 심한 요청의 양과 유형에 따라 GPU를 동적으로 추가, 제거, 재할당할 수 있으며, 대형 클러스터에서 특정 GPU를 정확히 찾아내 응답에 필요한 계산과 쿼리 라우팅을 최소화한다. 또한 추론 데이터를 보다 저렴한 메모리나 저장장치로 오프로드하고 필요할 때 신속하게 검색해 추론 비용을 최소화할 수 있다.
다이나모는 완전한 오픈소스 형태로 제공되며, 파이토치(PyTorch), SG랭(SGLang), 텐서RT™(TensorRT™)-LLM, vLLM을 지원한다. 이를 통해 기업, 스타트업, 연구자들이 분산된 추론 환경에서 AI 모델을 제공하고 최적화할 수 있는 방법을 개발할 수 있도록 지원한다. 결과적으로 사용자들은 AI 추론 도입을 가속할 수 있게 될 것이다. 여기에는 아마존 웹 서비스(Amazon Web Services, AWS), 코히어(Cohere), 코어위브(CoreWeave), 델(Dell), 파이어웍스(Fireworks), 구글 클라우드(Google Cloud), 람다(Lambda), 메타(Meta), 마이크로소프트 애저(Microsoft Azure), 네비우스(Nebius), 넷앱(NetApp), OCI, 퍼플렉시티(Perplexity), 투게더 AI(Together AI), 바스트(VAST) 등이 포함된다.
추론 강화
엔비디아 다이나모는 추론 시스템이 이전 요청을 처리하면서 메모리에 저장한 지식(KV 캐시)을 잠재적으로 수천 개의 GPU에 매핑한다. 그런 다음 새로운 추론 요청을 가장 적합한 지식이 저장된 GPU로 라우팅해 비용이 많이 드는 재계산을 피하고, 향후 요청에 응답할 GPU도 확보한다.
퍼플렉시티 AI의 CTO인 데니스 야라츠(Denis Yarats)는 “매월 수억 건의 요청을 처리해야 하는 상황에서, 퍼플렉시티는 엔비디아 GPU와 추론 소프트웨어를 활용해 성능과 신뢰성을 높이면서 자사 업무와 사용자의 수요에 부응하고 있다. 보다 향상된 분리 서빙 기능을 제공하는 다이나모를 활용해 추론 서빙의 효율을 높이고 새로운 AI 추론 모델의 컴퓨팅 요구 조건들을 만족시킬 수 있기를 기대한다”고 말했다.
에이전틱 AI
AI 제공업체 코히어는 엔비디아 다이나모를 활용해 자사 모델 시리즈인 커맨드(Command)의 에이전틱 AI(Agentic AI) 기능을 강화할 계획이다.
코히어 엔지니어링 부문 수석 부사장인 사우라브 바지(Saurabh Baji)는 “고급 AI 모델을 확장하려면 정교한 GPU 스케줄링과 빈틈없는 조율, 메모리와 스토리지 전반에서 추론 컨텍스트를 원활히 전송해줄 저지연 통신 라이브러리가 필요하다. 엔비디아 다이나모의 도움으로 코히어 고객들에게 최고의 사용자 경험을 제공할 수 있기를 기대한다”고 말했다.
분리 서빙
엔비디아 다이나모 추론 플랫폼은 분리 서빙을 지원한다. 이를 통해 사용자 쿼리 이해를 구축하고 최상의 응답을 생성하는 등 다양한 LLM 계산 단계를 서로 다른 GPU에 할당한다. 이 접근 방식은 새로운 엔비디아 라마 네모트론(Llama Nemotron) 모델 제품군과 같은 추론 모델에 이상적이며, 이 모델은 향상된 맥락 이해와 응답 생성을 위한 고급 추론 기술을 사용한다. 분리 서빙을 통해 각 단계의 미세 조정과 리소스 확보를 독립적으로 수행해 처리량을 개선하고 보다 빠른 응답을 제공할 수 있다.
AI 가속 클라우드(AI Acceleration Cloud)인 투게더 AI는 자체 개발한 투게더 인퍼런스 엔진(Together Inference Engine)을 엔비디아 다이나모와 통합해 GPU 노드 전반에서 추론 워크로드를 원활히 확장되도록 지원하는 방안을 계획하고 있다. 이를 통해 모델 파이프라인의 다양한 단계에서 트래픽 병목 현상을 동적으로 해결할 수 있다.
투게더 AI의 세 장(Ce Zhang) CTO는 “추론 모델을 비용 효율적으로 확장하려면 분리 서빙과 맥락 인식 라우팅 등 새로운 고급 추론 기술이 필요하다. 투게더 AI는 자체 추론 엔진을 사용해 업계 최고의 성능을 제공한다. 엔비디아 다이나모의 개방성과 모듈성을 통해 구성 요소들을 엔진에 원활히 연결해 더 많은 요청을 처리할 수 있다. 또한 리소스 활용을 최적화하면서 가속 컴퓨팅에 대한 투자를 극대화할 수 있을 것이다. 이 플랫폼의 혁신적인 기능을 통해 투게더 AI 사용자에게 비용 효율적으로 오픈소스 추론 모델을 제공할 수 있게 돼 기쁘다”고 말했다.
엔비디아 다이나모의 구성
엔비디아 다이나모는 추론 서빙 비용을 절감하고 사용자 경험을 개선하는 4가지 혁신적인 기능을 포함하고 있다.
GPU 플래너(GPU Planner): 변동성 강한 사용자 수요에 맞춰 GPU를 동적으로 추가하거나 제거해 GPU의 과잉 또는 과소 프로비저닝을 방지하는 계획 엔진이다.
스마트 라우터(Smart Router): 반복되거나 중복되는 요청에 대한 비용이 많이 드는 GPU 재연산 최소화를 위해 대규모 GPU 제품군 전체에 요청을 지시하는 LLM 인식 라우터이다. 새로운 수신 요청에 응답할 수 있도록 GPU를 확보한다.
로우 레이턴시 커뮤니케이션 라이브러리(Low-Latency Communication Library): 최첨단 ‘GPU-to-GPU’ 통신을 지원하고 이질적인 장치 간 데이터 교환 복잡성을 줄여 데이터 전송을 가속하는 추론 최적화 라이브러리이다.
메모리 매니저(Memory Manager): 사용자 경험에 영향을 주지 않으면서 추론 데이터를 저비용 메모리나 저장장치에 지능적으로 오프로드 또는 리로드하는 엔진이다.
엔비디아 다이나모는 엔비디아 NIM 마이크로서비스에서 제공되며, 향후 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼 릴리즈에서 프로덕션급 보안, 지원, 안정성과 함께 지원될 예정이다.
여기에서 엔비디아 GTC 기조연설을 시청하거나 블로그 게시글을 통해 다이나모에 대한 더 자세한 내용을 확인할 수 있다.
| |||
| |||
| |||
| |||
|
|
|||
|