엔비디아, 구글 클라우드와 협력 강화... 생성형 AI 앱과 서비스 개발 가속화 지원

등록일 2024년04월12일 10시34분 트위터로 보내기

 

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 구글 클라우드(Google Cloud)와의 협력 하에 전 세계 스타트업의 생성형 AI 애플리케이션과 서비스 개발 가속화를 지원한다고 발표했다.

 



 

9일 미국 라스베이거스에서 개최된 ‘구글 클라우드 넥스트(Google Cloud Next) 2024’에서 스타트업을 위한 엔비디아 인셉션(NVIDIA Inception) 프로그램과 구글 포 스타트업 클라우드(Google for Startups Cloud) 프로그램을 통합한다는 양사의 협업 소식이 발표됐다. 이번 협업으로 엔비디아와 구글 클라우드는 클라우드 크레딧, 시장 진출 지원, 그리고 기술 전문 지식에 대한 접촉 기회 확대를 통해 고객에게 더 빠르게 스타트업의 가치를 제공하도록 지원한다.

 

18,000개 이상의 스타트업을 지원하는 엔비디아 인셉션 글로벌 프로그램의 회원은, 특히 AI에 중점을 둔 스타트업의 경우, 최대 35만 달러의 구글 클라우드 크레딧을 제공받고 구글 클라우드 인프라 사용 가속화 경로를 확보할 수 있다.

 

구글 포 스타트업 클라우드 프로그램 멤버는 엔비디아 인셉션에 가입해 기술 전문 지식, 엔비디아 딥 러닝 인스티튜트(Deep Learning Institute) 과정 크레딧, 엔비디아 하드웨어와 소프트웨어 등을 이용할 수 있다. 또한 구글 포 스타트업 클라우드 프로그램의 스타트업 회원은 해당 분야에 관심이 있는 벤처 투자 기관에 노출될 기회를 주는 엔비디아 인셉션 캐피탈 커넥트(Inception Capital Connect) 플랫폼에 참여할 수 있다.

 

두 프로그램 모두에서 급성장한 신생 소프트웨어 제조업체는 구글 클라우드 마켓플레이스(Marketplace) 등록, 공동 마케팅, 제품 개발 가속화 지원을 우선적으로 받을 수 있다.

 

양사의 이번 협력은 다양한 규모의 기업이 생성형 AI 애플리케이션을 개발하는 데 드는 비용을 절감하고 장벽을 완화하기 위해 공개된 일련의 발표들 중 가장 최근에 이뤄진 것이다. 특히 스타트업은 AI 투자에 대한 높은 비용으로 인해 많은 제약을 받고 있다.

 

풀스택 AI 플랫폼의 필요성

지난 2월, 구글 딥마인드(DeepMind)는 최첨단 개방형 모델 제품군 젬마(Gemma)를 공개했다. 엔비디아는 최근 구글과 협력해 모든 젬마 전용 엔비디아 AI 플랫폼에 대한 최적화를 실시, 고객 비용 절감과 특정 도메인별 사용 사례 혁신을 가속했다.

 

젬마는 구글 딥마인드의 가장 뛰어난 모델 제미나이(Gemini) 제작에 사용된 동일한 연구와 기술로 구축됐다. 양사의 긴밀한 협력으로 거대 언어 모델(large language models, LLM) 추론 최적화를 위한 오픈 소스 라이브러리 엔비디아 텐서RT-LLM(TensorRT-LLM)을 통해 엔비디아 GPU로 젬마를 실행, 젬마의 성능을 신속히 발전시켰다.

 

엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일종인 엔비디아 NIM  마이크로서비스는 구글 쿠버네티스 엔진(Kubernetes Engine, GKE)과 함께 AI 기반 앱을 개발하고 최적의 AI 모델을 생산 단계에 배포하기 위한 간소화된 경로를 제공한다. 엔비디아 트리톤 추론 서버(Triton Inference Server)와 텐서RT-LLM을 포함한 추론 엔진을 기반으로 구축된 NIM은 광범위한 선도적 AI 모델을 지원하고, 확장성 있고 원활한 AI 추론을 제공하여 기업의 생성형 AI 배포를 가속한다.

 

젬마 7B(Gemma 7B), 리커런트젬마(RecurrentGemma), 코드젬마(CodeGemma)를 포함한 젬마 모델 제품군은 엔비디아 API 카탈로그에서 사용 가능하며, 사용자는 이를 브라우저에서 사용하거나, API 엔드포인트로 프로토타입을 제작하거나, NIM을 통한 셀프 호스팅을 할 수 있다.

 

구글 클라우드를 사용하면 GKE와 구글 클라우드 HPC 툴킷으로 플랫폼 전반에 엔비디아 네모(NeMo) 프레임워크를 배포하기 쉬워진다. 이를 통해 개발자는 생성형 AI 모델의 훈련과 제공을 확장하고 자동화할 수 있으며, 개발 과정에 빠르게 착수하는 맞춤형 청사진을 통해 턴키 환경을 신속히 구축할 수 있다.

 

엔비디아 AI 엔터프라이즈의 일부인 엔비디아 네모는 구글 클라우드 마켓플레이스에서도 이용 가능하다. 이를 통해 고객들은 네모 및 기타 프레임워크에 쉽게 액세스해 AI 개발을 가속할 수 있다.

 

구글 클라우드는 엔비디아 생성형 AI 가속 컴퓨팅의 가용성 확대를 위해 다음 달 A3 메가(Mega)의 정식 출시를 발표했다. 해당 인스턴스는 엔비디아 H100 텐서 코어(H100 Tensor Core) GPU로 구동되는 A3 가상 머신(VM) 제품군의 확장으로, A3 VM에서 GPU 대 GPU 네트워크 대역폭이 두 배로 늘었다.

 

A3에 탑재된 구글 클라우드의 새로운 컨피덴셜(Confidential) VM에는 컨피덴셜 컴퓨팅에 대한 지원도 포함돼 있어, 고객이 H100 GPU 가속에 액세스하는 동안 코드를 변경하지 않고도 민감 데이터의 기밀성과 무결성을 보호하고 학습과 추론 도중 애플리케이션과 AI 워크로드를 보호할 수 있다. 이 GPU 기반 컨피덴셜 VM은 올해 미리 보기로 제공될 예정이다.

 

다음 단계: 엔비디아 블랙웰 기반 GPU

엔비디아 블랙웰(Blackwell) 플랫폼에 기반한 엔비디아의 최신 GPU는 내년 초에 두 가지 버전, 엔비디아 HGX B200과 엔비디아 GB200 NVL72로 구글 클라우드에 출시될 예정이다.

 

HGX B200은 가장 까다로운 AI, 데이터 분석 그리고 고성능 컴퓨팅 워크로드를 위해 설계됐으며, GB200 NVL72는 차세대, 대규모, 조 단위의 매개변수 모델 학습과 실시간 추론을 위해 설계됐다.

 

엔비디아 GB200 NVL72는 각각 2개의 엔비디아 블랙웰 GPU와 엔비디아 그레이스 CPU(Grace CPU)가 결합된 36개의 그레이스 블랙웰 슈퍼칩을 900GB/s의 칩투칩(chip-to-chip) 인터커넥트를 통해 연결한다. 이는 하나의 엔비디아 NV링크(NVLink) 도메인에서 최대 72개의 블랙웰 GPU와 130TB/s의 대역폭을 지원한다. 통신 병목 현상을 극복하고 단일 GPU처럼 작동해 이전 세대 대비 30배 빠른 실시간 LLM 추론과 4배 빠른 트레이닝을 제공한다.

 

엔비디아 GB200 NVL72는 멀티 노드 랙 스케일 시스템으로, 구글 클라우드의 4세대 고급 액체 냉각 시스템과 결합될 예정이다.

 

엔비디아는 지난달 생성형 AI의 요구사항에 최적화된 엔터프라이즈 개발자용 AI 플랫폼인 엔비디아 DGX 클라우드를 H100 GPU 기반의 A3 VM에서 사용할 수 있다고 발표했다. GB200 NVL72가 탑재된 DGX 클라우드는 2025년 구글 클라우드에서도 제공될 예정이다.

관련뉴스 - 관련뉴스가 없습니다.

가장 많이 본 뉴스

취재기사 기획/특집 게임정보

화제의동영상