엔비디아, AI 인프라 혁신 위해 블랙웰 플랫폼 설계 공유

등록일 2024년10월16일 10시27분 트위터로 보내기

 

엔비디아(CEO 젠슨 황)가 오픈 컴퓨트 프로젝트(Open Compute Project, OCP)에 블랙웰(Blackwell) 가속 컴퓨팅 플랫폼 설계를 제공해 AI 인프라 혁신 가속화에 나선다고 밝혔다.

 

엔비디아(NVIDIA)는 개방적이고 효율적이며 확장 가능한 데이터센터 기술 개발을 촉진하기 위해, 블랙웰 가속 컴퓨팅 플랫폼 설계의 기본 요소를 OCP에 제공해 오고 있다고 발표했다. 또한, 엔비디아는 OCP 표준에 대한 엔비디아 스펙트럼-X™(Spectrum-X™)지원을 확대할 예정이다.

 

엔비디아는 올해 OCP 글로벌 서밋(OCP Global Summit)에서 OCP 커뮤니티와 엔비디아 GB200 NVL72 시스템의 전자 기계 설계의 주요 부분을 공유한다. 여기에는 더 높은 컴퓨팅 밀도와 네트워킹 대역폭을 지원하기 위한 랙 아키텍처, 컴퓨팅과 스위치 트레이 기계 구조, 액체 냉각과 열 환경 사양, 엔비디아 NV링크™(NVLink™) 케이블 카트리지 용적 측정 등이 포함된다.

 

엔비디아는 이미 엔비디아 HGX™ H100 베이스보드 설계 사양을 비롯해 여러 세대의 하드웨어에 걸쳐 OCP에 공식적으로 기여해 오고 있다. 이를 통해 전 세계 컴퓨터 제조업체의 제품 선택 폭을 넓히고, AI 채택을 확대할 수 있도록 생태계에 도움을 주고 있다.

 

또한, OCP 커뮤니티에서 개발한 사양에 맞춰 확장된 엔비디아 스펙트럼-X 이더넷(Spectrum-X Ethernet) 네트워킹 플랫폼을 통해 기업은 투자를 보호하고 소프트웨어 일관성을 유지하면서 OCP 인증 장비를 배포하는 AI 팩토리의 성능 잠재력을 활용할 수 있게 됐다.

 

엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “엔비디아는 OCP와의 10년간의 협력을 바탕으로 업계 리더들과 함께 전체 데이터센터에 널리 채택될 수 있는 사양과 설계를 만들기 위해 노력하고 있다. 우리는 개방형 표준을 발전시킴으로써 전 세계 조직이 가속 컴퓨팅의 잠재력을 최대한 활용하고 미래의 AI 팩토리를 만들 수 있도록 돕고 있다”고 말했다.

 

차세대 산업 혁명을 위한 가속 컴퓨팅 플랫폼

엔비디아의 가속 컴퓨팅 플랫폼은 새로운 AI 시대를 구현하도록 설계됐다.

 

GB200 NVL72는 컴퓨터 제조업체가 방대한 데이터센터 인프라 설계를 빠르고 비용 효율적으로 구축할 수 있도록 지원하는 엔비디아 MGX™ 모듈형 아키텍처를 기반으로 한다.

 

이 수냉식 시스템은 36개의 엔비디아 그레이스™(Grace™) CPU와 72개의 엔비디아 블랙웰 GPU를 랙 스케일 설계로 연결한다. 72개의 GPU로 구성된 엔비디아 NV링크 도메인은 단일 대규모 GPU로 작동하며, 엔비디아 H100 텐서 코어(Tensor Core) GPU보다 30배 빠른 실시간 1조 개 매개변수 대규모 언어 모델 추론을 제공한다.

 

차세대 엔비디아 커넥트X-8 슈퍼NIC(ConnectX-8 SuperNIC™)를 포함하는 엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼은 OCP의 스위치 앱스트랙션 인터페이스(Switch Abstraction Interface, SAI)와 소닉(Software for Open Networking in the Cloud, SONiC) 표준을 지원한다. 이를 통해 고객은 스펙트럼-X의 적응형 라우팅과 원격 측정 기반 혼잡 제어를 사용해 스케일 아웃(scale-out) AI 인프라를 위한 이더넷 성능을 가속화할 수 있다.

 

커넥트X-8 슈퍼NIC는 최대 800Gb/s 속도의 가속화된 네트워킹과 대규모 AI 워크로드에 최적화된 프로그래밍 가능한 패킷 처리 엔진을 제공한다. OCP 3.0용 커넥트X-8 슈퍼NIC는 내년에 출시될 예정이며, 이를 통해 기업은 매우 유연한 네트워크를 구축할 수 있다.

 

데이터센터를 위한 핵심 인프라

전 세계가 범용 컴퓨팅에서 가속화된 AI 컴퓨팅으로 전환하면서 데이터센터 인프라는 점점 더 복잡해지고 있다. 개발 프로세스를 간소화하기 위해 엔비디아는 AI 팩토리 구축을 위한 핵심 구성 요소를 제공하는 40개 이상의 글로벌 전자 제품 제조업체와 긴밀히 협력하고 있다.

 

또한, GB200 NVL72 기반의 카탈리나 AI(Catalina AI) 랙 아키텍처를 OCP에 제공할 계획인 메타(Meta)를 비롯해 다양한 파트너가 블랙웰 플랫폼을 기반으로 혁신과 구축을 진행하고 있다. 이를 통해 컴퓨터 제조업체는 높은 컴퓨팅 밀도 시스템을 구축하고 데이터센터의 증가하는 성능과 에너지 효율 요구 사항을 충족할 수 있는 유연한 옵션을 제공할 수 있다.

 

이 지운 송(Yee Jiun Song) 메타 엔지니어링 부사장은 “엔비디아는 지난 2년간 그랜드 티턴(Grand Teton) 서버의 기반이 된 고성능 컴퓨팅 플랫폼을 비롯해 수년 동안 개방형 컴퓨팅 표준에 크게 기여해 왔다. 대규모 인공 지능의 컴퓨팅 수요 증가를 충족하기 위해 발전하는 과정에서 랙 설계와 모듈식 아키텍처에 대한 엔비디아의 최신 기여는 업계 전반에서 AI 인프라의 개발과 구현 속도를 높이는 데 도움이 될 것”이라고 말했다.

 

10월 15일부터 17일까지 새너제이 컨벤션 센터(San Jose Convention Center)에서 개최되는 2024 OCP 글로벌 서밋에서 오픈 컴퓨트 프로젝트에 대한 엔비디아의 공헌에 대해 자세히 알아볼 수 있다.

 


관련뉴스 - 관련뉴스가 없습니다.
 

가장 많이 본 뉴스

취재기사 기획/특집 게임정보

화제의동영상