엔비디아, 스펙트럼-X 네트워킹 플랫폼으로 AI 스토리지 최대 48% 가속화

등록일 2025년02월06일 10시27분 트위터로 보내기

 

엔비디아가 스토리지 생태계와 함께 엔비디아 스펙트럼-X(NVIDIA Spectrum-X) 네트워킹 플랫폼을 데이터 스토리지 패브릭으로 확장한다고 밝혔다. 스펙트럼-X는 AI 스토리지를 최대 48%까지 가속화해 보다 신속한 고성능 AI를 구현할 수 있다.

 

AI 팩토리는 단순히 컴퓨팅 패브릭에 의존하지 않는다. GPU를 연결하는 동서 네트워크가 AI 애플리케이션 성능에 매우 중요한 것처럼, 고속 스토리지 어레이를 연결하는 스토리지 패브릭 역시 중요하다. 스토리지 성능은 AI 수명주기의 여러 단계에서 핵심적인 역할을 한다. 여기에는 훈련 체크포인트, 검색 증강 생성(Retrieval Augmented Generation, RAG)과 같은 추론 기법 등이 있다.

 

이러한 요구를 충족시키기 위해 엔비디아와 스토리지 생태계는 엔비디아 스펙트럼-X 네트워킹 플랫폼을 데이터 스토리지 패브릭으로 확장하고 있다. 이를 통해 더 높은 성능과 더 빠른 AI 구현 시간을 제공할 수 있게 됐다. 스펙트럼-X 적응형 라우팅은 흐름 충돌을 완화하고 유효 대역폭을 확대시킬 수 있다. 따라서 대부분의 데이터 센터가 AI 컴퓨팅과 스토리지 패브릭에 사용하는 이더넷(Ethernet) 네트워킹 프로토콜인 RoCE v2보다 스토리지 성능이 훨씬 더 높다.

 

스펙트럼-X는 읽기 대역폭을 최대 48%, 쓰기 대역폭을 최대 41%까지 가속화한다. 이렇게 증가된 대역폭은 AI 워크플로우에서 스토리지에 의존하는 단계의 완료 속도를 높여 훈련 시 작업 완료 시간을 단축하고, 추론 시 토큰 간 지연 시간을 줄여준다.

 

스펙트럼-X와 통합한 주요 스토리지 파트너사들

AI 워크로드의 규모와 복잡성이 증가함에 따라, 스토리지 솔루션도 현대 AI 팩토리의 요구에 발맞춰 발전해야 한다. DDN, 바스트 데이터(VAST Data), 웨카(WEKA)를 포함한 주요 스토리지 공급업체들은 엔비디아와 협력해 스펙트럼-X를 위한 자사 솔루션을 통합하고 최적화함으로써 AI 스토리지 패브릭에 최첨단 기능을 도입하고 있다.

 

이스라엘-1 슈퍼컴퓨터로 대규모 스펙트럼-X 영향력 확대

엔비디아는 스펙트럼-X 성능을 최적화하기 위해 생성형 AI 슈퍼컴퓨터인 이스라엘-1(Israel-1)을 구축했다. 이 슈퍼컴퓨터는 AI 패브릭에 대한 사전 테스트와 검증된 청사진을 제공함으로써 네트워크 배포를 단순화한다. 이로 인해 이스라엘-1은 스펙트럼-X가 스토리지 워크로드에 미치는 영향을 테스트하기에 적합한 환경이 됐다. 나아가 실제 슈퍼컴퓨터 운영 환경의 맥락에서 네트워크가 스토리지 성능에 미치는 영향을 보여준다.

 

스펙트럼-X가 스토리지 네트워크에 미치는 영향을 확인하기 위해, 이스라엘-1 팀은 엔비디아 HGX H100 GPU 서버 클라이언트가 스토리지에 액세스할 때 발생하는 읽기, 쓰기 대역폭을 측정했다. 플렉시블 I/O 테스터(Flexible I/O Tester) 벤치마크를 사용한 이 테스트는 네트워크가 표준 RoCE v2 패브릭으로 구성된 상태에서 한 번 수행된 다음, 스펙트럼-X의 적응형 라우팅과 혼잡 제어가 켜진 상태에서 다시 수행됐다.

 

이 테스트는 클라이언트로 사용된 GPU 서버의 수를 40개에서 800개까지 다양하게 설정했다. 결과적으로 모든 경우에서 스펙트럼-X가 더 높은 성능을 보였다. 읽기 대역폭의 경우, 개선 폭이 20%에서 48%에 이르렀고, 쓰기 대역폭의 경우 9%에서 41%에 달했다. 이러한 결과는 DDN, 바스트, 웨카를 위한 파트너 생태계가 달성한 속도 향상과 비슷한 수준이다.

 

AI 성능에 매우 중요한 스토리지 네트워크 성능

스펙트럼-X가 왜 이렇게 큰 차이를 만드는지 이해하기 위해서는, 스토리지가 AI에 미치는 영향을 살펴보는 것이 도움이 된다. AI 성능은 단순히 거대 언어 모델(large language model, LLM) 단계 완료 시간만으로 결정되지 않으며, 여러 다른 요소들이 관련돼 있다. 예를 들어, 모델 훈련은 완료하는 데 며칠, 몇 주, 또는 몇 달이 걸리는 경우가 많다. 따라서 훈련 도중에 보통 몇 시간마다 부분적으로 훈련된 모델을 스토리지에 체크포인트로 저장하는 것이 합리적이다. 이로써 시스템 중단이 발생하더라도 훈련 진행 상황이 손실되지 않는다.

 

십억과 조 단위의 파라미터를 가진 모델들의 체크포인트 상태는 오늘날 가장 큰 LLM의 경우 최대 수 테라바이트에 달하는 데이터 크기로 커진다. 때문에 이를 저장하거나 복원하는 과정에서 ‘엘리펀트 플로우(elephant flow)’가 발생할 수 있다. 이는 스위치 버퍼와 링크를 압도할 수 있는 대량의 데이터가 폭증하는 현상이다. 따라서 네트워크는 훈련 워크로드에 최적의 활용이 제공되도록 보장해야 한다.

 

RAG는 스토리지 패브릭이 워크로드의 성능을 좌우할 수 있는 또 다른 사례이다. RAG를 사용하면 LLM이 지속적으로 성장하는 지식 기반과 결합돼 모델에 도메인별 컨텍스트를 추가한다. 이를 통해 추가적인 모델 훈련이나 미세 조정을 하지 않고도 더 나은 응답을 제공할 수 있다. RAG는 추가적인 콘텐츠 또는 지식을 벡터 데이터베이스에 임베딩해 검색 가능한 지식 기반을 만드는 방식으로 작동한다.

 

추론 프롬프트가 들어오면, 프롬프트가 파싱(임베딩)되고 데이터베이스가 검색된다. 검색된 내용은 프롬프트에 컨텍스트를 추가해 LLM이 최상의 답변을 구성할 수 있도록 돕는다. 벡터 데이터베이스는 다차원적이며, 특히 이미지와 비디오로 구성된 지식 기반의 경우 상당히 클 수 있다.

 

이 데이터베이스들은 스토리지 패브릭을 통해 추론 노드에 연결돼 있으며, 네트워크는 지연 시간을 최소화하기 위해 빠른 통신을 제공해야 한다. 초당 쿼리 수가 많은 다중 테넌트 생성형 AI 팩토리의 경우, 이 점이 특히 중요하다.

 

스토리지에 적응형 라우팅과 혼잡 제어 적용

스펙트럼-X 플랫폼은 RoCE 적응형 라우팅(Adaptive Routing)과 RoCE 혼잡 제어(Congestion Control)와 같은 인피니밴드(InfiniBand)에서 채택된 핵심 혁신 기술을 도입했다. 이러한 혁신 기술을 스토리지 패브릭과 함께 사용함으로써 엔비디아는 스토리지 워크로드에 대한 성능과 네트워크 활용도를 향상시킬 수 있다.

 

적응형 라우팅

엘리펀트 플로우 충돌을 제거하고 체크포인팅 중에 생성되는 네트워크 트래픽을 완화하기 위해, 적응형 라우팅은 네트워크에서 패킷 단위로 흐름의 부하를 동적으로 분산하는 데 사용된다. 스펙트럼-4 이더넷(Spectrum-4 Ethernet) 스위치는 실시간 혼잡 데이터를 기반으로 혼잡도가 가장 낮은 경로를 선택한다. 패킷이 네트워크 전반에 분산되기 때문에 목적지에 순서에 맞지 않게 도착할 수 있으며, 레거시 이더넷(Legacy Ethernet)에서는 그만큼 많은 패킷을 재전송해야 한다.

 

그러나 스펙트럼-X를 사용하면 대상 호스트의 슈퍼NIC(SuperNIC) 또는 데이터 처리 장치(data processing unit, DPU)는 패킷의 올바른 순서를 파악해 호스트 메모리에 순서대로 배치한다. 또한, 적응형 라우팅을 애플리케이션에 투명하게 유지한다. 이를 통해 패브릭 활용도를 높여 유효 대역폭을 넓히고 체크포인트, 데이터 가져오기 등에 대한 예측 가능하고 일관된 결과를 얻을 수 있다.

 

혼잡 제어

체크포인트와 기타 스토리지 작업은 종종 인캐스트 혼잡, 즉 다대일 혼잡을 초래한다. 이는 여러 클라이언트가 단일 스토리지 노드에 쓰기를 시도할 때 발생할 수 있다. 스펙트럼-X는 원격 측정 기반 혼잡 제어 기술을 도입했다. 이 기술은 스위치의 하드웨어 기반 원격 측정 기술을 사용해 슈퍼NIC 또는 DPU에 발신자 데이터 주입 속도(즉, RDMA 쓰기와 읽기)를 늦추도록 알린다. 이를 통해 혼잡 핫스팟이 발생함으로써 역전파돼 주변 작업이나 프로세스가 혼잡으로 인해 부당하게 영향을 받을 수 있는 상황을 방지한다.

 

복원력 향상

AI 팩토리는 대개 매우 많은 수의 스위치, 케이블, 트랜시버로 구성돼 있기 때문에, 다운된 링크 하나만으로도 네트워크 성능이 크게 저하될 수 있다. 따라서 네트워크 복원력은 인프라의 건전성을 유지하는 데 매우 중요하다. 스펙트럼-X 글로벌 적응형 라우팅은 링크 중단 시 최적의 상태로 신속하게 재수렴할 수 있도록 지원해 스토리지 패브릭을 잘 활용할 수 있도록 해준다.

 

엔비디아 스택과의 통합

엔비디아는 스펙트럼-X가 스토리지 패브릭에 가져온 혁신 외에도, GPU 데이터 경로에 대한 스토리지를 가속화하기 위해 여러 SDK, 라이브러리, 소프트웨어 제품을 제공하고 사용을 권장한다. 여기에는 다음과 같은 것들이 포함된다:

- 엔비디아 에어(Air): 스위치, 슈퍼NIC, 스토리지를 모델링하고, 데이(Day) 0, 1, 2 스토리지 패브릭 작업을 가속화하기 위한 클라우드 기반 네트워크 시뮬레이션 도구이다.

- 엔비디아 큐물러스 리눅스(Cumulus Linux): 자동화와 API를 중심으로 구축된 네트워크 운영 체제로, 대규모 운영과 관리를 원활하게 해준다.

- 엔비디아 도카(DOCA): 엔비디아 슈퍼NIC과 DPU를 위한 SDK로, 스토리지, 보안, 그 외 다양한 분야에서 탁월한 프로그래밍 가능성과 성능을 제공한다.

- 엔비디아 네트Q(NetQ): 스위치 원격 측정과 통합돼 패브릭에 대한 실시간 가시성을 제공하는 네트워크 검증 도구 세트이다.

- 엔비디아 GPU다이렉트 스토리지(GPUDirect Storage): 스토리지와 GPU 메모리 사이에 직접적인 데이터 경로를 가능하게 해 데이터 전송을 보다 효율적으로 만들어 주는 기술이다.

 

스펙트럼-X 시작하기

모델이 점점 커지고 데이터가 더 멀티모달화됨에 따라, 스토리지는 계속해서 생성형 AI의 훈련과 운영에 있어 중요한 요소가 될 것이다.

 

엔비디아 백서, ‘AI 스토리지 패브릭 최적화: 엔비디아 스펙트럼-X, AI 스토리지 네트워크 가속화(Optimizing AI Storage Fabrics: NVIDIA Spectrum-X Accelerates AI Storage Networks)’에서 더 많은 정보를 얻을 수 있다. 아울러 엔비디아 파트너 생태계에서 더 자세한 정보를 얻을 수 있다.

 

- DDN 블로그 게시물: DDN과 엔비디아 스펙트럼-X를 통한 AI 스토리지 네트워크 가속화(Accelerating AI Storage Networks with DDN and NVIDIA Spectrum-X)

- DDN 백서: DDN의 데이터 인텔리전스 플랫폼과 엔비디아 스펙트럼-X를 통한 AI 스토리지 네트워크 가속화(Accelerating AI Storage Networks with DDN’s Data Intelligence Platform and NVIDIA Spectrum-X for Storage)

- 바스트 블로그 게시물: 엔비디아 스펙트럼-X와 바스트 데이터 플랫폼: AI 인프라의 미래를 개척하다(NVIDIA Spectrum-X and VAST Data Platform: Pioneering the Future of AI Infrastructure)

- 바스트 백서: AI 스토리지 패브릭과 바스트 데이터 플랫폼을 위한 엔비디아 스펙트럼-X 기술(NVIDIA Spectrum-X Technology for AI Storage Fabrics and the VAST Data Platform)

- 웨카 블로그 게시물: 웨카가 엔비디아 스펙트럼-X를 사용해 AI와 HPC 워크로드에 대한 네트워킹을 재정의하는 방법(How WEKA Redefines Networking for AI and HPC Workloads using NVIDIA Spectrum-X)

 

엔비디아 GTC 2025에서 AI 워크로드를 위한 스토리지 혁신(Storage Innovations for AI Workloads) 세션을 확인하고 더 많은 소식들을 확인해 볼 수 있다.

 


관련뉴스 - 관련뉴스가 없습니다.
 

가장 많이 본 뉴스

취재기사 기획/특집 게임정보

화제의동영상