엔비디아, 모든 플랫폼에서 메타 '라마3' 추론 가속화 지원

등록일 2024년04월24일 18시08분 트위터로 보내기

 

엔비디아(www.nvidia.co.kr)가 모든 플랫폼에서 메타(Meta)의 최신 거대 언어 모델(large language model, LLM)인 라마3(Llama 3)를 가속화하기 위한 최적화를 발표했다.

 

엔비디아(NVIDIA) 가속 컴퓨팅과 결합된 이 개방형 모델은 다양한 애플리케이션에서 개발자와 연구원 그리고 기업들의 주도적인 혁신을 지원할 예정이다.

 

엔비디아 AI로 훈련

메타 엔지니어들은 24,576개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재되고, 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand) 네트워크와 연결된 컴퓨터 클러스터에서 라마3을 훈련했다. 메타는 엔비디아의 지원을 통해 네트워크, 소프트웨어, 모델 아키텍처를 자사의 대표 LLM에 맞게 조정했다.

 

메타는 최근 발표에서 생성형 AI의 최첨단 기술을 더욱 발전시키기 위해 인프라를 350,000개의 H100 GPU로 확장할 계획이라고 밝혔다.

 

라마3 활용하기

엔비디아 GPU에서 가속화된 라마3가 클라우드, 데이터센터, 엣지 그리고 PC에서 사용할 수 있도록 출시됐다.

 

개발자는 브라우저에서 ai.nvidia.com에 접속해 라마3를 사용해 볼 수 있다. 라마3는 어디서나 배포될 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 엔비디아 NIM 마이크로서비스로 패키징돼 있다.

 

기업은 보안이 지원되는 엔비디아 AI 엔터프라이즈(AI Enterprise) 플랫폼의 일부인 LLM용 오픈 소스 프레임워크 엔비디아 네모(NeMo)를 사용해 데이터로 라마3를 미세 조정할 수 있다. 사용자 지정 모델은 엔비디아 텐서RT-LLM으로 추론에 최적화하고 엔비디아 트리톤 추론 서버(Triton Inference Server)로 배포할 수 있다.

 

라마3를 디바이스와 PC에서 사용하기

라마3는 로보틱스와 엣지 컴퓨팅 디바이스를 위한 엔비디아 젯슨 오린(Jetson Orin)에서 실행되며, 젯슨 AI 랩(AI Lab)에서와 같은 대화형 에이전트를 생성한다.

 

또한 워크스테이션과 PC용 엔비디아 RTX와 지포스 RTX(GeForce RTX) GPU는 라마3에서 추론 속도를 높인다. 이러한 시스템을 통해 개발자는 전 세계 1억 개 이상의 엔비디아 가속 시스템을 활용할 수 있다.

 

라마3로 최적의 성능 확보하기

챗봇용 LLM을 배포하기 위해서는 짧은 지연 시간, 우수한 읽기 속도, 비용 절감을 위한 최적의 GPU 사용 간의 균형을 고려해야 한다.

 

이러한 서비스는 단어 수준에 해당하는 토큰을 초당 약 10개의 토큰을 처리하는 사용자의 읽기 속도보다 약 2배 빠른 속도로 전달해야 한다.

 

이러한 측정을 적용한 결과, 700억 개의 매개변수가 있는 라마3을 사용한 초기 테스트에서 단일 엔비디아 H200 텐서 코어 GPU는 초당 약 3,000개의 토큰을 생성했다. 이는 약 300명의 동시 사용자에게 서비스를 제공할 수 있는 양이다.

 

즉, H200 GPU 8개가 장착된 단일 엔비디아 HGX 서버는 초당 24,000개의 토큰을 전송할 수 있으며, 동시에 2,400명 이상의 사용자를 지원함으로써 비용을 더욱 최적화할 수 있다.

 

엣지 디바이스의 경우, 80억 개의 매개변수가 있는 라마3는 젯슨 AGX 오린에서 초당 최대 40개의 토큰을, 젯슨 오린 나노(Jetson Orin Nano)에서 초당 15개의 토큰을 생성했다.

 

커뮤니티 모델 고도화

엔비디아는 오픈 소스에 적극적으로 기여해오고 있으며, 사용자가 가장 어려운 문제를 해결하는 데 유용한 커뮤니티 소프트웨어를 최적화하는 데 전념하고 있다. 또한 오픈 소스 모델은 AI 투명성을 촉진하고 사용자가 AI 안전과 복원력에 대한 작업을 광범위하게 공유할 수 있도록 한다.

 

여기에서 NIM, 텐서RT-LLM, 트리톤이 LoRA(Low-Rank Adaptation)와 같은 최신 기술을 사용해 최신 LLM을 가속화하는 방법을 비롯해 엔비디아의 AI 추론 플랫폼에 대해 자세히 알아볼 수 있다.

 


관련뉴스 - 관련뉴스가 없습니다.

가장 많이 본 뉴스

취재기사 기획/특집 게임정보

화제의동영상