엔비디아(CEO 젠슨 황)의 엔비디아 맥신(NVIDIA Maxine) 최신 릴리스는 실시간 오디오와 영상 커뮤니케이션의 기반을 강화한다. 맥신은 화상 회의, 고객 센터와 통화, 라이브 스트림 등 다양한 활동에서 명확한 소통을 지원해 가상 인터랙션의 품질을 높인다.
엔비디아 맥신은 GPU 가속 AI 소프트웨어 개발 키트(SDKs)와 클라우드 네이티브 마이크로서비스 제품으로 AI 기능을 최적화하고 배포를 가속해 오디오와 비디오, 증강 현실(AR)의 효과를 실시간으로 개선한다.
또한 맥신의 최신 모델들은 값비싼 장비가 없이도 오디오와 비디오의 품질 개선을 가능하게 한다. 엔비디아 AI(NVIDIA AI) 기반 테크놀로지 덕분에 기본 마이크와 카메라 장비만으로도 고품질의 효과들을 구현할 수 있다.
이번 GTC에서 엔비디아는 클라우드 네이티브 마이크로서비스를 위해 설계된 맥신의 새 아키텍처와 함께 맥신 오디오 효과 마이크로서비스의 조기 체험 릴리스를 발표했다. 이에 더해 맥신 SDK(Maxine SDK)의 신기능들도 공개됐다. 스피커 포커스(Speaker Focus)와 표정 감지(Face Expression Estimation)가 새롭게 제공되고, 아이 콘택트(Eye Contact) 기능의 GA(general availability) 버전이 출시된다. 이제부터는 엔비디아 맥신에 기존 SDK 기능의 개선 버전들도 함께 포함된다.
맥신 클라우드 네이티브
맥신의 클라우드 네이티브 마이크로서비스를 통해 실시간 AI 애플리케이션을 구축할 수 있다. 마이크로서비스는 독립적 관리와 클라우드에 대한 원활한 배포가 가능해 개발 일정을 앞당긴다.
얼리액세스 프로그램으로 제공되는 오디오 이펙트(Audio Effects) 마이크로서비스에는 최첨단 오디오 기능 4종이 포함된다.
- 배경소음 제거(Background Noise Removal): AI 모델로 일반적인 배경 잡음을 제거하는 동시에 화자의 자연스러운 목소리를 보존한다.
- 실내 에코 제거(Room Echo Removal): AI 모델로 오디오의 에코를 제거하고 화자의 음성을 선명하게 복원한다.
- 오디오 슈퍼 해상도(Audio Super Resolution): 오디오 신호의 주기 해상도(temporal resolution)를 높여 품질을 향상한다. 현재 8 kHz를 16 kHz로, 16 kHz를 48 kHz로 업샘플링한다.
- 음향 에코 제거(Acoustic Echo Cancellation): 인풋 오디오 스트림에서 음향 디바이스의 반향을 실시간으로 제거해 음향 불일치와 오디오 물림 현상을 제거한다. AI 기반 테크놀로지로 기존의 디지털 신호 처리보다 더 효과적으로 제거할 수 있다.
엔터프라이즈 화상 회의와 협업 솔루션을 제공하는 선도적 기업 펙십(Pexip)은 엔비디아 AI 테크놀로지로 오늘날의 업무 형태에 부합하는 고급 기능들을 선보이며 가상 회의의 수준을 한 단계 업그레이드했다.
펙십의 에디 클리프턴(Eddie Clifton) 전략적 제휴 부문 수석 부사장은 “맥신이 클라우드 네이티브 마이크로서비스로 옮겨가면서 엔비디아의 진일보한 AI 테크놀로지를 펙십 고유의 서버 아키텍처에 더욱 원활히 통합하게 될 것이다. 이를 통해 가상 회의 경험을 더욱 개선할 수 있을 것으로 기대한다”고 말했다.
엔비디아 맥신 얼리액세스를 신청할 수 있다.
SDK의 더욱 개선된 기능 탐색하기
맥신은 AI로 실시간 커뮤니케이션을 재창조하는 GPU 가속 오디오/비디오/AR 이펙트 SDK를 제공한다.
오디오 효과 SDK는 멀티 이펙트, 저지연, AI 기반 오디오 품질 향상 알고리즘을 제공한다. 조기 체험으로 만나볼 수 있는 스피커 포커스는 전면과 배경 화자들의 오디오 트랙을 분리하는 신기능으로 각각의 음성을 구분하기 쉽게 해 준다. 이에 더해 음향 반향 제거 SDK(Audio Super Resolution SDK)의 품질이 업데이트를 통해 개선됐다.
비디오 이펙트 SDK는 기본 웹캠의 인풋으로 AI 기반 비디오 효과를 생성한다. 인물의 옆얼굴을 분할하고 AI 기반의 배경 제거/교체/블러 처리를 입히는 가상 배경(Virtual Background) 기능이 업데이트되면서 주기 안정성(temporal stability)를 강화했다.
AR 효과 SDK는 기본 웹 카메라 피드에 기초해 AI 기반의 실시간 3D 얼굴 인식과 자세 예측 기능을 제공한다. 최신 기능에는 다음이 포함된다.
- 아이 콘택트(Eye Contact): 시선을 예측하거나 카메라와 정렬해 눈맞춤을 시뮬레이션한다.
- 표정 감지(Face Expression Estimation): 얼굴 인식을 통해 표정의 의미를 추론한다.
다음의 AR 기능들이 업데이트됐다.
- 자세 감지(Body Pose Estimation): 인체의 34개 핵심 포인트를 2D와 3D로 예측하고 추적한다. 이제 다수 인물 인식도 지원한다.
- 얼굴 특징 인식(Face Landmark Tracking): 126개의 핵심 포인트를 사용해 얼굴의 특징과 윤곽을 인식한다. 고개의 움직임과 표정으로 인한 얼굴 변형과 머리 위치 변화를 3 단계의 자유도로 실시간 인식한다. 이제 퀄리티(Quality) 모드로 더욱 뛰어난 품질의 인식이 가능해졌다.
- 페이스 메시(Face Mesh): 최대 3,000개의 꼭지점과 6단계의 자유도를 가진 3D 메시로 인물의 얼굴을 표현한다. 이제 USC 크리에이티브 테크놀로지 연구소(USC Institute of Creative Technologies)의 3D 모퍼블(morphable) 모델들도 함께 제공된다.
엔비디아 브로드캐스트 앱(NVIDIA Broadcast App)을 설치해서 맥신 SDK를 경험하고 맥신의 효과들을 직접 체험해볼 수 있다.
AI 기반 최첨단 이펙트 체험
맥신 SDK와 마이크로서비스가 제공하는 저지연 AI 효과들은 기존의 고객 인프라와 통합할 수 있다. 개발자들은 최첨단 AI 기능들과 맥신을 병용할 수도 있다. 맥신의 기술은 엔비디아 AI 플랫폼에 기반해 구축됐으며 세계적 수준의 사전 훈련 모델을 보유해 프리미엄급의 오디오와 비디오 품질 기능을 생성, 커스터마이징, 배포할 수 있도록 한다.
맥신은 엔비디아 옴니버스 아바타 클라우드 엔진(NVIDIA Omniverse Avatar Cloud Engine)에도 포함돼 있다. 이 클라우드 기반 AI 모델과 서비스의 컬렉션은 인터랙티브 아바타의 구축과 커스터마이징, 배포를 지원한다. 맥신의 커스터마이징이 가능한 클라우드 네이티브 마이크로서비스는 AI 효과 파이프라인에 독립적으로 배포할 수 있다. 맥신은 온프레미스 환경과 클라우드, 엣지에 배포된다.
엔비디아 설립자 겸 CEO 젠슨 황(Jensen Huang)의 GTC 키노트에서 엔비디아 맥신과 다른 기술 혁신에 대해 자세히 알아볼 수 있다.
| |
| |
| |
| |
|
관련뉴스 | - 관련뉴스가 없습니다. |