인텔 랩, 텍스트로 360도 이미지 생성 가능한 AI 확산 모델 공개 : Global No.1 Game Media 게임포커스

뉴스홈 > 뉴스센터 > IT

인텔 랩, 텍스트로 360도 이미지 생성 가능한 AI 확산 모델 공개

등록일 2023년06월23일 11시04분

게임포커스 이혁진 기자 (baeyo@gamefocus.co.kr)

인텔 랩은 블록케이드 랩(Blockade Labs)과 협력해 생성형 인공지능(AI)을 사용해 사실적인 3D 시각 콘텐츠를 제작하는 새로운 확산 모델인 LDM3D(Latent Diffusion Model for 3D)를 공개했다. LDM3D는 업계 최초로 확산 프로세스를 사용해 뎁스 맵(depth map)을 생성하며, 선명하고 몰입감 있는 360도 3D 이미지를 생성한다. LMD3D는 콘텐츠 제작, 메타버스 애플리케이션, 디지털 경험의 혁신을 통해 엔터테인먼트, 게임, 건축, 디자인에 이르기까지 다양한 산업을 바꿀 잠재력을 가지고 있다.

바스데브 라르(Vasudev Lal) 인텔 랩 인공지능/머신러닝 담당 과학자는 "생성형 AI 기술의 목표는 인간의 창의력을 더욱 향상시키며 시간을 절약하는 것이다. 그러나 오늘날 생성형 AI 모델은 대부분 2D 이미지 생성에 국한되어 있으며 텍스트로 3D 이미지를 생성할 수 있는 모델은 극소수에 불과하다”며 “기존의 잠재 안정 확산 모델과 달리 LDM3D를 사용하면 거의 동일한 수의 파라미터를 사용하여 주어진 텍스트 프롬프트에서 이미지와 뎁스 맵을 생성할 수 있다. 깊이 추정을 위한 표준 후처리 방법에 비해 이미지의 각 픽셀에 대해 더 정확한 상대적 깊이를 제공하며 개발자는 상당한 시간을 절약할 수 있다"고 말했다.

폐쇄적인 생태계에서는 확장이 제한될 수밖에 없다. 인텔은 개방형 생태계를 통해 더 많은 사람들이 AI의 혜택을 누릴 수 있도록 노력하고 있다. 최근 몇 년 간 상당한 발전을 이룬 분야 중 하나는 바로 컴퓨터 비전 분야, 특히 생성형 AI 분야이다. 다만, 현재 고급 생성형 AI 모델 중 상당수는 2D 이미지 생성에 국한되어 있다. 일반적으로 텍스트 프롬프트에서 2D RGB 이미지만 생성하는 기존 확산 모델과 달리, LDM3D를 사용하면 주어진 텍스트 프롬프트에서 이미지와 뎁스 맵 모두 생성할 수 있다. 잠재 안정 확산 모델과 거의 동일한 수의 파라미터를 사용하는 LDM3D는 깊이 추정을 위한 표준 포스트 프로세싱 방법 대비 이미지 각 픽셀에 대한 더욱 정확한 상대적 깊이를 제공한다.

해당 연구는 사용자가 이전에는 상상할 수 없던 방식으로 텍스트 프롬프트를 경험할 수 있게 함으로써 디지털 콘텐츠와 상호 작용하는 방식을 혁신적으로 바꿀 수 있다. LDM3D로 생성된 이미지와 뎁스 맵을 통해 사용자는 텍스트 묘사를 고요한 열대 해변, 현대적인 고층 빌딩 또는 공상 과학 세계의 설명을 360도 디테일한 파노라마로 전환할 수 있다. 방대한 정보를 포착할 수 있는 이 기능은 전반적인 사실감과 몰입감을 즉각적으로 향상시켜 엔터테인먼트, 게임, 인테리어 디자인, 부동산 목록은 물론 가상 박물관부터 몰입형 가상 현실(VR) 경험까지 다양한 산업 분야에서 혁신적인 애플리케이션을 구현할 수 있다.

LDM3D는 6월 20일 CVPR(컴퓨터 비전 및 패턴 인식 컨퍼런스)에서 열린 3DMV 워크샵에서 우수 포스터 상(Best Poster Award)을 수상했다.

LDM3D는 4억 개 이상의 이미지 및 캡션을 포함하고 있는 LAION-400M 데이터 베이스의 10,000개 샘플 하위 집합으로 구성된 데이터 세트 기반으로 학습됐다. 팀은 학습 말뭉치(corpus)에 주석을 달기 위해 과거 인텔 랩에서 개발한 고밀도 예측 트랜스포머(DPT) 대규모 추정 모델을 사용했다. DPT 모델은 이미지의 각 픽셀에 대해 정확한 상대적 깊이를 제공한다. LAION-400M 데이터세트는 연구진은 물론 해당 분야에 관심을 가진 커뮤니티가 대규모로 모델 학습을 테스트할 수 있도록 연구 목적으로 구축됐다.

LDM3D 모델은 인텔 제온 프로세서와 인텔 하바나 가우디 AI 가속기로 구동되는 인텔 AI 슈퍼컴퓨터에서 학습됐다. 결과 모델 및 파이프라인은 생성된 RGB 이미지와 뎁스 맵을 결합해 몰입감 넘치는 360도 뷰를 생성한다.

인텔과 블로케이드 연구진은 LDM3D의 잠재력을 선보이기 위해 표준 2D RGB 사진과 뎁스 맵을 활용, 몰입감 높은 상호활동적인 360도 뷰 경험을 제작하는 뎁스퓨전(DepthFusion)을 개발했다. 뎁스퓨전은 실시간 멀티미디어 콘텐츠를 위한 노드 기반 시각적 프로그래밍 언어인 터치 디자이너(TouchDesigner)를 활용, 텍스트 프롬프트를 상호활동적이고 몰입감 있는 디지털 경험으로 전환한다. LDM3D 모델은 RGB 이미지와 뎁스 맵을 모두 생성하는 단일 모델로서 메모리 공간을 절약하고 지연 시간을 개선한다.

LDM3D와 뎁스퓨전은 다각적 생성형 AI 및 컴퓨터 비전 분야가 더욱 발전할 수 있는 토대를 마련한다. 인텔은 인간의 역량을 높이고 강력한 오픈소스 AI 연구 개발 생태계를 구축해 더 많은 사람들이 기술을 활용할 수 있도록 생성형 AI활용에 대한 연구를 지속할 것이다. LMD3D는 허깅페이스를 통해 오픈소스로 제공되며, 이는 AI 분야의 개방형 생태계를 강력히 지원하기 위한 인텔의 노력의 일환이다. AI 연구진들은 이 시스템을 더욱 개선하고 애플리케이션에 따라 조정할 수 있다.

인텔은 오는 18일부터 22일까지 개최하는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에서 해당 연구 결과에 대해 발표할 예정이다. LDM3D 데모 시연 영상은 링크에서 확인할 수 있다. 자세한 내용은 관련 논문에서 확인할 수 있다.

▶ MSI 진출 실패, 젠지 유상욱 감독 "잘 쉬고 남은 경기 모두 이...

▶ T1 '2026 LCK MSI 대표 선발전' 젠지 상대로 3:2 진땀승, 5연...

▶ '블루 아카이브' 선생님 4500명 함께 달렸다... 기부 러닝 행...

▶ 5년 연속 진출 VS 3년 연속 우승, T1과 젠지의 주요 기록 걸린...

▶ '로드 투 MSI' 쓰리핏, '2026 LCK MSI 대표 선발전 경기 준비 ...

관련뉴스	- 관련뉴스가 없습니다.

'로드 투 MSI' 쓰리핏, '2026 LC...

'MSI' 진출의 마지막 시련 '2026...

"젠지! 작년 롤드컵 기억나게 해...

가장 많이 본 뉴스

취재기사

기획/특집

게임정보

1	신규 직업 '레테' 등장, 넥슨 '메이플스토...

2	[탐방기획]경쟁, 협력, 표현, 교감을 담아...

3	카카오게임즈 '우마무스메 프리티 더비' 4...

4	파이널 라운드 진출, 젠지 유상욱 감독 "T1...

5	[인터뷰]기술의 흐름에서 게임의 즐거움을 ...

6	젠지 '2026 LCK MSI 대표 선발전' 4라운드 ...

7	모바일게임 매출 순위 고착화 계속... '이...

8	프랑스 소비자보호당국(DGCCRF), 닌텐도에 ...

9	문체부 최휘영 장관, 펄어비스 '붉은사막' ...

10	[금주의 게임일정] 엔씨 '리밋 제로 브레이...

'로드 투 MSI' 쓰리핏, '2026 LCK MSI ...

'MSI' 진출의 마지막 시련 '2026 LCK M...

"젠지! 작년 롤드컵 기억나게 해줄께" ...

'MSI' 3연속 우승을 위한 첫 걸음 '202...

5연속 MSI 진출을 위한 마지막 준비 'T...

화제의동영상

[지스타25] 넷마블 성진우와 군주의 치열한...	레벨 인피니트 'INTO THE INFINITE' 쇼케이...
모든것이 파괴되는 현실같은 전장을 담다. ...	[지스타24] 크래프톤 '딩컴투게더' 개발자 ...

(주)지원커뮤니케이션즈 / 등록번호 : 서울 아01363 / 등록일자 : 2010. 09. 29 / 발행일자 : 2010. 06. 01
제호 : 게임포커스 / 발행인 : 김세영 / 편집인 : 김세영 / 청소년보호책임자 : 백혜수
발행소 : 서울시 서초구 효령로 61 이수빌딩 401호 / 전화번호 : 02-6053-7894 / FAX : 02-6053-7895
게임포커스의 모든 컨텐츠(기사)는 저작권법의 보호를 받으며, 무단 전재 및 복사, 배포를 금합니다.
Copyright(c) 2010 Global No.1 Game Media 게임포커스 All rights reserved.

뉴스센터

게임정보

오피니언

멀티미디어센터

인텔 랩, 텍스트로 360도 이미지 생성 가능한 AI 확산 모델 공개

가장 많이 본 뉴스

화제의동영상