올해 최고의 '블레이드 & 소울(블소)' 최강자를 가리는 '블소 토너먼트 2018 월드 챔피언십(이하 블소 월챔)' 결선이 금일(15일) 올림픽공원 SK 핸드볼 경기장에서 개최된 가운데 각국을 대표하는 세 명의 역사 유럽의 니콜라스 파킨슨, 중국의 선 하오란, 한국의 최성진과 [KOR]DES_Knight_J의 블라인드 매치가 진행됐다.
이 [KOR]DES_Knight_J이라는 선수가 당일까지도 공개되지 않아 얼마나 대단한 선수이기에 이 최고의 역사 세 명의 선수를 상대할 수 있을까에 대한 많은 이들의 궁금증을 불러 일으켰다. 엔씨소프트가 야심차게 준비한 블라인드 매치 [KOR]DES_Knight_J 선수의 정체는 바로 블소 비무 AI였다.
블소 비무 AI는 총 3년 6개월 간 개발한 프로게이머 급의 실력을 가진 인공지능(AI)이다.
엔씨소프트는 연구개발(R&D) 초창기에는 지도학습과 강화학습을 병행했다. 이용자 로그데이터를 기반으로 AI를 학습하는 방식을 썼다. 동시에 순수한 강화 학습만으로 AI를 학습하는 모델도 개발했다. 초반에는 지도학습과 강화학습을 병행한 AI가 더 나은 움직임을 보였지만, 점차 순수 강화학습 기반 AI의 승률이 높아졌다. 올해 4월 테스트에서는 처음으로 승부가 뒤집혔다.
추후에는 순수 강화학습 모델 중에서 상대의 공격 패턴이 바뀌더라도 행동 확률에 따른 최적의 의사 결정 정책을 학습해 갈 수 있는 '액터-크리틱(Actor-Critic) 모델'을 블소 비무 AI에 적용했다. 비무 AI는 알파고 제로와 같이 스스로와 대결하며 성장했고, 올해 7월에 이르러서는 아마추어 고수 이용자들이 손대지 못하는 수준까지 이르렀다. 현재는 프로게이머 수준까지 성장하도록 개발하는 데 성공했다.
비무 AI와 알파고의 차이는 '실시간성', 즉 상대의 반응에 곧바로 대응할 수 있다는 점이다. 바둑은 플레이어끼리 번갈아가면서 움직이는 '턴제 게임'이다. 다음 수를 두기 위한 시간이 평균 2분정도 주어지므로 연산 시간이 충분하다. 바둑 전용 AI인 알파고는 이처럼 넉넉한 연산 시간을 전제로 만들어졌다. 반면 비무는 실시간 격투 게임 블소를 위해 만들어진 AI다. 실시간 게임이므로 상황이 바뀌었을 때 0.1초 내로 어떤 스킬을 써야 할지 결정해야 한다. 바둑과 달리 연산 시간이 매우 부족하다.
게임 규칙도 바둑에 비해 복잡하다. 스킬 사용 타이밍과 스킬 취소 등 다양한 게임 규칙에 대응해야 한다. 비무 AI에는 1틱(0.1초)당 225가지(45개 스킬x이동 방향 5가지)의 선택지가 주어진다. 한 게임은 최대 1,800틱(약 3분) 진행되므로 총 225의 1,800승 만큼의 선택지를 가진다. 바둑(10의 768승)보다 경우의 수가 많다.
비무 AI와 기존 무한의 탑 AI는 제작 목표부터 달랐다. 무한의 탑 AI는 게임을 잘 하는 AI보다는 사용자에게 재미를 주고 잘 놀아주는 AI를 추구했다. 반면 비무 AI는 프로게이머와도 충분히 싸울 수 있는 고도의 AI를 만드는 것이 목표였다. 비무는 기획 목표대로 기존 무한의 탑 AI 대비 진일보한 싸움 실력을 보여준다. 하지만 무한의 탑 AI는 사람이 미리 입력해 놓은 규칙에 많이 의존한다. 그래서 게임을 지속하다 보면 어느 정도 패턴이 발견된다. 실력이 평범한 플레이어도 충분히 상대할 수 있는 수준이다.
반면, 비무 AI는 기존 강화학습 AI를 발전시킨 '심층 강화학습' 기반 AI를 사용했다. 심층 강화학습이란 기존 강화학습 기술에 딥러닝을 접목한 형태다. 시합 중 경험하게 되는 다양한 상황을 세밀하게 의사결정에 반영할 수 있어, 스킬 사용이나 움직임 면에서 어떤 규칙도 주지 않고도 다양한 상대 AI에 대응하는 최적의 의사결정 정책을 학습할 수 있다. 덕분에 어떤 고수 프로게이머를 만나도 적절한 의사 결정을 할 수 있는 수준까지 발전할 수 있었다.
고수 프로게이머 수준까지 학습이 되는 것을 확인한 후 연구팀은 프로게이머들도 충분히 잘 상대해 줄 수 있을 뿐만 아니라 다양한 보는 재미를 줄 수 있는 AI를 만들고자 하였다. 그래서 학습 방법에 변화를 주어 개성(공격형, 방어형, 공수 균형)을 부여 하였다.
1번 AI는 공수 균형 스타일이다. 별도로 특징을 부여하지 않고, 상황에 따라 공격과 수비 가운데 유리해 보이는 플레이를 하도록 했다. 2번 AI는 방어형 플레이를 보여준다. 상대 체력을 줄이기보다 내 체력을 지키는 것을 우선시한다. 거리를 최대한 벌려놓고 유리한 기회를 잡을 때를 노리는 전략을 쓴다. 3번 AI는 인파이팅 스타일의 공격형 플레이를 펼친다. 상대방에 근접해서 빨리 승부를 내도록 학습시켰다. 경기 시간이 길어질수록, 상대방과의 거리가 멀수록 안 좋은 점수를 주는 방식으로 훈련시켰다.
이번 블라인드 매치에는 경공이 금지되는 특별 룰이 적용된 채 진행됐다. 1경기 선수로 나선 유럽에 파킨슨 선수가 2:1 승리했다. 중국의 에이스 선 하오란과 맞붙은 2경기에서는 AI의 반응 속도도 좋았지만 선 하오란의 반응 속도가 더 앞서 AI가 0:2로 패배했다. 마지막으로 한국의 최성진이 출전한 3경기에서는 최성진이 2:0으로 패배해 엔씨소프트가 개발한 AI의 발전도에 많은 이들이 놀라움을 금치 못했다.
한편 경기 후 [KOR]DES_Knight_J의 정체를 공개한 엔씨소프트 이재준 연구개발(R&D)센터 센터장은 “오늘 선보인 AI는 경기를 위해 일주일 간 35만 번의 학습을 진행했다. 세 명의 선수가 각각 다른 AI를 상대했는데 마지막 최성진 선수가 상대한 AI는 현재까지 사람을 상대로 한 번도 패배해 본 적이 없다”라며 “2경기에서 완승한 선 하오란 선수와 맞붙게 하고 싶다”라고 밝혔다.
덧붙여 그는 “마지막으로 이런 결과물을 만들어낸 개발팀이 자랑스럽다”라고 소감을 밝혔다.
| |
| |
| |
| |
|
관련뉴스 | - 관련뉴스가 없습니다. |