작가가 바닥에 앉아 고양이들과 아침을 먹고 있다. : MIT 테크 리뷰 기사 본문 캡처
작가가 바닥에 앉아 고양이들과 아침을 먹고 있다. : MIT 테크 리뷰 기사 본문 캡처

 

스토리를 입력하면 웹툰을 만들어주는 생성형 AI가 공개됐다.

로이터는 지난 5일(현지시간) 작가가 자신의 이야기를 이미지, 오디오, 애니메이션으로 변환할 수 있게 해주는 인공지능 스타트업 로어머신(Lore Machine)이 자금 조달을 위해 협의 중이며 시각적 스토리텔링 플랫폼을 대중에게 공개하기 시작했다고 보도했다.

테크 분야 전문 매체 엠아이티 테크놀러지 리뷰(MIT Technology Review)는 지난 13일(현지시간) 로어머신이 한 작가의 단편 소설을 시각화하는 과정을 소개했다.

이 작가는 "13년 전 언론학 수업 과제로 고급 고양이 사료를 먹는 남자에 관한 엉뚱한 단편 소설을 쓴 적이 있다"고 말했다.

"제 이야기를 텍스트 상자에 입력했더니 이런 메시지가 떴다"..."장면, 장소, 등장인물, 분위기를 파악하고 있다. 이 과정은 최대 2분 정도 소요될 수 있다"

로어머신은 텍스트를 분석해 언급된 캐릭터와 장소에 대한 설명을 추출한 다음 이러한 정보를 이미지 생성 모델에 전달했다. 이후 그림이 그려진 스토리보드가 화면에 나타났다. 작가는 "반쯤 잊고 있던 캐릭터의 생생한 만화책 랜더링을 클릭하는 동안 가슴이 두근거렸다"고 했다.

MIT 테크 리뷰는 로어머신에 대해 "1년이 넘는 개발 기간 끝에 처음으로 대중에게 공개됐다. 한 달에 10달러로 10만 단어의 텍스트를 업로드하고(한 번에 최대 3만 단어) 단편 소설, 대본, 팟캐스트 대본 등을 위한 80개의 이미지를 생성할 수 있다"고 소개했다.

이어 "일러스트레이션은 만화부터 수채화, 80년대 펄프 TV 쇼에 이르기까지 다양한 사전 설정 스타일로 제공된다"고 덧붙였다

MIT 테크 리뷰는 "크리에이티브 에이전시 모던 아츠(Modern Arts)의 잭 라이더(Zac Ryder)는 로어머신의 설립자 토비 캠피온(Thobey Campion)이 처음 이 도구의 기능을 보여준 이후로 얼리 액세스 버전을 사용해 왔다"며 "라이더가 단편 영화 대본을 보내면 캠피온은 로어머신을 사용해 하룻밤 사이에 16페이지 분량의 그래픽 노블로 만들었다"고 전했다.

"토비가 화면을 공유하던 모습이 기억난다. 우리 모두는 완전히 넋이 나간 상태였다"고 라이더는 말한다. "이미지 생성 측면이 중요한 것이 아니었다. 스토리텔링의 수준이었죠. 내러티브의 흐름부터 캐릭터의 감정까지, 시작하자마자 모든 것이 딱 맞아떨어졌다" 

 

: 로어머신(LORE MACHINE) 홈페이지 캡처
: 로어머신(LORE MACHINE) 홈페이지 캡처

 

현재 모던 아츠는 넷플릭스의 '러브, 데스 앤 로봇'(LOVE DEATH+ROBOTS. 미국의 SF 웹 애니메이션) 제작자가 쓴 텍스트를 기반으로 만화 시리즈의 가상의 세계를 개발하는 데 로어머신을 사용하고 있다.

MIT 테크 리뷰는 "내부를 들여다보면 이 도구는 익숙한 부품으로 구성돼 있다. 대규모 언어 모델이 텍스트를 스캔한 뒤 사람과 장소에 대한 설명은 물론 전체적인 정서를 파악한다"고 했다.

또 "안정된 확산 버전이 이미지를 생성한다. 차별화된 점은 사용법이 매우 쉽다는 점이다. 스토리를 업로드하고 스토리보드를 다운로드하는 동안 6번 정도 클릭했다"고 했다.

콘텐츠 제작 회사인 뉴 컴퓨터 코퍼레이션(New Computer Corporation)의 CEO인 벤 팔머(Ben Palmer}는 "새로운 AI 도구를 최신 상태로 유지하려면 많은 작업이 필요하고 각 도구의 인터페이스와 워크플로우가 다르다"며 "하나의 일관된 UI를 갖춘 메가 툴을 사용하는 것은 매우 매력적이다. 저는 이것이 업계가 나아가야 할 방향이라고 생각한다"고 말했다. 

 

: 로어머신(LORE MACHINE) 홈페이지 캡처
: 로어머신(LORE MACHINE) 홈페이지 캡처

 

로어머신을 만든 캠피온은 2년 전 위키백과의 블록체인 버전을 개발하기 위해 로어머신을 설립했다. 하지만 사람들이 제너레이티브 모델을 어떻게 받아들이는지 보고 방향을 전환했다.

캠피온은 "무료로 사용할 수 있는 텍스트-이미지 변환 모델인 미드저니(Midjourney·인공지능 그림 소프트웨어)를 사용, 새뮤얼 테일러 콜리지(영국의 낭만주의 시인)의 '고대 항해자의 항해'를 만화책 버전으로 만들었다. 이 작품은 입소문이 났지만 만드는 과정은 재미있지 않았다"고 말했다.

"아내는 그 프로젝트를 싫어했다"고 캠피온은 말한다. "저는 매일 새벽 4시까지 이 이미지를 제대로 만들기 위해 망치질만 했다"

문제는 미드저니와 같은 텍스트-이미지 변환 모델은 이미지를 하나씩 생성한다는 점이다. 따라서 동일한 캐릭터의 여러 이미지 간에 일관성을 유지하기가 어렵다. 여러 이미지에 걸쳐 특정 스타일을 고정하는 것조차 어려울 수 있다. 이에 대해 캠피온은 "결국 좀 더 추상적인 표현으로 방향을 선회하게 됐다"고 회고했다.

이 경험을 통해 그는 이 기술을 훨씬 더 쉽게 사용할 수 있어야 한다는 것을 깨달았다. 캠피온은 일련의 일러스트레이션에서 이미지와 스타일을 일관되게 유지하는 방법을 정확히 밝히지는 않았다.

캠피온은 "제 스토리의 한 장면에선 짧은 머리의 캐릭터가 앞머리를 기르고, 다른 장면에서는 같은 캐릭터가 두 번 등장하는 등 꽤 괜찮지만 완벽하지는 않다"고 했다.

그는 "일러스트레이션도 평범하게 느껴질 수 있다. 한 캐릭터는 '강낭콩 같은 이빨'을, 다른 캐릭터는 '표백한 식빵 조각 같은 손'을 가졌다는 제 묘사가 초상화에 그대로 반영되지 않아 실망스러웠다. 하지만 일일이 손으로 일일이 작업하는 것과 비교하면 이 도구는 큰 발전을 이뤘다"고 했다.

이에 대해 잭 라이더는 "일관성이 뛰어나다"며 "덕분에 모던 아츠는 고객사 중 한 곳의 프로젝트에 로어머신을 사용할 수 있는 자신감을 얻었다. 계속해서 돌아가서 일관성 문제를 해결해야 했다면 제시간에 납품을 할 수 없었을 것"이라고 말했다.

모든 생성 모델과 마찬가지로 로어머신의 기술은 필요에 따라 유해한 콘텐츠를 생성해낼 수 있다. 캠피온은 폭력이나 혐오스러운 고정관념을 묘사하는 이미지가 생성되는 것을 막았다고 말한다. 하지만 그 외에는 아티스트의 창의적인 표현을 억제하지 않겠다는 것이 그의 생각이다.

로어머신에 대한 초기 관심은 대부분 마케팅 대행사에서 나왔다. 하지만 캠피온은 이번 공개된 버전을 더 많은 사용자가 사용해 볼 수 있기를 희망하고 있다.

캠피온은 6개월 전, 뉴욕 맨해튼에 있는 학습 장애 아동을 위한 학교의 교장으로부터 한 통의 전화를 받았다고 했다. 교장 선생님은 아이들이 볼 수 있는 이미지를 제공하기 위해 교과서를 이 도구로 실행하고 싶다고 했다.

캠피온은 "저는 그런 생각조차 해본 적이 없었다. 할리우드적인 사고방식에 너무 갇혀 있었던 것"이라고 말했다.

 

저작권자 © 제주인뉴스 무단전재 및 재배포 금지