이제는 AI 감독 시대, 홍콩 무협 감성까지 만드는 기술 - Thousand Oaks - 1

요즘 X 나 페이스북 그리고 유튜브 보면 자꾸 중국 시댄스라는 모델로 뽑아낸 동영상들이 올라온다.

이런거 잘 만들어준다는 프로그램 시댄스 2.0이 공개된 게 올해 2월이었다. 발표되고 헐리우드가 발칵 뒤집혔었다

시댄스 2.0 은 fal이라는 플랫폼을 통해 100개 넘는 나라에 풀렸지만, 그 100개 나라 안에 미국은 들어가 있지 않다.

한국에서 트위터 보다가 들어가 봐도 "당신 지역에서는 사용할 수 없다"는 메시지가 뜬다.

이 프로그램 기술 자체는 진짜 무시무시하다. 시댄스 2.0이 인공지능 비디오 아레나라는 글로벌 리더보드에서 구글 베오 3, 오픈AI 소라 2, 런웨이 젠4.5를 다 제치고 1위에 올랐다. 중국 회사가 훨씬 적은 돈으로 좋은 결과물을 뽑아낸 거다. 딥시크 때 한 번 겪었던 충격이 이번에는 영상 분야에서 똑같이 재연됐다.

이걸 보면서 솔직히 좀 복잡한 기분이 든다. LA처럼 영상 산업이 몰려 있는 도시에 살다 보면 친구 중에 VFX 일하는 사람도 있고, 광고 프로덕션 다니는 동생도 있다.

작년까지만 해도 "AI가 만든 영상은 어색해서 티가 난다"고 했던 사람들이 올해 들어 말이 달라졌다. 한 친구는 "이제는 클라이언트한테 AI 안 쓴다고 약속하기가 더 어려워졌다"고 한다. 단가 경쟁이 시작됐다는 얘기다.

3천불 넘는 프로덕션 버젯으로 하루 종일 걸리던 작업을 단돈 몇백불 수준으로 대체할 수 있다는데 이걸 어느 클라이언트가 모른 척하겠나.

흥미로운 건 결국 "텍스트 몇 줄" 가지고는 그 영상이 안 나온다는 점이다. "고양이가 무술한다"라고 치면 그냥 고양이가 발버둥 치는 장면이 나온다.

이제는 AI 감독 시대, 홍콩 무협 감성까지 만드는 기술 - Thousand Oaks - 2

시댄스나 클링에서 사람들이 뽑아내는 그 영상은 사실 시나리오에 가까운 길이의 프롬프트가 들어간 결과물이다.

도복을 입은 진저색 고양이가 서 있고, 1980년대 홍콩 무협 영화 스타일이고, 슬로우 모션이고, 카메라는 와이드샷에서 클로즈업으로 이동한다.

이걸 영어로 한 문단 쓰는 작업이 이제 새로운 직업이 됐다. 프롬프트 엔지니어가 아니라 프롬프트 디렉터다.

누가 몇 줄로 더 정확하게 "원하는 그림"을 뽑아내느냐가 진짜 실력이 됐다. 중국이 이 분야에서 미친 듯이 빨리 가는 이유는 사실 데이터와 인프라다.

바이트댄스는 틱톡과 더우인을 굴리고 있고, 콰이쇼우도 자체 숏폼 플랫폼이 있다.

영상 데이터가 무한정 들어오고, 모델을 만들면 바로 8억 명짜리 캡컷에 꽂아서 테스트한다. 피드백 루프가 미국 회사들 것보다 한 단계 짧다.

미국 회사들은 컴플라이언스, 저작권, 안전성 심사 거치면서 한 발 한 발 떼는데, 중국 쪽은 일단 던지고 본다.

이번에 시댄스가 디즈니 IP까지 그대로 학습시켜놓고 나중에 "지적재산권을 존중한다"고 사과한 흐름이 그 차이를 잘 보여준다.

이 흐름이 어디까지 갈지는 모르겠다. 다만 확실한 건, 5년 전만 해도 "AI 영상 같다"는 말이 비웃음이었는데 지금은 "AI 영상인지 모르겠다"가 칭찬이 됐다는 점이다.

헐리우드 외곽에 살면서 매일 광고판 보고 다니다 보면, 그 광고에 들어간 모델이 사람인지 픽셀인지 구분 안 가는 날이 곧 온다는 게 점점 실감 난다.

그날이 오면 누가 이기는지보다 "나는 어느 쪽 도구를 쓰고 있는가"가 더 중요한 질문이 될 거다.

미국에 살면서 정작 제일 잘 나가는 도구를 못 쓰고 있다는 게 좀 웃긴 상황이긴 한데, 그것도 길게 가지는 않을 것 같다.