AI 영상에서 목소리를 통일하는 가장 자연스러운 방법
영상 편집을 하다 보면 ‘음성의 일관성’이 전체 완성도를 좌우한다는 걸 자주 느낀다. 화면이나 색감보다 오히려 대사의 톤이 들쭉날쭉할 때 집중력이 흐트러진다. 특히 여러 AI 툴을 병행하다 보면, 같은 인물의 목소리조차 장면마다 조금씩 달라지는 경우가 많다. 그래서 이번엔 일레븐랩스(ElevenLabs)를 이용해 ‘톤이 일정한 목소리’를 직접 만들어 적용해봤다.
며칠 전 작업하던 영상에서 그런 문제가 분명하게 드러났다. 캐릭터 셋이 대화를 주고받는데, 각각의 음색이 달라서 장면의 흐름이 자꾸 끊겼다. 시각적 효과는 그대로 두고, 오직 목소리만 통일해보자는 생각이 들었다.
인물의 성격에 맞는 목소리를 직접 설계해보기
먼저 어떤 톤이 어울릴지 구체적으로 정했다. 단순히 “남성 음성으로 만들어줘”라고 하면 기계적인 느낌이 남는다. 그래서 AI에게 이렇게 설명했다.
“성숙하고 단단한 인상의 남성 목소리. 말의 속도는 느리지 않지만 안정감이 있고, 감정 표현은 절제되어 있으나 따뜻함이 남아 있는 톤.”
이 문장을 보이스 디자인(Voice Design) 입력란에 넣었다. 잠시 후 세 가지 버전의 목소리가 생성됐다. 첫 번째는 다소 차갑고 금속성 느낌이 강했다. 두 번째는 감정이 과했고, 세 번째가 가장 균형 잡혀 있었다. 차분하지만 단호한 울림이 있어서 캐릭터 이미지와 잘 맞았다. 그 목소리를 선택해 이름을 ‘Balanced Voice’로 저장했다.
보이스 체인저로 실제 영상에 적용하는 과정
이제 일레븐랩스의 보이스 체인저(Voice Changer) 메뉴로 들어갔다. 기존 영상을 불러오고, 원본 오디오는 그대로 둔 채 변환만 시도했다. 놀라운 건, 목소리가 완전히 바뀌었는데도 입모양이 어긋나지 않는다는 점이었다. 영상의 호흡과 길이를 그대로 따라가기 때문이다.
여기서 중요한 설정이 하나 있다. Similarity(유사도) 값이다. 여러 목소리가 섞인 영상일 땐 0% 근처로 낮추는 게 좋고, 한 인물의 음성만 교체할 때는 기본값인 70~80%가 자연스럽다. 이번 영상은 세 캐릭터가 섞여 있었기에 0%로 설정했다.
‘Generate Speech’ 버튼을 누르자, 잠시 후 새로운 오디오가 완성됐다.
“지금 필요한 건 감정이 아니라 판단이야.”
톤이 일정하고 울림이 부드러워 영상에 자연스럽게 녹아들었다. 그전엔 캐릭터마다 목소리 질감이 달라 산만했는데, 이제는 하나의 이야기로 묶이는 느낌이었다.
편집 프로그램에서 음성 교체하기
생성된 음성 파일을 다운로드해 캡컷(CapCut) 타임라인에 올렸다. 기존 오디오는 삭제하고 새 파일을 오디오 트랙에 넣었다. 이 단순한 교체만으로도 영상의 몰입도가 확 달라졌다. 프리미어나 다빈치리졸브에서도 같은 방식으로 적용할 수 있다.
특히 긴 편집물일수록 이런 자동 싱크의 장점이 크다. 영상 길이에 딱 맞춰 음성이 재생되기 때문에, 추가 편집이 거의 필요 없었다. 짧은 실험이었지만 결과물이 훨씬 자연스러워서 이후 다른 프로젝트에도 바로 적용하기로 했다.
무료 계정의 한계와 현실적인 대안
무료 계정은 한 달에 두 가지 목소리만 만들 수 있다. 그 이상을 원한다면 월 5달러(약 7,000원대) 유료 플랜이 필요하다. 직접 새로 만들지 않아도, 다른 이용자들이 공개해둔 음성을 가져다 쓰는 방법도 있다. 캐릭터의 성격이나 감정선에 맞춰 세부 설정만 조정하면 충분히 자연스럽게 활용할 수 있었다.
실제로 나는 ‘Balanced Voice’ 외에도 공개된 여러 음성을 테스트해봤다. 목소리 질감은 조금씩 달랐지만, 일레븐랩스 특유의 음색 안정성 덕분에 큰 이질감은 없었다. 결국 중요한 건 목소리의 ‘톤 유지’였다.
AI 음성 기술을 쓰다 보면 여전히 기계적이라는 인식이 남아 있다. 하지만 지금의 일레븐랩스는 감정의 농도, 속도, 울림까지 세밀하게 조정할 수 있다. 영상 속 인물의 개성을 유지하면서도 톤이 흐트러지지 않는다는 점이 인상적이었다.
새 음성을 입힌 영상을 재생했을 때, 캐릭터들이 마치 한 공간에서 실제로 대화하는 것처럼 들렸다. 그 순간, 편집자로서 내가 찾던 ‘균형감’이 완성된 느낌이었다. 같은 장면이라도 목소리가 일정하게 맞춰지면 이야기의 결이 훨씬 또렷해진다.
오늘 작업을 통해 다시 확인했다. AI는 단순히 작업을 빠르게 만들어주는 도구가 아니라, 표현의 균형을 잡아주는 파트너가 될 수 있다는 사실을.
댓글
댓글 쓰기