AI 영상에서 목소리를 통일하는 가장 자연스러운 방법
영상 편집을 하다 보면 ‘음성의 일관성’이 전체 완성도를 좌우한다는 걸 자주 느낀다. 화면이나 색감보다 오히려 대사의 톤이 들쭉날쭉할 때 집중력이 흐트러진다. 특히 여러 AI 툴을 병행하다 보면, 같은 인물의 목소리조차 장면마다 조금씩 달라지는 경우가 많다. 그래서 이번엔 일레븐랩스(ElevenLabs) 를 이용해 ‘톤이 일정한 목소리’를 직접 만들어 적용해봤다. 며칠 전 작업하던 영상에서 그런 문제가 분명하게 드러났다. 캐릭터 셋이 대화를 주고받는데, 각각의 음색이 달라서 장면의 흐름이 자꾸 끊겼다. 시각적 효과는 그대로 두고, 오직 목소리만 통일해보자는 생각이 들었다. 인물의 성격에 맞는 목소리를 직접 설계해보기 먼저 어떤 톤이 어울릴지 구체적으로 정했다. 단순히 “남성 음성으로 만들어줘”라고 하면 기계적인 느낌이 남는다. 그래서 AI에게 이렇게 설명했다. “성숙하고 단단한 인상의 남성 목소리. 말의 속도는 느리지 않지만 안정감이 있고, 감정 표현은 절제되어 있으나 따뜻함이 남아 있는 톤.” 이 문장을 보이스 디자인(Voice Design) 입력란에 넣었다. 잠시 후 세 가지 버전의 목소리가 생성됐다. 첫 번째는 다소 차갑고 금속성 느낌이 강했다. 두 번째는 감정이 과했고, 세 번째가 가장 균형 잡혀 있었다. 차분하지만 단호한 울림이 있어서 캐릭터 이미지와 잘 맞았다. 그 목소리를 선택해 이름을 ‘Balanced Voice’로 저장했다. 보이스 체인저로 실제 영상에 적용하는 과정 이제 일레븐랩스의 보이스 체인저(Voice Changer) 메뉴로 들어갔다. 기존 영상을 불러오고, 원본 오디오는 그대로 둔 채 변환만 시도했다. 놀라운 건, 목소리가 완전히 바뀌었는데도 입모양이 어긋나지 않는다는 점이었다. 영상의 호흡과 길이를 그대로 따라가기 때문이다. 여기서 중요한 설정이 하나 있다. Similarity(유사도) 값이다. 여러 목소리가 섞인 영상일 땐 0% 근처로 낮추는 게 좋고, 한...