구글 AI 스튜디오 무료 TTS, 이렇게 설정하면 자연스러운 음성이 된다

시작하며

최근 영상 제작이나 나레이션을 자동화하려는 사람들이 급격히 늘면서 TTS(Text To Speech) 서비스의 수요도 커졌다.

예전에는 유료 프로그램이 대부분이었지만, 지금은 구글 AI 스튜디오가 공개되면서 상황이 완전히 달라졌다.

이번 글에서는 실제로 구글 AI 스튜디오를 통해 음성을 만들어 본 경험을 바탕으로, 무료 TTS를 안정적으로 활용하는 구체적인 설정법과 팁을 단계별로 정리해 보았다.

 

1. 구글 AI 스튜디오 TTS는 어떤 서비스일까

구글 AI 스튜디오는 브라우저에서 바로 음성을 생성할 수 있는 무료 AI 음성 생성 도구이다.

별도의 프로그램 설치 없이 구글 계정만 있으면 사용할 수 있다.

내가 사용해 본 결과, 이 서비스의 장점은 단순히 무료라는 점이 아니라 음성 품질과 감정 표현력이 꽤 자연스럽다는 점이다.

특히 창의성 조절 기능인 ‘Temperature(템퍼레처)’와 감정 스타일 설정 기능 덕분에 같은 문장이라도 표현이 달라지는 점이 인상적이었다.

 

2. 기본 화면 구성과 핵심 메뉴

(1) 싱글 스피커 vs 멀티 스피커

  • 싱글 스피커: 한 명의 음성으로 긴 문장을 읽어주는 모드이다.
  • 멀티 스피커: 두 명의 화자가 번갈아 대화하는 형태의 음성을 만든다.

여기서 주의할 점은 두 명까지만 생성 가능하다는 것이다.

세 명 이상의 대화는 지원되지 않는다.

(2) 모델 세팅 메뉴

여기서는 Temperature(창의성 정도)를 설정할 수 있다.

이 값은 결과물의 자연스러움과 다양성을 결정하는 핵심 요소이다.

 

3. 어떤 설정이 자연스러운 목소리를 만드는가

Temperature 설정 기준

설정값 특징 추천 상황
0.5 이하 지나치게 기계적인 톤 안정적이지만 감정 표현 약할 때
0.7~1.0 자연스러운 감정 표현 일반적인 내레이션, 설명형 문장
1.5 이상 표현이 다양하고 감정이 풍부함 대화형 콘텐츠, 감정 강조 대사

내가 직접 테스트해 본 결과, 0.8~1.0 정도가 가장 무난했다.

값을 너무 낮추면 음성 생성이 중단되는 경우가 많았고, 특히 0.7 이하에서는 “생성 실패”가 자주 발생했다.

 

4. 싱글 스피커 모드에서 음성 만들기

싱글 스피커 모드는 가장 많이 사용하는 기본 기능이다.

한 명의 음성으로 긴 문장을 읽어주는 형태로, 유튜브 영상 내레이션이나 블로그용 오디오 제작에도 유용하다.

(1) 설정 방법 요약

  • Temperature 값을 0.8 정도로 설정
  • 음성 종류에서 원하는 목소리(남성, 여성, 언어별 선택 가능) 지정
  • 스타일 인스트럭션(지시문)에 대본의 분위기를 간단히 설명

예를 들어, “차분하고 편안한 분위기로 설명하듯 읽어 주세요.” 이런 식으로 스타일을 지정하면 톤이 달라진다.

(2) 텍스트 입력 시 주의점

너무 긴 문장은 한 번에 처리되지 않는다.

경험상 한 페이지를 넘어가는 분량이나 10분 50초 이상 길이의 음성은 대부분 실패했다.

따라서 8~9분 이하의 텍스트로 나누어 생성하는 것이 안정적이다.

 

5. 긴 대본을 나눌 때 알아두면 좋은 기준

  • 문단 단위로 끊기 - 문장의 흐름이 바뀌는 지점에서 분리하고, 중간에 쉼표나 문장 부호를 넣으면 더 자연스럽다.
  • 특수문자 적극 활용 - 느낌표, 물결표, 마침표 등을 넣으면 억양이 부드러워진다.
  • 실패 음성 구별법 - 생성 결과가 ‘10분 55초’로 표시되면 실패 음성이다.

 

6. 멀티 스피커 모드로 대화형 음성 만들기

멀티 스피커 모드는 두 사람의 대화를 표현할 수 있다.

영상 콘텐츠나 오디오 드라마를 제작하는 사람에게 특히 유용하다.

(1) 기본 설정

  • 스피커1, 스피커2 이름을 각각 지정
  • 남성·여성 목소리를 조합해 자연스러운 대화를 구성
  • 스타일 인스트럭션에 ‘친근한 대화’, ‘장난스러운 대화’ 등 분위기를 지정

(2) 대화 입력 방식

  • 철수 → 영희 → 철수 → 영희 순서로 번갈아 입력
  • 한 명이 두 번 연속 말하는 경우, 같은 이름으로 줄을 추가

 

7. 실제 테스트에서 얻은 팁

  • Temperature를 높이면 감정이 더 살아난다 - 1.8로 설정했을 때 억양이 훨씬 풍부해졌다.
  • 특수문자 활용으로 감정 표현 강화 - 예: “진짜야?” → “진짜야~?” 로 바꾸면 부드러운 톤으로 변함.
  • 스타일 인스트럭션과 Temperature의 관계 - 인스트럭션은 전체 톤을 정하는 지시문이고, Temperature는 문장마다의 창의성 조절에 해당한다.

 

8. 태그 기능으로 감정·말투를 세밀하게 조정하기

구글 TTS에는 특정 감정이나 말투를 지정할 수 있는 태그 기능이 있다.

문장 앞에 꺾쇠 괄호를 써서 원하는 감정을 넣는 방식이다.

예를 들어, <whispering> “오늘 왜 이렇게 늦게 왔어?” 이렇게 작성하면 실제로 속삭이는 톤으로 음성이 생성된다.

 

9. 감정 표현 태그 예시 모음

태그 효과 사용 예시
<whispering> 속삭이듯 말함 비밀스러운 대사
<laughing> 웃는 톤 농담, 가벼운 대사
<angry> 화난 느낌 감정 대립 장면
<sad> 슬픈 말투 감정 표현이 필요한 부분
<excited> 들뜬 느낌 축하나 놀람 표현
<shouting> 외치는 말투 강조하고 싶은 대사

태그는 문장별로 다르게 적용할 수 있고, 싱글·멀티 모드 모두에서 작동한다.

이 기능을 적절히 활용하면 같은 문장이라도 완전히 다른 느낌으로 연출할 수 있다.

 

10. 효율 높이는 활용 팁

  • 탭 여러 개 열기 - 한 브라우저에서 탭을 여러 개 열면 동시에 작업 가능하다.
  • 대사별로 파일 관리하기 - 긴 음성을 만드는 대신 대사 단위로 쪼개면 실패 시 재작업이 간단하다.
  • 결과물 불안정 시 해결법 - 브라우저 캐시를 지우거나 새 창에서 다시 시도하고, Temperature 값을 0.8로 조정한다.

 

11. 무료 TTS 중 구글 AI 스튜디오가 돋보이는 이유

직접 여러 무료 TTS를 써 본 입장에서, 구글 AI 스튜디오의 가장 큰 장점은 자연스러운 억양과 조정의 자유도이다.

대부분의 무료 서비스는 일정한 톤으로만 읽지만, 구글 AI 스튜디오는 문장 부호나 태그, 스타일 인스트럭션 등을 통해 감정과 상황에 맞는 음성을 다양하게 만들 수 있다.

또한 브라우저 기반으로 동작하기 때문에 고성능 PC가 없어도, 인터넷만 연결되어 있으면 누구나 쉽게 사용할 수 있다.

 

12. 구글 AI 스튜디오 TTS의 장단점 정리

구분 장점 단점
품질 자연스러운 발음, 감정 표현 풍부 언어별 발음 차이 있음
속도 생성 속도 빠름 긴 문장은 실패 확률 있음
편의성 설치 불필요, 무료 세부 조정은 다소 번거로움
확장성 태그·스타일·멀티 기능 다양 2명 이상 대화는 불가

 

마치며

처음에는 단순히 ‘무료 TTS’라는 이유로 관심을 가졌지만, 사용해보니 구글 AI 스튜디오는 그 이상이었다.

특히 Temperature, 스타일 인스트럭션, 태그 기능을 이해하고 나면 단순히 텍스트를 읽는 수준이 아니라 감정을 담은 음성 콘텐츠 제작 도구로 활용할 수 있다.

영상 내레이션, 팟캐스트, 오디오북 등 다양한 분야에서 무료로 실험해 보기 좋은 툴이니, 이번 글을 참고해 자신의 스타일에 맞는 설정을 찾아보길 권한다.

댓글