구글 AI 스튜디오로 나만의 팟캐스트 만드는 실제 순서

8월 18, 2025

시작하며

장비 없이도 가능할까? 구글 AI 스튜디오만으로 음성, 이미지, 영상까지 완성하는 팟캐스트 제작법을 직접 따라해 보았다.

1. 구글 AI만으로 가능한 팟캐스트 제작, 어디까지 될까?

AI가 점점 더 많은 분야에서 쓰이고 있다.

특히 영상 콘텐츠 제작에서 "얼굴 공개", "목소리 노출"에 대한 부담이 있는 초보자들에게 구글 AI 도구는 새로운 대안이 되고 있다.

나 역시 처음에 유튜브나 팟캐스트를 시작하려다 장비 부담, 녹음·편집에 대한 어려움 때문에 망설인 적이 있다. 그런데 구글 AI 생태계를 활용하면, 정말로 마이크도, 목소리도 없이도 콘텐츠를 제작할 수 있다.

이 글에서는 구글 AI 스튜디오를 이용한 팟캐스트 제작 방법 전체 흐름을 단계별로 정리했다.

2. 팟캐스트 제작 전체 흐름 한눈에 보기

📌 이렇게 진행된다: 구글 AI 도구별 활용 순서

단계	사용 도구	주요 작업
1단계	Gemini (제미나이)	대본 작성
2단계	Speech Generation	목소리 생성
3단계	Imagen 4 Ultra	출연자 이미지 생성
4단계	Veo	이미지 → 영상 전환
5단계	캡컷	편집 및 자막 정리

이 모든 작업은 구글 계정만 있으면 무료로 체험 가능하다.

각 단계에서 어떤 식으로 작업이 이루어지는지 아래에 자세히 설명해 보겠다.

3. 대본은 어떻게 만들까?

(1) Gemini로 스피커별 대본 만들기

팟캐스트에서 가장 중요한 건 들어줄 만한 이야기다.

처음에는 ‘어떤 주제를 해야 하지?’라는 고민이 가장 크다.

예를 들어, 나는 인기 유튜브 채널 ‘정서불안 김햄찌’를 분석하는 콘텐츠를 만들고 싶었다. 그래서 제미나이에 아래와 같은 프롬프트를 입력했다:

"정서불안 김햄찌 채널이 잘 되는 이유를 분석해서, 팟캐스트 대본 형태로 만들어줘. 도입은 청취자가 얻는 이득을 명확하게 하고, 스피커 1·2 형식으로, 감정 톤도 괄호 안에 표현해줘."

이렇게 요청하니, 실제 방송에 바로 쓸 수 있을 만큼 구조화된 대본이 완성됐다.

📌 중요 포인트: 감정 표현을 괄호로 삽입해달라고 요청하면, 대사의 분위기까지 자동으로 조정할 수 있다.

4. 목소리는 어떻게 만드는가?

(1) 제미나이 스피치 제너레이션 활용법

이제 만들어진 대본을 바탕으로 음성을 생성할 차례다.

구글 AI 스튜디오의 ‘제너레이트 미디어’ → Speech Generation 메뉴로 들어가면, 스피커를 1인/2인 선택할 수 있다.

나는 2인 대화를 상정하고 작업을 진행했다.

스피커 1: 젊은 남성, 차분한 목소리
스피커 2: 밝고 친절한 여성 음성

몇 분 안에 팟캐스트용 오디오가 자동 생성된다. 놀라운 건, 감정이 섬세하게 담긴 목소리라는 점이다.

5. 출연자 이미지는 어떻게 만들까?

(1) Imagen 4 Ultra로 캐릭터 만들기

AI 목소리만으로는 영상 콘텐츠로 부족하다.

이제는 캐릭터 이미지를 생성해 ‘보는 팟캐스트’로 업그레이드할 차례다.

내가 사용한 설정은 아래와 같다:

햄스터 캐릭터: 전문가 느낌의 빨간 안경, 무지개 니트
사람 캐릭터: 파란 셔츠, 뽀글뽀글 파마머리의 20대 한국 남성

이런 디테일한 설정은 실제 대본 내용과 연결되므로 몰입도를 높여준다.

생성 도구: Imagen 4 Ultra
비율 설정: 16:9 (유튜브 화면 최적화)

두 캐릭터를 각각 생성한 뒤, 추가로 ‘투샷 이미지’로도 만들어 두면 활용도가 높아진다.

6. 영상은 어떻게 만들 수 있을까?

(1) Veo로 이미지 → 영상 전환하기

이번에는 고정된 카메라 시점으로 팟캐스트 분위기를 살릴 차례다.

사용 도구: Veo (Google AI 영상 생성기)
기능: Image to Video
프롬프트 예시: “고정된 카메라로, 마이크 앞에서 말하는 캐릭터. 실내 조명, 신뢰감 있는 배경”

Veo의 가장 큰 장점은 기본 영상 길이가 8초라는 점이다.

다른 플랫폼이 5초 컷이 기본인 데 비해, 적은 컷으로 긴 영상 구성이 가능하다.

영상 컷 생성 시에는 캐릭터의 감정 표현도 다양하게 만들어두면, 편집 시 활용하기 좋다.

7. 편집은 어떤 툴이 좋을까?

(1) 캡컷으로 간편하게 자막·배치 완성하기

팟캐스트의 영상 편집은 사실상 반복 작업이다.

여기서는 초보자도 쉽게 사용할 수 있는 캡컷을 추천한다.

대본 인식 기능을 활용하면: 무음 구간 자동 삭제 가능
생성된 음성과 영상 컷: 타임라인에 배치해 리듬감 있게 구성
인트로·아웃트로: 기본 구성 가능

특히 자막 자동 생성 기능이 있어, 영상 몰입도를 높이기에 효과적이다.

8. 직접 해보며 느낀 점

사실 처음에는 "AI로 콘텐츠를 다 만든다고?"라는 의심이 있었다.

하지만 실제로 하나하나 따라 해보니, 누구나 콘텐츠를 만들 수 있는 시대가 온 것을 실감했다.

가장 만족스러웠던 점:

목소리 노출 없이도 콘텐츠 운영 가능
전문 장비나 프로그램 없이 제작 가능
AI 생성 콘텐츠지만 충분히 자연스럽고 매끄러움

교육 현장에서 활용하거나, 시니어 창작자, 유튜브 초보들에게도 정말 적합하다고 느꼈다.

마치며

이제는 누구나 창작자가 될 수 있는 시대다.

구글 AI 스튜디오만 활용해도, 대본부터 영상까지 모든 콘텐츠 제작이 가능하다.

나 역시 마이크도 없고, 편집 기술도 없는 초보였지만 이런 생성형 AI 도구 덕분에 팟캐스트를 시작할 수 있었다.

"어떻게 시작해야 할까"라는 고민만 있다면, 이번 주말이라도 도전해 보길 추천한다.

한 번 따라 해 보면, 생각보다 훨씬 쉬울 것이다.

이 블로그 검색