[내목소리 TTS 만들기] 01. 목소리 녹음하기

#내목소리 #TTS #만들기 #목소리 #녹음

[내목소리 TTS 만들기] 01. 목소리 녹음하기

역시 쉬운게 있을리가

개인 tts 서비스를 만들기에 앞서 기존에 다른 분이 정리해놓은 과정대로

간단한 tts 만들기를 먼저 실습한다.

(아래 링크 참고)

https://sce-tts.github.io/#/v2/recoding

00) tts 내용 훑어보기

우선 출시된 tts 관련 api 및 딥러닝 오픈소스에 대한 이해를 위하여

아래 영상을 봤다

https://youtu.be/klnfWhPGPRs

tts 머신러닝 대략 구조, 캐릭터 임베딩, 스피커 임베딩 등에 대한 내용이다.

청자가 이미 머신러닝, 딥러닝에 대한 이해가 있을 것이라는 기준 하에 설명하니 참고.

01) 음성녹음 준비

여기에 나는 더해서

오디오 인터페이스, 컨덴서 마이크(+팝필터) 를 준비했다.

(단순 제작에는 아래 장비 필요없습니다~)

다 한군데씩 문제가 있는 내 오랜 친구들

그리고 아래 프로그램을 다운로드하여 'run-server.bat'을 실행하면

https://drive.google.com/file/d/1qWWBVerugPedNvaUbqYqwPhbIvWXnFxN/view?usp=sharing

이렇게 로컬 5000번 포트로 서비스 하나가 뜬다.

그럼 브라우저에서 localhost:5000으로 접속하면

이렇게 나오는데, 첫 화면에서는 이름 입력인데 아무거나 치고 들어가면 된다.

그리고 녹음을 한 후 next 버튼을 누르면

에러가 뜬다......

설명 문서에도 에러가 간혹 나는 서비스라 새로고침을 하면 된다고 되어있지만,

나는 처음부터 났고, 새로고침에도 아무것도 해결되지 않았다.

콘솔 에러를 살펴본다.

UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 50: illegal multibyte sequence
'cp949' codec can't decode byte 0xec in position 50: illegal multibyte sequence

디코딩 에러가 났다...

exe형식으로 이미 컴파일 되어있어서 디컴파일을 하거나 해야하는데,

깃허브에 해당 프로젝트가 올라와있길래,

이걸 다운받아서 소스 수정해서 실행해본다.

https://github.com/sce-tts/mimic-recording-studio

포크, 클론 해서,,

에러에 나온 위치 backend/app/file_system.py

에서

file_system.py

endoding="utf-8" 부분만 더해준다.

그리고 도커 컴포즈 실행

(윈도우에 도커 설치해놨었음)

// 관리자 파워쉘
docker-compose -f 도커컴포즈위치 up -d

프론트와 백이 각각 3000, 5000 포트로 띄워졌다.

localhost:3000으로 띄워서 다시 녹음 시작..

근데 이거 녹음하는데 시간 진짜 오래 걸린다..

450개 했는데 겨우 33분 채운 것...

벌써 목 쉴 것 같은데???

하루만엔 못할 것 같고,

기간을 두고 매일매일 시간을 채우기로 했다.

...

너무 많아서 이만큼만 하고 우선 넘어가려고 한다.

1500개를 읽었는데 1시간 43분이다....

후우....

중간중간에 이상한 말도 좀 있고, 오타도 있고,

떡볶이랑 닭갈비랑 성경은 왜 이렇게 자주 나오는짘ㅋ

서비스화 하려면 수정을 좀 해야할 것 같다.

우선 녹음은 끝

네이버 게시글 옮기는 중...작성일: 2023. 3. 9. 21:26

[출처] [내목소리 TTS 만들기] 01. 목소리 녹음하기|작성자 Secondpage