원본과 훈련한 음성이 다른 이유가 뭔가요?

#1
by kbuwel - opened

klm 4.2를 이어서 학습했는데 원본 음성과 차이가 많이 나는거 같습니다.
추론한 음성은 너무 어두운 느낌이 나는데 이유가 뭔가요?
원본 음성은 유튜브에서 가져왔는데 지금은 삭제되고 없는거 같습니다.
10분 짜리 음성이고 음성을 잘라 사용한 게 아니라 원본이 깨끗하기에 그냥 그대로 사용했었습니다.

원본 음성과의 톤의 변화는 여러가지 문제에서 비롯될 수 있습니다.

  1. 학습하신 목소리의 피치의 변폭이 너무 크면 본래의 톤보다 음정이 높거나 낮게 나오는 경향이 있습니다. 이 경우 Tone 조절을 통해 원본의 음정과 비슷한 톤을 찾아보시면 됩니다.

  2. 모델은 추론하는 추론 대상의 톤을 따르게 됩니다. 이는 학습한 모델의 본래의 음색 자체가 변하는 것은 아니지만 추론하는 대상이 이성이거나 전혀 다른 어투 (다른 습관)를 구사하는 경우 모델은 원본을 추종하려는 경향이 강해집니다. 따라서, 오카다와 같은 보이스 체인저에 모델을 넣어 사용하는 경우 전혀 다른 목소리로 들리는 경우가 대부분 입니다.

생성한 모델이 본래 매우 특이한 음성을 가진 경우 어떤 추론 대상에도 잘 붙는 반면, 학습한 모델의 음색에 특징이 없거나 저희가 흔히 평범하게 들을 수 있는 목소리라면 추론 되는 추론 대상을 추종하기 때문에 전혀 다른 소리로 들릴 수도 있습니다.

이 경우, 생성한 모델로 원본 데이터를 추론 해보시면 됩니다. 이때 원본과 동일한 소리가 나온다면 이것은 모델 자체의 문제라기 보단 추론 대상의 음색과 모델의 음색의 차가 너무 커서 발생하는 문제일 수도 있습니다.

  1. 데이터셋의 정확한 진단은 데이터셋을 직접 들어봐야 알 수 있습니다. 허나 깨끗함의 기준이 듣는 사람에 따라 다르기 때문에 이 또한 확실하지 않을 수 있습니다. 모델을 제작하실 때 "깨끗한 원본"의 기준은 스튜디오 내의 방음부스에서 어떠한 잔향이나 환경음이 없이 오로지 성우분의 목소리만이 녹음된 데이터를 기준으로 하셔야 합니다. 예를들어 게임 케릭터 처럼 성우분들이 녹음실과 같은 완벽한 환경에서 높은 수준의 장비들과 엔지니어들의 손을 거쳐 녹음된 데이터라면 이는 어떠한 가공도 필요치 않습니다. 허나 설령 소리가 깨끗하더라도 소리의 잘 울리는 공간 "호리존" 또는 "실내/외 공간"에서 핀마이크와 같은 콘덴서 마이크를 이용하여 인터뷰를 한 내용을 녹음하셨다면 높은 확률로 룸리버브나 하모닉이 데이터에 섞일 수 있습니다.

허나, 데이터셋에 문제가 있다면 대부분 모델의 소리가 왜곡이 되거나 아티펙트가 발생하거나 소리가 튀는 현상이 생깁니다. 일정한 톤이 잘 유지되고 큰 문제가 없다면 대부분이 위에 해당되는 문제일 확률이 높습니다.

  1. 대부분 사전학습 모델을 이용하는 경우 충분한 학습이 이뤄지지 않으면 모델 본연의 소리보다 사전학습 모델에 학습되어 있는 소리가 더 강하게 나올 수도 있습니다. 만일 여러분이 1에포크만 학습을 시키고 해당 모델로 추론을 해보면 데이터셋의 목소리가 아니라 사전학습모델에서 학습된 목소리가 나오게 됩니다. 즉 텐서보드를 이용해서 충분한 학습을 진행해 보시는 것을 추천드립니다.

답변 잘 보았습니다. 원본 데이터는 성우가 직접 녹음한 것을 사용했고 잡음이나 기타 다른 소리는 없는 것을 사용했으며 일정한 톤으로 녹음한 것을 사용했습니다. 일단 원본으로 추론해 보고 문제가 발생하면 뭐 다른 방법을 사용해야겠지요.

Sign up or log in to comment