umadfsvcTest03

Build error

App Files Files Community

umadfsvcTest03 / app.py

Karumoon

Duplicate from mitudesk/uma_diffsvc

2071bc1 over 1 year ago

raw

history blame contribute delete

4.32 kB

	import gradio as gr
	import pandas as pd
	import numpy as np
	import matplotlib.pyplot as plt
	import json
	import os
	import tempfile
	import shutil
	import requests
	from pathlib import Path
	###################################################
	from utils.hparams import hparams
	from preprocessing.data_gen_utils import get_pitch_parselmouth,get_pitch_crepe
	import numpy as np
	import matplotlib.pyplot as plt
	import IPython.display as ipd
	import utils
	import librosa
	import torchcrepe
	from infer import *
	import logging
	from infer_tools.infer_tool import *
	import io



	spk_dict = {
	"东海帝皇": {"model_name": './models/uma/teio.ckpt', "config_name": './models/uma/config.yaml'}
	}
	print(spk_dict)

	project_name = "teio"
	model_path = spk_dict['东海帝皇']['model_name']
	config_path= spk_dict['东海帝皇']['config_name']
	hubert_gpu = False
	svc_model = Svc(project_name, config_path, hubert_gpu, model_path)

	print(svc_model)

	def vc_fn(sid, audio_record, audio_upload, tran, pndm_speedup=20):
	print(sid)
	if audio_upload is not None:
	audio_path = audio_upload
	elif audio_record is not None:
	audio_path = audio_record
	else:
	return "你需要上传wav文件或使用网页内置的录音！", None

	tran = int(tran)
	pndm_speedup = int(pndm_speedup)
	print('model loaded')
	# demoaudio, sr = librosa.load(audio_path)
	key = tran # 音高调整，支持正负（半音）
	# 加速倍数
	wav_gen='./output.wav'

	# Show the spinner and run the run_clip function inside the 'with' block
	f0_tst, f0_pred, audio = run_clip(svc_model, file_path=audio_path, key=key, acc=pndm_speedup, use_crepe=True, use_pe=True, thre=0.1,
	use_gt_mel=False, add_noise_step=500, project_name=project_name, out_path=wav_gen)

	audio, sr = librosa.load(wav_gen)
	f0_gen,_=get_pitch_parselmouth(*svc_model.vocoder.wav2spec(wav_gen),hparams)
	f0_tst[f0_tst==0]=np.nan#ground truth f0
	f0_pred[f0_pred==0]=np.nan#f0 pe predicted
	f0_gen[f0_gen==0]=np.nan#f0 generated
	fig=plt.figure(figsize=[15,5])
	plt.plot(np.arange(0,len(f0_tst)),f0_tst,color='black',label="f0_tst")
	plt.plot(np.arange(0,len(f0_pred)),f0_pred,color='orange',label="f0_pred")
	plt.plot(np.arange(0,len(f0_gen)),f0_gen,color='red',label="f0_gen")
	plt.axhline(librosa.note_to_hz('C4'),ls=":",c="blue",label="C4")
	plt.axhline(librosa.note_to_hz('G4'),ls=":",c="green",label="G4")
	plt.axhline(librosa.note_to_hz('C5'),ls=":",c="orange",label="C5")
	plt.axhline(librosa.note_to_hz('F#5'),ls=":",c="red",label="F#5")
	#plt.axhline(librosa.note_to_hz('A#5'),ls=":",c="black",label="分割线")
	plt.legend()
	plt.savefig('./temp.png')

	return "Success", (sr, audio), gr.Image.update("temp.png") # hparams['audio_sample_rate']


	app = gr.Blocks()
	with app:
	with gr.Tabs():
	with gr.TabItem("Basic"):
	gr.Markdown(value="""
	本模型基于diffsvc训练，改自ulysses115/diffsvc_test
	感谢uly大佬
	请尽量使用比较短的音频
	""")
	speaker_id = gr.Dropdown(label="音色", choices=['东海帝皇'], value="东海帝皇")
	record_input = gr.Audio(source="microphone", label="录制你的声音", type="filepath", elem_id="audio_inputs")
	upload_input = gr.Audio(source="upload", label="上传音频（长度小于60秒）", type="filepath",
	elem_id="audio_inputs")
	vc_transform = gr.Number(label="变调（整数，可以正负，半音数量，升高八度就是12）", value=0)
	vc_speedup = gr.Number(label="加速倍数", value=20)
	vc_submit = gr.Button("转换", variant="primary")
	out_audio = gr.Audio(label="Output Audio")
	gr.Markdown(value="""
	无用信息
	""")
	out_message = gr.Textbox(label="Output")
	gr.Markdown(value="""f0曲线可以直观的显示跑调情况：
	""")
	f0_image = gr.Image(label="f0曲线")
	vc_submit.click(vc_fn, [speaker_id, record_input, upload_input, vc_transform, vc_speedup],
	[out_message, out_audio, f0_image])

	app.launch()