auto-TTS-bupt

Training Parameters

Dataset Source: ./voice/下的文件夹
Language: 要转录（音频到文字）到的语言代码： { “英语”: “en”, “中文”: “zh”, “西班牙语”: “es”, “法语”: “fr”, “德语”: “de”, “日语”: “ja”, “韩语”: “ko”, “俄语”: “ru”, “阿拉伯语”: “ar”, “葡萄牙语”: “pt”, “意大利语”: “it”, “荷兰语”: “nl”, “瑞典语”: “sv”, “丹麦语”: “da”, “挪威语”: “no”, “芬兰语”: “fi”, “希腊语”: “el”, “土耳其语”: “tr”, “印地语”: “hi”, “波兰语”: “pl”, “泰语”: “th” }
Validation Text Length Threshold: 低于此值的转录文本长度将被剔除并放入验证数据集中。设置为 0 则忽略该选项。
Validation Audio Length Threshold: 音频长度，同上。
Skip Existing: 如果已经存在whisper.json，则跳过转录。
Slice Segments: 根据whisper返回的时间戳修剪片源（请先人工检查一下whisper的转录结果，有时候并不总是准确的）。
Trim Segments: 使用TorchAudio的VAD来修剪静音，减小音频文件的实际大小，从而在训练时节省更多的处理时间和VRAM。
Slice Start Offset: 在分割音频文件时偏移起始时间戳。
Slice End Offset: 在分割音频文件时偏移结束时间戳。
Transcribe and Process: 开始转录，同时在必要时进行切片，并分割为训练集和验证集

This site is open source. Improve this page.