高速音声認識で字幕制作する東北ずん子(Qwen3 ASR + ForcedAligner)
1 view
ねこさんなのです今回は win11 ComfyUI portable を用いて、音声認識 Qwen3-ASR と単語タイミング付与 Qwen3-ForcedAligner を組み合わせ字幕制作のテストを行っておきました(`ヮ´)<いちおう nVidia の VRAM 12GB 以上のグラボ推奨ですこれらは1つのワークフロー(設計...
