FAQ
発話時間とPCMのサイズが一致しません
特定の条件下でPCMデータに無音時間を入れPCMデータを水増しします。
これは冒頭および末尾すぐの音が認識されにくいための処置です。
フェードデータが挿入されている場合ログレベル2以上で「末尾0.25s挿入」などが表示されます。
まれに音声認識が遅延します。マイクにノイズを拾っているのかgoogle APIが遅延しているのか判断する方法はありますか
プロンプトに表示される認識時間[**s],PCM[**s],**tps: xxxx
のtpsの数値を比較します。
この値は入力音声の長さにある程度比例することがわかっているため、他の認識のtpsと極端にぶれがある場合、google側の遅れが発生しています。
逆におおきくぶれが発生しない場合マイクがノイズを拾っています。
認識モデルのgoogle、google_duplex、google_mixは何が違いますか?
モデル名 | 説明 |
---|---|
speech_recognition実装の移植 | |
google_duplex | chromium実装の移植 |
google_mix | googleとgoogle_duplexを併用して認識精度を高めます |
音声認識ランチャーのマイク一覧が出てきませんor音声認識ランチャーが立ち上がってきません
これらはアンチウィルスソフトが悪さをしている可能性があります。
アンチウィルスソフトの除外対象にして再度インストールを行ってみてください。
また、ゆーかねすぴれこをパスの深い階層に置くと起動に失敗する可能性がありますので、
ゆーかねすぴれこを深い階層に置かないようにお願いします。
浅い階層に置いてください。
以下は20250112より前のバージョンでの情報になります。20250112移行のバージョンでは日本語が含まれるフォルダでは起動出来ないようにしました。
日本語が含まれるフォルダに置くと起動に失敗する事象が確認されています。起動に失敗した場合英文字のフォルダ名に変えてみてください。
例えば、「D:\ゆーかねすぴれこ」は起動に失敗します。
英語翻訳して字幕ってどう出せばいいですか
ゆーかねすぴれこで翻訳モデルにkotoba_whisperを指定します。このとき認識モデルはgoogle_mixかkotoba_whisperにしてください。
OBSの設定でWebソケットを有効にします。ポートとパスワードをメモしてください(a)。
OBSのソースに字幕用のテキストを追加します(b)。
ゆーかねすぴれこの字幕設定で字幕連携をobsWebソケット設定に、(a)でメモしたポートとパスワードをコピーします。英語字幕ソースに(b)で作成したテキストの名前を設定します。
これで完了です。
字幕の設定を微調整したい
ゆーかねすぴれこ起動中に字幕のテキストソースを編集するとクラッシュします。(仕様)OBSの設定で一度Webソケットを停止してテキストソースの設定を編集してください。再度Webソケットを有効にすればゆーかねすぴれこは再接続します。