文字起こし機能解説 | AZSTOKE OFFICIAL

文字起こし機能

RIGDOCKS-SILVER-1.4.0以降には、OpenAI社が提供するggmlモデル3種が同梱されています
モデル名
文字起こし精度
処理速度
ggml-tiny.bin
△
◎
ggml-small.bin
〇
〇
ggml-medium.bin
◎
△
「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」内に同梱モデルが表示されます
チェックされているものがデフォルトで文字起こしに使用されるモデルになります
別のモデルを選択することでデフォルトを変更することができます
デフォルトの設定はReaperを閉じても保存されています
1 : 以下サイトより使用するggmlモデルをダウンロードする
https://huggingface.co/ggerganov/whisper.cpp/tree/main
例としてggml-large-v3.binをダウンロードします。このモデルは付属のggml-medium.binより文字起こし精度が高く、処理速度が遅いものになります
2 : Reaperを開き、「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」>「Open Models Folder」をクリックする
推論モデル読み込み用フォルダが開かれます
3 : ダウンロードした推論モデルをフォルダ内に配置する
4 : Reaperを再起動すると、追加したモデルが表示される
文字起こし処理はNVIDIAのCUDA対応GPUを使用することで処理速度を飛躍的に向上させることができます。Pascal世代以降のGPUが利用可能で、Windows版のみ対応しています。
製品がどのGPU世代に当たるかついては下記サイトをご確認くださいhttps://en.wikipedia.org/wiki/CUDA#GPUs_supported:~:text=CX%2C%0ADRIVE%C2%A0PX-,6.0,-Pascal
1 : NVIDIA公式サイトより、NVIDIA Studio ドライバーをダウンロードし、インストールする
https://www.nvidia.com/ja-jp/drivers/
※ドライバーのバージョンによってはGPU処理が対応しない場合があります。最新のドライバーをインストールしてください
2 : Reaperを開き、「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」>「Use GPU」にチェックを入れる
※GPUやドライバーが対応していない場合は「Use GPU」は表示されません
※ggml-medium.bin以上の性能のモデルを使用する場合、GPUでの処理を行うことを推奨します
「Use GPU」にチェックが入っていない場合や、「Use GPU」が表示されない場合はCPUで処理されます
ReaScriptでRIGDOCKSのAPIを実行する
※各APIの詳しい仕様についてはAPIDOCKをご確認ください
1 : AZ_TRSC_LoadModelで推論モデルを読み込む
a : デフォルト設定のモデルを使用する場合
引数に何も入れない
b : モデルフォルダ内のモデルを使用する場合
引数modelPathでファイル名のみ指定
c : モデルフォルダ外のモデルを使用する場合
引数modelPathでファイルのパスを指定
2 : 文字起こしを実行
a : 対象メディアを文脈で区切って文字起こしする場合
AZ_TRSC_Segments...... APIを使用する
b : 対象メディアを区切らずに文字起こしする場合
AZ_TRSC_Full...... APIを使用する
3 : AZ_TRSC_ReleaseModelで推論モデルの読み込みを解除

モデル名	文字起こし精度	処理速度
ggml-tiny.bin	△	◎
ggml-small.bin	〇	〇
ggml-medium.bin	◎	△

​文字起こし機能

RIGDOCKS-SILVER-1.4.0以降には、OpenAI社が提供するggmlモデル3種が同梱されています

​「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」内に同梱モデルが表示されます

​チェックされているものがデフォルトで文字起こしに使用されるモデルになります

​別のモデルを選択することでデフォルトを変更することができます

​デフォルトの設定はReaperを閉じても保存されています

1 : 以下サイトより使用するggmlモデルをダウンロードする

https://huggingface.co/ggerganov/whisper.cpp/tree/main

例としてggml-large-v3.binをダウンロードします。このモデルは付属のggml-medium.binより文字起こし精度が高く、処理速度が遅いものになります

2 : Reaperを開き、「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」>「Open Models Folder」をクリックする

​推論モデル読み込み用フォルダが開かれます

3 : ダウンロードした推論モデルをフォルダ内に配置する

4 : Reaperを再起動すると、追加したモデルが表示される

​文字起こし処理はNVIDIAのCUDA対応GPUを使用することで処理速度を飛躍的に向上させることができます。Pascal世代以降のGPUが利用可能で、Windows版のみ対応しています。

製品がどのGPU世代に当たるかついては下記サイトをご確認くださいhttps://en.wikipedia.org/wiki/CUDA#GPUs_supported:~:text=CX%2C%0ADRIVE%C2%A0PX-,6.0,-Pascal

1 : NVIDIA公式サイトより、NVIDIA Studio ドライバー をダウンロードし、インストールする

https://www.nvidia.com/ja-jp/drivers/

​※ドライバーのバージョンによってはGPU処理が対応しない場合があります。最新のドライバーをインストールしてください

2 : Reaperを開き、「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」>「Use GPU」にチェックを入れる

※GPUやドライバーが対応していない場合は「Use GPU」は表示されません

※ggml-medium.bin以上の性能のモデルを使用する場合、GPUでの処理を行うことを推奨します

「Use GPU」にチェックが入っていない場合や、「Use GPU」が表示されない場合はCPUで処理されます

ReaScriptでRIGDOCKSのAPIを実行する

​※各APIの詳しい仕様についてはAPIDOCKをご確認ください

1 : AZ_TRSC_LoadModelで推論モデルを読み込む

a : デフォルト設定のモデルを使用する場合

​引数に何も入れない

b : モデルフォルダ内のモデルを使用する場合

​引数modelPathでファイル名のみ指定

c : モデルフォルダ外のモデルを使用する場合

​引数modelPathでファイルのパスを指定

2 : 文字起こしを実行

a : 対象メディアを文脈で区切って文字起こしする場合

AZ_TRSC_Segments...... APIを使用する

b : 対象メディアを区切らずに文字起こしする場合

AZ_TRSC_Full...... APIを使用する

3 : AZ_TRSC_ReleaseModelで推論モデルの読み込みを解除

文字起こし機能

「拡張」>「RIGDOCKS」> 「SILVER」>「Transcription」内に同梱モデルが表示されます

チェックされているものがデフォルトで文字起こしに使用されるモデルになります

別のモデルを選択することでデフォルトを変更することができます

デフォルトの設定はReaperを閉じても保存されています

推論モデル読み込み用フォルダが開かれます

文字起こし処理はNVIDIAのCUDA対応GPUを使用することで処理速度を飛躍的に向上させることができます。Pascal世代以降のGPUが利用可能で、Windows版のみ対応しています。

1 : NVIDIA公式サイトより、NVIDIA Studio ドライバーをダウンロードし、インストールする

※ドライバーのバージョンによってはGPU処理が対応しない場合があります。最新のドライバーをインストールしてください

※各APIの詳しい仕様についてはAPIDOCKをご確認ください

引数に何も入れない

引数modelPathでファイル名のみ指定

引数modelPathでファイルのパスを指定