このリポジトリは、Stable Audio Oneを使用して音声生成を行うデモンストレーションプロジェクトです。
このプロジェクトでは、Stable Audio Oneモデルを使用して、テキストプロンプトから音声を生成します。GPUが利用可能な場合はCUDAを使用し、そうでない場合はCPUで処理を行います。
- 必要なパッケージのインストール:
pip install torch torchaudio
- デバイスの設定:
device = "cuda" if torch.cuda.is_available() else "cpu"
このコードは自動的に利用可能なハードウェアを検出し、適切なデバイスを選択します。
showroom/usecase-001/sample.py
を実行します:
python showroom/usecase-001/sample.py
- スクリプトは以下の処理を行います:
- Stable Audio Oneモデルをロード
- テキストプロンプトに基づいて音声を生成(デフォルトは"128 BPM tech house drum loop")
- 生成された音声を
output.wav
として保存
生成された音声ファイルはshowroom/usecase-001/output.wav
に保存されます。音声は以下の特徴を持ちます:
- ステレオ音声
- 30秒の長さ
- ピークノーマライズ処理済み
- 16ビット整数形式
- GPU(CUDA)が利用可能な場合、自動的にGPUを使用して処理を高速化します
- GPUが利用できない場合は、自動的にCPUにフォールバックします
- 生成プロセスには数分かかる場合があります(デバイスの性能に依存)