Stable Audio One ハンズオン

このリポジトリは、Stable Audio Oneを使用して音声生成を行うデモンストレーションプロジェクトです。

概要

このプロジェクトでは、Stable Audio Oneモデルを使用して、テキストプロンプトから音声を生成します。GPUが利用可能な場合はCUDAを使用し、そうでない場合はCPUで処理を行います。

セットアップ

必要なパッケージのインストール:

pip install torch torchaudio

デバイスの設定:

device = "cuda" if torch.cuda.is_available() else "cpu"

このコードは自動的に利用可能なハードウェアを検出し、適切なデバイスを選択します。

使用方法

showroom/usecase-001/sample.pyを実行します:

python showroom/usecase-001/sample.py

スクリプトは以下の処理を行います:

Stable Audio Oneモデルをロード
テキストプロンプトに基づいて音声を生成（デフォルトは"128 BPM tech house drum loop"）
生成された音声をoutput.wavとして保存

出力

生成された音声ファイルはshowroom/usecase-001/output.wavに保存されます。音声は以下の特徴を持ちます:

ステレオ音声
30秒の長さ
ピークノーマライズ処理済み
16ビット整数形式

注意事項

GPU（CUDA）が利用可能な場合、自動的にGPUを使用して処理を高速化します
GPUが利用できない場合は、自動的にCPUにフォールバックします
生成プロセスには数分かかる場合があります（デバイスの性能に依存）

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
models/checkpoints		models/checkpoints
showroom/usecase-001		showroom/usecase-001
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Stable Audio One ハンズオン

概要

セットアップ

使用方法

出力

注意事項

About

Uh oh!

Releases

Packages

Languages

timeless-residents/handson-stable-audio-one

Folders and files

Latest commit

History

Repository files navigation

Stable Audio One ハンズオン

概要

セットアップ

使用方法

出力

注意事項

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages