RTX 3070 / WindowsでStable Audio 3をローカル導入してみた：Smallは簡単、MediumはTorch 2.6.0 + cu126で動作

Stable Audio 3が公開されたので、手元のWindows PCでローカル動作を試しました。目的は、ゲーム制作で使えるBGM・環境音・効果音を自分のPC上で生成できるか確認することです。

結論から言うと、RTX 3070環境でもStable Audio 3 Small-SFX / Small-Musicは問題なく動作し、Stable Audio 3 Mediumも設定を合わせれば動作しました。ただし、MediumはFlash Attentionまわりで少し詰まりやすく、普通に入れただけでは失敗する可能性があります。

今回の検証環境
Stable Audio 3のモデルの立ち位置
Small-SFX / Small-Musicの導入
Medium導入で詰まった点
Mediumで動いた構成
Mediumの生成速度
GUIとCLIの使い分け
MP3出力とFFmpeg
一括生成スクリプトも用意した
プロンプトの例
ACE-Step 1.5との使い分け
ライセンスについて
まとめ
参考リンク

今回の検証環境

OS：Windows
GPU：NVIDIA GeForce RTX 3070（VRAM 8GB）
NVIDIA Driver：591.86
CUDA表示：13.1（nvidia-smi上）
Python：3.10.19（uv管理）
uv：0.10.0
FFmpeg：8.1.1 full build
作業フォルダ：C:\AI（例。任意の場所でOK）

Stable Audio 3は公式リポジトリでuvを使った導入手順が用意されています。Small系はCPUでも動作する扱いで、MediumはCUDA GPUとFlash Attention 2が必要です。

※以下のパスは記事用の例です。実際には自分の環境に合わせて、任意の作業フォルダへ置き換えてください。

Stable Audio 3のモデルの立ち位置

Stable Audio 3には、今回使った範囲では主に次のモデルがあります。

モデル	用途	今回の結果
Small-SFX	効果音、環境音、UI音	動作OK
Small-Music	短いBGM、ループ素材	動作OK
Medium	音楽、効果音、やや高品質な素材生成	構成調整後に動作OK

ゲーム素材として見ると、Small-SFXは決定音・魔法音・環境音など、Small-Musicは短いBGMの下書きに向いています。Mediumは生成速度も速く、BGMや雰囲気素材を量産する用途にかなり合っていました。

一方で、明確な歌詞付きボーカル曲を作りたい場合は、ACE-Step 1.5の方が向いている印象です。Stable Audio 3 Mediumでも「ふわっとした女性ボーカル」「ハミング」「コーラス風の声」は出せますが、歌詞をはっきり歌わせる用途ではなく、声を楽器のように混ぜる用途の方が現実的でした。

Small-SFX / Small-Musicの導入

まずはSmall系から試しました。作業フォルダは以下にしました。

C:\AI\stable-audio-3

基本的な流れは次の通りです。

git clone https://github.com/Stability-AI/stable-audio-3.git C:\AI\stable-audio-3
cd C:\AI\stable-audio-3
uv python install 3.10
uv venv --python 3.10
uv sync --extra ui

Hugging Face側では、Stable Audio 3 Small-SFX / Small-Musicの利用条件を承認しておく必要がありました。未承認のままだと、モデルファイル取得時に403 Forbiddenで止まります。

承認後、Small-SFXとSmall-Musicはどちらも動作しました。Small-SFXは5秒の効果音、Small-Musicは30秒のBGMを生成でき、ゲーム用素材の下地として十分使えそうでした。

Medium導入で詰まった点

MediumはSmallより少し難しかったです。最初に試した構成は次の通りです。

torch 2.7.1 + cu128
torchaudio 2.7.1 + cu128
flash_attn 2.7.4.post1 + cu128 / torch2.7.0向けwheel

この構成では、CUDA版Torch自体はRTX 3070を認識し、flash_attnのimportも成功しました。しかしMedium生成を始めると、Flash Attention実行時に次のエラーで止まりました。

RuntimeError: CUDA error: no kernel image is available for execution on the device

これはVRAM不足というより、使ったFlash AttentionのwheelがRTX 3070に合っていない可能性が高いと判断しました。RTX 3070はAmpere世代で、compute capabilityは8.6です。

Mediumで動いた構成

最終的に、Mediumは次の構成で動作しました。

作業フォルダ：C:\AI\stable-audio-3-medium-torch26
Python：3.10.19
torch：2.6.0 + cu126
torchaudio：2.6.0 + cu126
flash_attn：2.7.4 + cu126 / torch2.6.0向けWindows wheel
起動時は必ず uv run --no-sync を使用

重要なのは、Medium用の環境では通常の uv run を使わず、uv run --no-sync を使うことです。通常の uv run を使うと、uvが環境を再同期してCPU版Torchに戻してしまうことがありました。

動作確認では、まずFlash Attention単体のGPU実行テストを行いました。

torch: 2.6.0+cu126
capability: (8, 6)
out: torch.Size([1, 128, 8, 64]) torch.float16 cuda:0

このテストが通った後、Stable Audio 3 Mediumで5秒、15秒、30秒の生成を試し、すべて再生できるファイルが出力されました。

Mediumの生成速度

今回の環境では、Mediumの生成速度はかなり速い印象でした。ただし、速度を見るときは「CLIで毎回モデルを読み込む時間」と「GUIでモデル読み込み後に生成する時間」を分けて考えた方がよいです。

CLIで1回ずつ実行する場合は、Python起動、モデル読み込み、生成、保存が毎回入るため、全体時間は長めになります。一方、GUIでは起動時にモデルを読み込んだ後、生成ボタンを押すたびに同じモデルを使い回せるため、2回目以降はかなり速く感じました。

生成方法	確認した内容	体感・ログ上の傾向
CLI	Medium 15秒・30秒生成	モデル読み込み込みで30秒台
GUI	Medium 30秒程度の曲	モデル読み込み後はかなり速く、30秒曲でも3～5秒前後で生成された

自分の用途では、厳密なベンチマークよりも「モデル起動後のGUI生成が十分速いか」が重要でした。その意味では、RTX 3070でもStable Audio 3 Mediumはゲーム用BGMの試作に使える速度だと感じました。

GUIとCLIの使い分け

実際に使ってみると、GUIとCLIは使い分けた方がよさそうでした。

用途	おすすめ
プロンプトを試しながら1本ずつ作る	GUI
seed違いを複数本まとめて作る	一括生成スクリプト
保存先やファイル名を厳密に管理したい	CLI / 一括生成スクリプト
Mediumを使う	GUIかCLIのどちらか一方だけ起動

MediumはVRAMを使うため、GUIを起動したままCLIでも生成するのは避けた方が安全です。RTX 3070の8GB環境では、Mediumモデルを二重に読み込むとCUDA out of memoryや動作不安定の原因になり得ます。

MP3出力とFFmpeg

GUIでMP3出力する場合、FFmpegが必要です。通常のPowerShellでffmpegが認識されていても、Gradioを起動しているプロセスが古いPATHを持っている場合は、MP3変換に失敗することがありました。

この場合は、Gradioを一度止めて起動し直すことで解決しました。FFmpeg導入後は、起動中のPowerShellやGradioプロセスにPATH変更が反映されないことがあるので、再起動が大事です。

一括生成スクリプトも用意した

GUIでは複数ファイルを一度に出しにくかったので、Medium専用の一括生成スクリプトも作りました。内容は次のようなものです。

起動後に生成秒数を入力
プロンプトを1行で入力
Mediumモデルを1回だけロード
ランダムseedで5本生成
MP3で保存
各seedや出力ファイルをmanifest JSONに記録

プロンプト調整中はGUI、候補をまとめて出すときは一括生成スクリプト、という運用がかなり使いやすそうです。

プロンプトの例

今回試して使いやすかったのは、ゲームBGM向けに用途や雰囲気を明確に書く形です。

TrackType: Music, Genre: Fantasy, VocalType: Instrumental,
ethereal forest ambience, soft harp, gentle strings,
distant bells, magical dusk, mysterious but warm atmosphere,
calm emotional visual novel background music,
75 BPM, seamless loop, no modern drums

ボーカル風の質感を入れたい場合は、明確な歌詞ではなく、wordless vocalやhummingのように指定すると扱いやすかったです。

quiet melancholic music box, soft pads,
distant wordless female vocal, gentle humming,
lonely workshop at night, fragile mechanical ambience,
emotional indie game background music,
seamless loop, no drums, no harsh sound

Stable Audio 3 Mediumは、歌詞をはっきり歌わせるというより、BGMに薄く混ざる声、ハミング、コーラス、雰囲気作りに向いている印象です。

ACE-Step 1.5との使い分け

Stable Audio 3 Mediumを使ってみて、ACE-Step 1.5と完全に置き換えるものではないと感じました。

作りたいもの	向いているもの
効果音、環境音、短いループ	Stable Audio 3 Small-SFX / Medium
ゲーム用BGM、雰囲気素材	Stable Audio 3 Medium
ふわっとしたボーカル、コーラス入りBGM	Stable Audio 3 Medium
明確な歌詞、歌もの、主題歌	ACE-Step 1.5

自分の用途では、普段のゲーム用BGM・効果音・環境音はStable Audio 3、歌入りの曲を作るときはACE-Step 1.5、という併用がよさそうです。

ライセンスについて

Stable Audio 3.0はStability AIのCommunity License対象モデルに含まれています。Stability AIのライセンスページでは、Stable Audio 3.0がCommunity Licenseの対象に含まれており、年間収益が100万ドル未満の研究者、開発者、小規模事業者、クリエイター向けに無料と説明されています。

同ページのFAQでは、Stability AIのCore Modelsの利用は、商用目的で使う場合でも、利用者または組織の年間収益が100万ドル未満であれば無料とされています。また、出力物については、適用法とAcceptable Use Policyに従う限り、出力物は利用者が所有し、自由に使えるという説明になっています。

ただし、年間収益が100万ドルを超える組織が商用製品・サービスで使う場合はEnterprise Licenseが必要になるため、事業規模が大きい場合は公式ライセンスを確認した方が安全です。また、モデルや派生物を第三者へ配布する場合は、Community License上の表示・通知義務が関係する可能性があります。

個人開発のゲーム素材として生成音声を使う程度であれば扱いやすいライセンスに見えますが、商用配布やチーム利用をする場合は、Stability AI Community LicenseとAcceptable Use Policyを確認してから使うのがよいと思います。

まとめ

RTX 3070 / Windows環境でも、Stable Audio 3は実用できました。Small系は比較的簡単に動き、MediumもTorch 2.6.0 + cu126 + 対応するFlash Attention wheelを使うことで生成に成功しました。

特にMediumは生成速度が速く、ゲーム用BGMや環境音素材を試作するにはかなり便利です。ただし、MediumはFlash AttentionとCUDA版Torchの組み合わせが重要なので、環境構築ではSmallより注意が必要です。

個人的には、Stable Audio 3 Mediumは「ローカルでゲーム素材を量産するためのかなり有力な選択肢」だと感じました。歌ものはACE-Step 1.5、BGM・SE・環境音はStable Audio 3という使い分けで、しばらく試していこうと思います。