Stable Diffusionとは?画像生成AIの使い方や利用時の注意点を解説します
INDEX
- Stable Diffusionとは?
- Stable Diffusionでの画像生成
- Webアプリケーション上の環境での生成
- 自身が作成した環境への生成
- Stable DiffusionをWebアプリケーション上で利用できるサービス
- HuggingFace
- DreamStudio
- Mage.space
- HuggingFaceの使い方
- DreamStudioの使い方
- Mage.spaceの使い方
- 画像生成AIの使い方
- 作りたい画像内容のテキスト入力
- 単語数は75個以内にする
- 重要な部分は括弧と数字で強調
- 先に入力したプロンプトから優先される
- ネガティブプロンプトの活用
- なるべく多くのキーワードを入力
- Stable Diffusionの画像を利用する際の注意点
- 著作権問題
- 商用利用は基本的に可能
- 商用利用できないケース
- 英語でのプロンプト入力が基本
- 同じ条件でも出力される画像が毎回異なる
- プロンプト内容と関係ない画像の出力
- まとめ
- さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは?
画像生成AIの1つであるStable Diffusionをご存じでしょうか。
この記事を読んでいる方には、Stable Diffusionを知らない方や使い方がわからない方も多いと思います。
今回はStable Diffusionとはどのような画像生成AIなのか、使い方・注意点も併せて解説するので参考にしてください。
Stable Diffusionとは?
Stable DiffusionはイギリスのStability AI社が画像生成AIとして開発したシステムです。
入力したテキストをもとに高クオリティの画像を作成するだけではなく、作成された画像を商用利用できます。
画像を生成する際は作成したい画像をイメージして、イメージに基づく単語を入力しましょう。
潜在拡散モデルのアルゴリズムを訓練しているので、間に機械学習のアプリを挟む必要がありません。そのため、単語を入力するだけで画像生成ができます。
無料で利用回数の制限なく画像生成できるので、他の画像生成AIよりも使い勝手が良いシステムといえるでしょう。
Stable Diffusionでの画像生成
Stable Diffusionで画像生成するためには、どのような環境で行うかを見ていきましょう。
ここでは、Webアプリケーション上と自身が作成した環境の2パターンをご紹介します。
Webアプリケーション上の環境での生成
Stable DiffusionはオープンソースAIなので、Webアプリケーション上で画像生成できます。通信環境さえあればOSに関係なくどなたでも使用できる点が特徴です。
Stable Diffusion Onlineであればアカウント登録をせず、テキスト入力だけで画像生成ができます。
ただし、Stable Diffusion Onlineは、必要ないものを消すといった細かい指示はできません。細かい指示をするなら有料版のWebアプリケーションを使用しましょう。
Webアプリケーションは作成枚数に制限があるケースが多いですが、PCのスペックを気にする必要はありません。
自身が作成した環境への生成
画像作成枚数や機能に制限なく使用したい場合は、ローカルネットワークを使用しましょう。
Stable Diffusionを使用するには「Stable Diffusion web UI」のインストールを忘れないでください。インストールしたら自身でプログラムを構築しなければなりません。
また、RAM16GB以上・VRAM12GB以上のGPUスペックが必要です。
スペックが低いと画像生成に時間がかかったりエラーが起きたりするので、ローカル版を使用するときはスペックを確認しましょう。
ノートパソコンよりもデスクトップパソコンのほうが作業がサクサク進むのでおすすめです。
Stable DiffusionをWebアプリケーション上で利用できるサービス
Stable DiffusionをWebアプリケーション上で利用できるサービスは多数あります。
ここではその中でもおすすめの、HuggingFace・DreamStudio・Mage.spaceを見ていきましょう。
HuggingFace
HuggingFaceは、機械学習アプリを作成するためのツールを開発する米国企業のWebアプリケーションの1つです。
HuggingFaceでは、AIを使用するためのプラットフォームを提供しています。
Stable Diffusion以外にもText-to-Speechやテキストクラシフィケーションでも使用可能です。
AIコミュニティの協力と共有の促進を目的としているため、さまざまなAIモデルやデータが世界中のユーザーによってアップロードされています。
DreamStudio
DreamStudioは、Stable Diffusionのオープンβ版として実装された有料の画像生成AIです。
サインインしないと使用できないので、GoogleアカウントかDiscordアカウントでサインインしましょう。
画像サイズ・類似度・処理回数などを指定できるだけではなく、著作権フリーの特徴があります。
画像サイズ・類似度・処理回数などの指定にはお金がかかりますが、サイズや回数によって金額が異なるので注意しましょう。
また、月額制のようなサブスクプランがないため都度購入しなければなりません。
Mage.space
Mage.spaceは、無料版と有料版があります。無料版は使用できる学習モデルに制限があるので、制限なしで使用したい場合は有料版を選択しましょう。
最新版のStable Diffusionを使用したい場合は、無料版でも構いません。旧版を利用している場合は、有料プランにする必要があります。
また、有料版はGIFを作成したり1度に複数の画像を作成したりできるので、単なる画像作成サービスとは異なり機能が充実しています。
ただし、Mage.spaceで作成した画像は、ユーザーでも著作権の主張はできません。誰もが使用できる画像になると覚えておきましょう。
HuggingFaceの使い方
HuggingFaceでStable Diffusionを使用するときは、Stable Diffusionの実行ページにアクセスしてください。
テキスト入力エリアに、自身が作成したい画像のイメージに合うテキストを英語で入力していきます。
実行ボタンを押せば空白のエリアに画像が表示される仕組みです。日本語ページや日本語入力は対応していないので、ブラウザの翻訳機能を使用しましょう。
また、イメージがわかなければ、ページ下部の例文を使用するのがおすすめです。作成された画像の画質がイマイチなこともあるでしょう。
そのようなときは英文にquality8k・quality4k・realistic・photorealistic・Unreal Engineなどを含めると画質が上がります。
DreamStudioの使い方
DreamStudioはアカウントがないと使用できません。GoogleアカウントかDiscordアカウントがない場合は、アカウント作成から始めましょう。
アカウントを作成したら画像のテイストを選びます。続いてプロンプトを入力しますが、日本語入力も可能です。しかし、英語よりも精度が落ちるので注意しましょう。
プロンプトは画像に反映させるものだけではなく、反映させないためのネガティブプロントも入力します。入力したらイメージ画像をアップロードしましょう。
解像度・生成枚数・高度を調節して実行すれば、画像が作成されます。
Mage.spaceの使い方
Mage.spaceのページにアクセスしたらプロンプトを入力してください。入力欄の横にある矢印をクリックすると画像が作成されます。
保存する場合は「Enhance」をクリックしましょう。プロンプトを入力しただけでは、イメージに合った画像にならないこともあります。
そのようなときは、aspect ratio・steps・guidance scale・seed・negatice prompt・scheduler・clip skipなどの項目を細かく設定してください。
ノイズの除去やいらないものを排除してよりイメージに近い画像を作れます。
画像生成AIの使い方
Webアプリケーションの使い方がわかったところで、続いては画像生成AIの使い方を見ていきましょう。ここでは6つの手順に分けてご紹介します。
作りたい画像内容のテキスト入力
まずは、作りたい画像内容をプロンプト部分にテキスト入力します。このとき、日本語入力できたとしても英語で入力しましょう。
英語で入力したほうがイメージ通りに画像が反映されます。また、設定は細かくしておきましょう。
例えば「小さい人」だけ入力すると子供なのか大人で身長が低い人なのかわかりません。
そこで「〇歳で〇cmくらいの小柄な女の子」と設定すれば、出力したいイメージに合った画像が生成されます。
うまく言葉で表現できない場合は、画像を読み込ませて学習させる方法も1つの手です。
単語数は75個以内にする
プロンプトに入力するときに細かく設定したほうが良いですが、単語が多すぎるのは良くありません。
単語数が多くなるほど条件が多すぎて、画像を生成するのに絞り切れなくなります。そのため、ある程度の単語数は必要になりますが、75個以内に収めるようにしましょう。
日本語だと単語数が少なくても、英語だと単語数が多くなってしまうことがあります。英語に訳したときに、単語数が76個以上になっていないか確認してください。
重要な部分は括弧と数字で強調
文の中でも特に画像に反映させたい重要な部分には括弧や数字を付けるようにしましょう。強調させることで、AIはその部分の重要さを学習します。
括弧なしで入力した場合、イメージと違うこともあるでしょう。また、最も反映させたかった部分が反映していないことも多々あります。
そのようなときは、括弧や数字を使用して優先度に順位を付けましょう。しかし、順位を付けるにしてもどのように付けたらいいかわからない方も多いと思います。
優先度は画像の雰囲気がガラリと変わってしまう部分から指定していくことがおすすめです。
例えば女性キャラクターを作るときは髪型や髪色に括弧を付けると、イメージとずれにくくなります。
先に入力したプロンプトから優先される
Stable Diffusionのシステムは上から順に認識されるので括弧や数字がない場合、先に入力したプロンプトから画像に反映されていきます。
そのため、1度作ったプロンプトをそのまま入力することはおすすめできません。品質を高めるプロンプトや全体の構成に関わるプロンプトから入力していきましょう。
プロンプトの単語は同じでも順番が違うだけで、全く別の画像ができあがります。優先度の高さを意識してプロンプト入力を行ってください。
ネガティブプロンプトの活用
プロンプトに入力するだけではなく、ネガティブプロンプトも活用しましょう。ネガティブプロンプトには、画像に反映させたくない情報を入力します。
例えば、ビルが並ぶ都会の街の画像を作りたい場合、そのまま入力しただけでは都会の街並みが出てくるでしょう。
しかし、この画像にある車を消したい場合は、ネガティブプロンプトに入力しなければなりません。
ネガティブプロンプトに入力することで、画像からは該当のものが削除されてできあがります。
ネガティブプロンプトを活用すれば、余計なものを画像から排除してよりイメージに近くなるでしょう。
なるべく多くのキーワードを入力
なるべく多くのキーワードを入れてプロンプトに入力しましょう。
キーワードが少ないと抽象的な画像だったりイメージとかけ離れたりしてしまいます。なるべく細かく設定するように意識しましょう。
例えば「満月の空」を画像にする場合「月の出ている空」で入力すると三日月や半月も出てしまいます。
このように、画像生成する際は細かく設定しないとイメージと違ったものができてしまうでしょう。
英語での入力が難しくても、まずは細かく設定した日本語で文を作ります。それを翻訳機で英語に訳すだけでかまいません。
Stable Diffusionの画像を利用する際の注意点
ここからはStable Diffusionの画像を利用する際の注意点を6つご紹介します。作成してから困らないためにも確認しておきましょう。
著作権問題
Stable Diffusionで作成した画像には著作権がありません。これはシステムを開発したStability AI社だけではなく、作成したユーザーにも該当します。
そのため、Stable Diffusionで作成した画像を他人が許可なく利用しても、著作権の侵害だと訴えることはできません。
画像自体に著作権を持たせることはできませんが、長文のプロンプトに限り著作権が認められるケースもあります。
ただし、AI分野の法律はまだまだ発展途上のため、著作権の主張は難しいでしょう。
商用利用は基本的に可能
著作権フリーのため、Stable Diffusionで作成した画像は基本的に商用利用できます。
Stable Diffusionで作られた画像に「クレジット表記不要」や「販売可能」といった表記があるものは商用利用が可能です。
Stable Diffusionでは以下のようなものが商用利用できます。
- Stable Diffusionの公式配布モデル
- BRA(Beautiful Realisitic Asians)
- majicMIX realistic
- CyberRealistic
CIVITAIやHugging Faceを利用していれば、商用利用の確認が簡単です。
Licenseの部分が「creativeml-openrail-m”」と表示されているものを選びましょう。
商用利用できないものを使用してしまうと、訴訟問題に発展することもあります。どの画像を使用するときも必ずライセンス確認を怠らないようにしてください。
商用利用できないケース
Stable Diffusionにある画像だからといって、すべてが商用利用できるわけではありません。以下の3つの場合は商用利用が認められていないので注意しましょう。
- img2imgで画像生成を行った場合
- 商用利用を認めていないモデルを使用した場合
- 商用利用を認めていないモデルをLoraで学習させた場合
img2imgは、画像から画像を生成する方法です。
キャラクターや芸能人など、元の画像に著作権があるものを使用していれば、商用利用できません。
使用時は元の画像のライセンスを確認しておきましょう。
商用利用を認めていないモデルとは特定の柄をAIに学習させて、その絵柄に似たような画像を生成することです。
この場合、モデルを使用するには製作者が商用利用を認めていなければなりません。
また、モデルや画像を追加学習するLoraは、特定のキャラクターを作りだせてしまいます。
しかし、元の画像に著作権がある場合「No selling images」と表示されるので商用利用はできません。
英語でのプロンプト入力が基本
Stable Diffusionは日本語でプロンプト入力しても画像生成できますが、画像の精度が落ちてしまいます。
イメージに近い画像を作成するためには、英語でプロンプトを入力しましょう。
しかし、英語が苦手で入力できないという方もいると思います。
そのようなときは、翻訳機能を使って、日本語から英語に変換したものをプロンプト入力欄にコピペしましょう。
また、Stable Diffusionの画面はすべて英語表記です。簡単な英語が多いですが、わからないのであればブラウザの拡張機能などを使って日本語表記に変更しましょう。
同じ条件でも出力される画像が毎回異なる
Stable Diffusionは、同じ画像を再度表示することはほぼ不可能に近いです。同じプロンプトを入力していても、似てはいるけど違う画像が作られてしまいます。
全く同じ画像を作るためには、プロンプトだけではなくノイズ値やCFD値など、すべての情報を100%一致させなければなりません。
そのため、同じ画像を出力するにはかなり難易度が高いです。もし気に入った画像があれば、その都度保存しておくことをおすすめします。
保存しておけば画像から読み込ませて少しだけ変更することも可能です。
プロンプト内容と関係ない画像の出力
Stable Diffusionは、プロンプト入力に打ち込んだものが必ずしも生成されるとは限りません。
プロンプトに入力したものとネガティブプロンプトに入力したものが、逆になって反映されることも多々あります。
画像出力の精度が高くないこともあるので、イメージに合わなかったら何度か生成し直しましょう。
生成を繰り返しているうちに、自身のイメージに合ったものが出力されることがあります。
まとめ
Stable Diffusionは環境さえ整えれば、誰でも使用できる画像生成AIです。手軽に利用したいならWebアプリケーション上で使用しましょう。
ただし、著作権や商用利用に関しては注意が必要です。他人のライセンスに違反していないか確認して使用しましょう。
Stable Diffusionに興味がある方は、この記事を参考にオリジナル画像を作ってみてください。
さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは?
生成AIパスポートは、一般社団法人生成AI活用普及協会(GUGA)が提供する、AI初心者のために誕生した、生成AIリスクを予防する資格試験です。AIを活用したコンテンツ生成の具体的な方法や事例に加え、企業のコンプライアンスに関わる個人情報保護、著作権侵害、商用利用可否といった注意点などを学ぶことができます。
⽣成AIの台頭により、AIはエンジニアやデータサイエンティストといった技術職の方々だけではなく誰もがAIを使えるようになりました。今、私たちがインターネットを当たり前に活用していることと同様に、誰もが生成AIを当たり前に活用する未来が訪れるでしょう。
そのような社会では、採用や取引の場面で、生成AIを安全に活用できる企業・人材であることが選ばれる前提条件になり「生成AIレベルの証明」が求められることが予測できます。生成AIパスポート試験に合格すると、合格証書が発行されるため、自身が生成AIを安全に活用するためのリテラシーを有する人材であることを、客観的な評価として可視化することが可能です。
ぜひあなたも生成AIレベルを証明し「生成AI人材」に仲間入りしましょう!