安定した拡散とは何か?
- 安定した拡散とは?
- 安定した拡散のためのステップバイステップガイド
- AI画像ジェネレーターStable Diffusionの長所と短所
- Ki-generatedコンテンツの使用
- 安定した拡散に代わるもの?
- 安定した拡散 vs AIミッドジャーニー
- 結論
- よくあるご質問
安定した拡散とは?
Stable Diffusionは、プロンプト、つまりテキスト形式の指示に基づいてデジタル画像を生成するAI画像ジェネレーターである。このアプリケーションを開発したのは、ロンドンを拠点に2020年から活動を開始したスタートアップ、Stability AIだ。Runway ML、EleutherAI、ドイツの LAION社、LMUミュンヘンの研究グループが、同社のAI画像生成ツールに貢献した。ツールの最初のバージョンは2022年8月にリリースされた。
オープンソースソフトウェアである。つまり、ユーザーは既存のコードを基に、さらに開発を進めることができる。全体は深層学習システム、つまりデータセットの複雑なパターンと関係を認識し「学習」することを可能にする複数の層からなる深層ニューラルネットワークに基づいている。このツールは画像認識と音声認識を組み合わせたものだ:AIはユーザーが入力した音声コマンドを認識し、既存の画像データベースから一致する要素を選択する。
AIは非常に多くの画像で訓練され、それぞれの画像には適切な用語がラベル付けされ、潜在拡散モデル処理が施された。拡散とは、画像がパターン(ドットまたはピクセル)から作成され、対応するプログラムが画像の定義された側面を認識することを意味する。数百万の画像は、LAION Aestheticsデータセットから得られた。AIが「新しい」画像を生成するために使用できるのは、既存のソースのみである。
安定した拡散のためのステップバイステップガイド
Stable Diffusionには様々な方法でアクセスできます。オプション1:Stability AIウェブサイトを開き、「Dream Studio」ツールをクリックする。オプション2:プラットフォーム経由でHugging Face Hubを開く。オプション3:ご自身のエンドデバイスにソフトウェアをダウンロードする。
ステップ1:
安定性AIのウェブサイトを開く。
ステップ2:
ドリームスタジオ」のボタンが見えるまで下にスクロールしてください。それをクリックしてください。
ステップ3:
開いたページで、"Get started "ボタンを探してください("Try me now "または "Try for free "と表示されている場合もあります)。それをクリックしてください。
ステップ4:
入力マスクが開きますので、メールアドレスを入力して登録してください。
ステップ5:
確認メールが届きます。メールに記載されているリンクからドリームスタジオのフロントエンドアプリケーションにアクセスしてください。
ステップ6:
別の入力マスクが表示されます。表示されているテキストフィールドにプロンプト、すなわちテキストコマンドを入力する。
知っておくべき重要なことプロンプトの質は結果の質に直結する。より正確なプロンプトを作成すればするほど、より正確なアウトプットが得られます。誰もが優れたプロンプトエンジニアというわけではないため、Stability AIはプロンプトガイドを公開しています。
Stable Diffusionでは、英語のプロンプトを使用することで、最良の結果を得ることができます。このツールはドイツ語の指示でも動作します。しかし、それは英語のはるかに大きなデータベースを使用します。プロンプトはできるだけ詳細に記述してください。キーワードは、完全に定式化された文章よりも理解しやすくなります。
プロンプトを入力すると、ツールは4つの画像バリアントを提供します。これらのバリアントを使って作業を続けることができます。
AI画像ジェネレーターStable Diffusionの長所と短所
まず第一に、このツールを使って使える画像を生成するのは比較的簡単そうだ。そしてその通りだ。英語がそれなりに堪能で、ツールに何を期待するかを説明できる必要があります。そうすれば、十分な解像度の画像素材を、無料で、扱いやすい時間で生成することができる。
しかし、問題はここからだ:3D映像は使えるし、解像度もいい。卓越した映像素材ではないし、解像度も優れているわけではない。結果を具体的に求めれば求めるほど、素材を生成するのに時間がかかるようになる。ある時点で、所要時間はもはや管理できなくなる。さらに、Stable DiffusionはLAIONのAIに入力された画像素材にしか対応できないという問題もある。したがって、まったく新しいものを作ることはできない。
最大の利点は、ツールの自由な使用と直感的な操作である。
Ki-generatedコンテンツの著作権
著作権や使用権についてはどうですか?まず、ツールが利用できる国によって法律が異なります。標準化された規制はない。そして、AIが生成したコンテンツの権利が誰に帰属するかについては、一般的に議論がある。著作権はAIをプログラムした者に帰属するという正論がある。結局のところ、これらの人々がいなければコンテンツは作成できなかったのだから。しかし、カスタマイズされたプロンプトを入力することで、AIにまさにこのコンテンツを作成させた人々にも著作権が帰属するという主張も同様に論理的である。従って、この問題は決定的な解明には至っていない。また、問題のあるコンテンツが作成された場合、誰が責任を問われるのかも不明である。
このことを考えれば、企業がAIが生成したコンテンツの利用を非常に躊躇するのも十分に理解できる。結局のところ、芸術的で創造的なコンテンツを使用する権利は、著作権を持つ者にしか与えられない。そして、すでに述べたように、これは明確ではない。コンテンツを利用する前に、適用される諸条件を常に十分に確認する必要がある。
安定した拡散に代わるもの?
代替案として試せるAI画像ジェネレーターは確かにいくつかある。Artbreederはその一つで、DeepAIや DALL-Eもその一つです。Craiyon、NightCafe 、Visionistも多かれ少なかれ画像素材の生成に適している。しかし、AI画像ジェネレーターの中では、AI Midjourneyが最もよく知られた代表的な存在でしょう。
安定した拡散 vs AIミッドジャーニー
まず注目すべき点は、Stable Diffusionは無料で使用でき、解像度はAI Midjourneyと比較して十分良い(DALL-Eより高い)。プロンプトの速度と実現性は満足のいくもので、画質も遜色ない。しかし、印象的なのは、Dream Studio経由で入力画面と安定性AIツールの結果に直接アクセスできることだ。AI Midjourneyは現在(2023年夏)もDiscord経由で使用されている。Discordをインストールする必要があり、ユーザーアカウントが必要で、データ転送がしばしば過負荷になる。そして、比較的簡単なタスクであっても、プロンプトが処理されるまで非常に長い時間待つことになり、煩わしい。
2つ目のポイントはプライバシーです。AI Midjourneyでは、生成された画像コンテンツはあなたのものではありません。AI Midjourneyは、ギャラリーの一例として、あなたの生成した素材を表示する権利を有します。つまり、3D画像は全ての関係者がアクセス可能であり、その関係者は3D画像を使って作業を続けることができます。もし、ほんの一握り以上の画像を生成し、商業的に使用したい場合は、定額使用契約が必要です。プライバシーにもお金がかかります。
結論
AIを使った画像生成は、ここ2年で格段に容易になった。技術の進歩は著しい。実際、ツールの開発は社会における意見形成に先行しており、私たちは今日、この画像素材を法的・道徳的にどのように扱うべきかを知らないにすぎない。映像素材はキュレーションされていないため、不快な素材も発生しうる。あなたの用途に合わせたユニークな映像素材を期待することはできない。5本足の馬や似たようなミスが何度も起こるように、完璧なビジュアル素材を期待すべきではない。また、肌の色、国籍、言語などの多様性も期待すべきではありません。
それでも結果に満足できるのであれば、Stable Diffusionや同等のツールを使わない手はありません。AI画像ジェネレータは、再び姿を消すことはないでしょうが、クリエイティブ産業においてその地位を確立し、維持していくことでしょう。したがって、技術的、民族的、ユーザー的、法的観点から、AI画像ジェネレーターをより詳しく見ていく必要があります。