UPDATE 2023 03/15

AIで作る画像をイメージに近付けるためのコツ：実際にはどう活用できる？画像生成AI②

Michael W. Davidson - FSU/Science Source /amanaimages

クリエイティブ制作の現場でも注目を集めている画像生成AIサービスについて、使い方から画像の権利の考え方まで、実務にどう使えるかを解説する本連載。第1回で紹介した、主なサービスの基本的な使い方をおさえたうえで、今回の記事では、望むイメージに近付けるためのコツについて、ITジャーナリスト・大谷和利さんに解説していただきます。

プロンプトの基礎と、望むイメージに近付けるコツ
さまざまなAI生成イメージと、そのプロンプト例
現時点での問題点と課題

プロンプトの基礎と、望むイメージに近付けるコツ

基本的な使い方を踏まえたうえで、プロンプトの基礎知識と、具体的にプロンプトを調整しながら希望するイメージに近付けていくためのコツについて解説していきます。ここでは、読者の皆さんも試しやすいように、登録なしで無料で使える、Stable Diffusion OnlineのStable Diffusion Playgroundを使いました。

マニアやプロの世界では、たとえば、人の位置関係や相対的なサイズ、顔の向きなどまで詳細に指定したうえで、生成されたイメージを確認しながら修正を何度も繰り返して、意図通りの構図に近付ける作業が行われたりします。また、コマンドを使って細かな指示を与えることも可能です。

しかし、業務で利用する場合のポイントは、短時間で簡単にそれらしいイメージを生成するような使い方です。記事後半では、より複雑に見える作例も紹介していますが、実際に使われているプロンプトの単純さに驚かれるでしょう。

その意味では、「簡単な文章を使って指示を与える」という感覚でプロンプトを入力していけば、それなりのイメージが得られると考えても差し支えありません。また、同じプロンプトでも、生成するたびに異なるイメージが表示されるので、何回か試して意図に近いものを利用するとよいでしょう。ただし、単語レベルの日本語のプロンプトでも画像生成は可能ですが、文章になると解釈が不安定になるため、英語で直接入力するか、翻訳ツールを利用して日本語を英語に変換してから入力することをお薦めします。

インテリアメーカーのカタログに出てきそうなベッドルームも、「1 frame mockup in a bedroom（ベッドルーム内に額縁のモックアップが1つ）」のように、ごく簡単なプロンプトで生成することが可能。

生成したいイメージをより的確に表現するためには、プロンプトに、具体的で明確な指示を含めます。たとえば、「海岸の夕日」を生成したい場合、プロンプトは「海岸の美しい夕日（a beautiful sunset on the beach）」というようにするわけです。

生成するイメージのスタイルや要素についても、プロンプトに含めることができるので、単なる「レトロな自転車」ではなく「レトロな自転車を描いた、色鮮やかな油絵風のイメージ（Colorful oil painting style image depicting a retro bicycle）」のようにすると表現の幅が広がります。

このような修飾を行なって、小説「老人と海」の主人公のポートレートを以下のように生成してみました。

insights_generative_ai_6_example_The_Old_Man_and_the_Sea.jpg

ヘミングウェイの「老人と海」の主人公のような老人のポートレートを、細かなプロンプトの指定によって生成した例。プロンプトは「”老人と海 “の主人公、サンチャゴの肖像画を撮影。彼は、海との戦いで体を削られ、孤独を感じている老漁師である。彼の顔には、激しい海の波と長い漁師生活の跡が刻まれ、その目は決意と勇気に満ちている」を英訳して使用。

プロンプトを調整して、思ったイメージに近づけていく過程も紹介しておきましょう。前回の記事で紹介した、作画プロセスにAIを組み込んだNetflixの作品『犬と少年』に出てくる、富士山の見える川で少年が釣りをしているような情景を生成してみます。以下、左から右に、プロンプトを改良しながら生成を繰り返した過程をご覧ください。

最初に、まず背景を「夏の河原、深い緑の森。暑い夏、遠く富士山を望み、きらめく川」を英訳したプロンプト（Summer riverbanks, deep green forests. Hot summer, distant Mt. Fuji, A sparkling river）で生成したところ、高い位置の視点から見た風景となりました（左）。

insights_generative_ai_7_example_The_dog_and_The_boy_image.jpg

そこで、目線を低くし、かつ青空が見えるように、プロンプトの途中に「Blue sky」最後に「Low angle」を追加して、「Summer riverbanks, deep green forests. Hot summer, Blue sky with distant Mt. Fuji, A sparkling river. Low angle」としましたが、まだ視点が高めです（左から二番目）。

さらにLow angleを、「水面から見ている（A View from the water surface）」で置き換え、少年が釣りをしている（A boy is fishing）を加えて「Summer riverbanks, deep green forests. Hot summer, Blue sky with distant Mt. Fuji. A boy is fishing, A sparkling river. A View from the water surface」としたところ、今度は富士山や空が見えなくなってしまいました（右から二番目）。

最終的に、「少年が釣りをしながら富士山を見上げている」という表現を取り入れ、「Summer riverbanks, deep green forests. Hot summer, A boy is fishing and looking at Mt. Fuji, A sparkling river. A View from the water surface」としたところ、イメージ通りの画像が生成されました（右）。

最後の構図を、さらに別アプリを使ってスケッチ化することで、情感のあるイラストに仕上げることもできます。

insights_generative_ai_8_example_The_dog_and_The_boy_image_illustration.JPG

スケッチ風のスタイルを指定して再度生成させることもできるが、同じ構図になるとは限らないため、保存したイメージを別アプリ（Artomaton）を使ってスケッチ化している。

ちなみに、Stable Diffusion Onlineでは、過去の画像生成に使われた900万個におよぶプロンプトのデータベースを、Stable Diffusion Promptsから検索することができます。これにより、どのようなプロンプトによってどんなイメージが生成されるかの見当をつけることができ、意図するイメージに近付けるのに参考になります。

さまざまなAI生成イメージと、そのプロンプト例

ここからは、さまざまなAI生成イメージの作例を示し、簡単な説明と生成に使われたプロンプトをキャプションによって紹介していきます。作例は、規約によってプロユーザー以外の生成画像とプロンプトの他者による利用やリミックスが許可されているMidjourney AIのものを用いています。

ご覧になるとわかりますが、プロンプト次第で、社内における企画時のイメージボードやプレゼンテーションなどにも十分活用できそうなレベルのクオリティが得られるといえるでしょう。

なお、種類を問わず現状の画像生成AIは、人の指の表現や、指定した単語を正しい綴りで画像内に盛り込むことが不得意です。おかしな部分があれば、後からレタッチして直すなどの編集作業が必要になります。

遠目には写真かリアルなイラストにしか見えない犬の作例。プロンプトは「puppy collie dog wearing cowboy hat cute bluebonnets Texas」。

ロゴデザインも生成できるが、製品名の綴りなどは正確に再現できないため、イメージソースとしての性格が強い。プロンプトは「text logo: fresh poison」。

このようなイメージは、Webサイトのランディングページや、商品ページをデザインする際のヒントになるかもしれない。「Winter Deals Pack your bags and we’ll take care of your travel, 8k, ultra realistic」（左半分）と「realistic beauty products sales page」（右半分）のプロンプトで生成されたものを合成している。

間取りを細かく指定することは難しいものの、建築のパースや俯瞰イメージなどの描画も可能。ただし、よく見ると自動車の窓などのディテールが崩れていることがわかる。プロンプトは「beauitiful 3bed room house design flool plan」。

現時点での問題点と課題

さて、短時間で上記のような表現を可能とする画像生成AIですが、強力であるだけに、問題点や課題も出てきています。

たとえば、根源的なところでは「一体、クリエイションとは何なのか？」という疑問も湧いてくるでしょう。『犬と少年』の場合も実験作でありながら、一部のアニメファンからは、人間が描いていないことへの反発や、AI生成された絵で良いのかという声もあがりました。実際には、前回の記事で触れたとおり、AI生成の前後に作り手の意図を反映するための手が加わっており、最終的な作品も鑑賞に耐えるものになっているので、作品の質とは異なるところで議論されているわけです。もしも、AIの介在が知らされずに公開されていたら、そうした声は起こらなかったとも考えられます。

振り返れば、昔は理系の試験への電卓の持ち込みが禁止されていたものの、今では大学の一部テストや簿記検定、FP検定などでは計算ツールとしての利用が認められるようになりました。人が問題の本質的な部分を考えるのであれば、面倒な計算は機械に任せてもよいということでしょう。また、ChatGPTのようなチャットボットも、回答の精度はさておき、作文や論文作成時のアイディエーションのための助手のように扱ってもよいのではとの意見もあります。

そのように考えると、画像生成AIも、技能的な部分をAIに任せて人間はよりクリエイティブな部分に集中し、作業効率を上げるためのツールとして受け入れられても不思議ではなく、実際にもそうなりつつあります。これからのクリエイション分野では、たとえばAI生成された人物カットや情景などを素材として利用し、それを使って成果物を仕上げるような、AIをアシスタントのように利用するような流れは普通になっていくことでしょう。

ただし、少なくとも現状では、出力された結果がどんなに精緻なものであっても、本当に思った通りのものが描けるというより、あくまでもプロンプトを解釈して、それらしいイメージが生成されるサービスに過ぎません。

したがって、ゲームの背景や、プレゼンの参考イメージのように実用で使える分野もありますが、たとえば厳密な構成やライティングなどを要する広告やエディトリアルでそのまま利用することは難しいといえます。その一方で、アイディエーションのための資料や、プロに対して写真やグラフィックスを依頼する際の参考資料などといった用途では、積極的に活用できるレベルまで来ていることも確かです。

生成された画像の著作権や、AIが学習している素材の扱いについても課題が残されています。また、一部のストックフォトサービスでは、AI生成されたイメージの登録を停止し、登録済みのものを削除する動きも出てきました。

次回の記事では、これらの画像生成AIをビジネスに活用していくうえで知っておきたい、AI 生成画像の権利の考え方と、活用するうえで留意すべきポイントについて解説します。

文：大谷和利
AD [top]：中村圭佑
編集：高橋沙織（amana）

SOLUTION

amana cgx

amana cgxサイトでは、amanaのCG制作チームが手がけたTV-CMやグラフィック、リアルタイムCGを使ったWEBコンテンツなど、CGを活用する事で、クライアント課題を解決に導いた様々な事例を掲載。
CGクリエイターの細部にまでこだわる表現力と、幅広い手法によるソリューションサービスを紹介しています。

サービス資料ダウンロードはこちら

https://amana.jp/service/detail_27.html