初心者・見る専に捧ぐ助言
使用したAI
ChatGPT
初心者・見る専に捧ぐ金言と言うほど
でもありませんが、画像生成を初めたい方に
AIに指示を伝える『プロンプト』の
書き方についてのアドバイスです。
Stable Diffusion系
(Forge / A1111 / ComfyUI / Z-Image-Turbo)などAIに指示するプロンプトには主に
次の2種類があります。
⸻
① タグ型プロンプト(呪文型)
例:
masterpiece, best quality, 1girl, solo,
long black hair, blue eyes,
school uniform,
cinematic lighting,
looking at viewer,
upper body,
night city,
bokeh
これは「単語タグ」を並べてAIへ指示している形式。
⸻
タグ型の特徴
長所
* 細かく制御できる
* LoRAと相性が良い
* A1111 / Forge文化の中心
* 重み付けがしやすい
例:
(beautiful face:1.3)
や
((masterpiece))
⸻
短所
* 初心者には意味不明
* 文脈理解が弱い
* 「自然な絵」より「記号的な絵」になりやすい
* 最近のモデルでは逆に不利な場合もある
⸻
タグ型は「注文書」
AIに対して:
* 髪型
* 服
* 光
* 構図
* カメラ
* 表情
を箇条書きしてるイメージ。
⸻
② 自然言語プロンプト(文章型)
最近のFlux系、Z-Image-Turbo、
SD3系などで強い。
最近ではGPTimages2.0やGeminiなど。
例:
A beautiful young Japanese woman is standing in the rain at night, looking softly toward the viewer while neon city lights reflect on the wet street around her.
これは「文章」でAIに状況説明している。
⸻
自然言語の特徴
長所
* 人間が理解しやすい
* 空気感・物語性が強い
* 構図が自然
* 最近の高性能モデルと相性が良い
* ZIT、Gemini、GPTimages2.0で特に強い
⸻
短所
* 細かい制御が難しい
* LoRAトリガーが埋もれることがある
* 曖昧に書くと崩れる
* 長すぎると主題がボケる
⸻
自然言語は「映画監督の指示」
例えば:
雨の夜。
少女はネオン街に立ち尽くしている。
濡れた髪。
少し寂しそうな目。
道路には光が反射している。
みたいに「情景」を説明する。
⸻
大きな違い
タグ型
1girl, rain, night, city, wet hair
→ 「単語を認識」
⸻
自然言語
A lonely girl is standing in a rainy city at night with wet hair and neon reflections on the street.
→ 「意味を理解」
⸻
かなり簡単に言うと:
タグ型モデル
Danbooru文化。
1girl
blue eyes
school uniform
みたいな「タグ学習」。
アニメ系に強い。
⸻
自然言語モデル
LLM寄り。
文章全体の意味を見る。
だから:
* 感情
* 空気感
* ストーリー
* カメラ演出
が上手い。
⸻
Z-Image-Turbo、GPTimages2.0、Gemini
が自然言語向きな理由
ZITなどは:
* Flux系思想
* 文脈理解型
* 映画的構図
* 空気感重視
だから。。。
1girl, masterpiece, best quality
より、
A cinematic portrait of a young woman standing in soft rain at night...
のほうが強い。
⸻
でも実は「混ぜる」のが最強
最近の上級者はこれ。
⸻
「タグ + 自然言語」混合
最初
品質タグ
masterpiece, best quality
⸻
中央
自然言語で情景
A beautiful Japanese woman standing in neon rain...
⸻
最後に
カメラ・光タグや構図
cinematic lighting,
85mm lens,
bokeh,
depth of field
⸻
自然言語を書くコツ
5W1Hで考える
Who
誰が
A beautiful young Japanese woman
⸻
Where
どこで
in a rainy neon city
⸻
What
何をしてる
looking quietly toward the viewer
⸻
Mood
どんな雰囲気
melancholic and cinematic atmosphere
⸻
Camera
どう撮る
shot with an 85mm lens
⸻
ダメな自然言語例
beautiful girl cool awesome amazing masterpiece
これは意味が薄い。
⸻
良い自然言語例
A young woman stands alone in a quiet rainy street while neon reflections shimmer beneath her feet.
情景がある。
⸻
タグ型が強いケース
* アニメ
* キャラ固定
* LoRA大量
* exact pose
* exact costume
* ControlNet
⸻
自然言語が強いケース
* フォトリアル
* 映画風
* 雰囲気重視
* ZIT
* Flux
* SD3
* 構図演出
* GPTimages2.0
* Gemini
⸻
おすすめ練習法
最初は:
① まず情景を日本語で書く
例:
雨の夜にネオン街を歩く美女
⸻
② 英語自然文へ
A beautiful woman walking through a neon-lit street on a rainy night.
⸻
③ 最後にタグ追加
cinematic lighting, photorealistic, 85mm lens
いろいろと書いてしまいましたが、
使うAIによって書き方が変化する
だけ覚えたらいいかと思います。😁
最近はGPTimages2.0やGeminiの画像が
支流になりつつあるので、自然言語プロンプト
がいいかなぁ〜と個人的には思います。w
日本語を使えるAIが増えましたが、やはり
英語で指示する方が細かい指示が強く反映
されるイメージです。
でもありませんが、画像生成を初めたい方に
AIに指示を伝える『プロンプト』の
書き方についてのアドバイスです。
Stable Diffusion系
(Forge / A1111 / ComfyUI / Z-Image-Turbo)などAIに指示するプロンプトには主に
次の2種類があります。
⸻
① タグ型プロンプト(呪文型)
例:
masterpiece, best quality, 1girl, solo,
long black hair, blue eyes,
school uniform,
cinematic lighting,
looking at viewer,
upper body,
night city,
bokeh
これは「単語タグ」を並べてAIへ指示している形式。
⸻
タグ型の特徴
長所
* 細かく制御できる
* LoRAと相性が良い
* A1111 / Forge文化の中心
* 重み付けがしやすい
例:
(beautiful face:1.3)
や
((masterpiece))
⸻
短所
* 初心者には意味不明
* 文脈理解が弱い
* 「自然な絵」より「記号的な絵」になりやすい
* 最近のモデルでは逆に不利な場合もある
⸻
タグ型は「注文書」
AIに対して:
* 髪型
* 服
* 光
* 構図
* カメラ
* 表情
を箇条書きしてるイメージ。
⸻
② 自然言語プロンプト(文章型)
最近のFlux系、Z-Image-Turbo、
SD3系などで強い。
最近ではGPTimages2.0やGeminiなど。
例:
A beautiful young Japanese woman is standing in the rain at night, looking softly toward the viewer while neon city lights reflect on the wet street around her.
これは「文章」でAIに状況説明している。
⸻
自然言語の特徴
長所
* 人間が理解しやすい
* 空気感・物語性が強い
* 構図が自然
* 最近の高性能モデルと相性が良い
* ZIT、Gemini、GPTimages2.0で特に強い
⸻
短所
* 細かい制御が難しい
* LoRAトリガーが埋もれることがある
* 曖昧に書くと崩れる
* 長すぎると主題がボケる
⸻
自然言語は「映画監督の指示」
例えば:
雨の夜。
少女はネオン街に立ち尽くしている。
濡れた髪。
少し寂しそうな目。
道路には光が反射している。
みたいに「情景」を説明する。
⸻
大きな違い
タグ型
1girl, rain, night, city, wet hair
→ 「単語を認識」
⸻
自然言語
A lonely girl is standing in a rainy city at night with wet hair and neon reflections on the street.
→ 「意味を理解」
⸻
かなり簡単に言うと:
タグ型モデル
Danbooru文化。
1girl
blue eyes
school uniform
みたいな「タグ学習」。
アニメ系に強い。
⸻
自然言語モデル
LLM寄り。
文章全体の意味を見る。
だから:
* 感情
* 空気感
* ストーリー
* カメラ演出
が上手い。
⸻
Z-Image-Turbo、GPTimages2.0、Gemini
が自然言語向きな理由
ZITなどは:
* Flux系思想
* 文脈理解型
* 映画的構図
* 空気感重視
だから。。。
1girl, masterpiece, best quality
より、
A cinematic portrait of a young woman standing in soft rain at night...
のほうが強い。
⸻
でも実は「混ぜる」のが最強
最近の上級者はこれ。
⸻
「タグ + 自然言語」混合
最初
品質タグ
masterpiece, best quality
⸻
中央
自然言語で情景
A beautiful Japanese woman standing in neon rain...
⸻
最後に
カメラ・光タグや構図
cinematic lighting,
85mm lens,
bokeh,
depth of field
⸻
自然言語を書くコツ
5W1Hで考える
Who
誰が
A beautiful young Japanese woman
⸻
Where
どこで
in a rainy neon city
⸻
What
何をしてる
looking quietly toward the viewer
⸻
Mood
どんな雰囲気
melancholic and cinematic atmosphere
⸻
Camera
どう撮る
shot with an 85mm lens
⸻
ダメな自然言語例
beautiful girl cool awesome amazing masterpiece
これは意味が薄い。
⸻
良い自然言語例
A young woman stands alone in a quiet rainy street while neon reflections shimmer beneath her feet.
情景がある。
⸻
タグ型が強いケース
* アニメ
* キャラ固定
* LoRA大量
* exact pose
* exact costume
* ControlNet
⸻
自然言語が強いケース
* フォトリアル
* 映画風
* 雰囲気重視
* ZIT
* Flux
* SD3
* 構図演出
* GPTimages2.0
* Gemini
⸻
おすすめ練習法
最初は:
① まず情景を日本語で書く
例:
雨の夜にネオン街を歩く美女
⸻
② 英語自然文へ
A beautiful woman walking through a neon-lit street on a rainy night.
⸻
③ 最後にタグ追加
cinematic lighting, photorealistic, 85mm lens
いろいろと書いてしまいましたが、
使うAIによって書き方が変化する
だけ覚えたらいいかと思います。😁
最近はGPTimages2.0やGeminiの画像が
支流になりつつあるので、自然言語プロンプト
がいいかなぁ〜と個人的には思います。w
日本語を使えるAIが増えましたが、やはり
英語で指示する方が細かい指示が強く反映
されるイメージです。
呪文
入力なし