logo
5

如何快速写出“文生图”的prompt

文生图,顾名思义就是大模型根据你的描述,生成一张无限贴合你描述的图片影像。
这个也就是我们平时说的,讲话非常有“画面感”:我们读电子小说或者收听广播的时候,脑中也会根据对方的文字或语音描述生成专属自己的画面。
我们现在以“反推法”,头脑中先生成画面,再落地成prompt,最后输入大模型,验证模型的生成效果。
首先我们要在大脑中生成一个画面,每个画面的构成有三到要素:人、景、物,每个要素都可以单独生成画面,也可以随意的排列组合形成画面。
以下将结合百度千帆大模型平台的“体验中心”,进行基础的prompt探索。

人·动作定格

首先我们以人物的动作定格,这里面的人物包括拟人化的动物。
从形象的角度出发,人物照片又分为全身照、半身照(不再示例)和细节照
  • 全身照为例,生成的画面着重在人物整体,轻表情细节。人物整体描述(prompt)先下三大定义:数量+性别+年龄,再作化整为零描述着装(外形)的形状颜色:头+上半身+下半身+脚,最后进行大动作描述:跑步、跳舞、站立.....

示例:一个中年男士,黑色短发,面容冷峻,黑色西装,白色衬衫,深褐色领带,黑色皮带和西装裤,深褐色袜子,黑色皮鞋,向我跑过来。

百度翻译:A middle-aged man with short black hair and a cold face ran towards me in a black suit, white shirt, dark brown tie, black belt and suit pants, dark brown socks, and black leather shoes.
  • 细节照为例,生成的画面着重在动态定格,轻相对静态。面部细节描述(prompt)先下两大定义:性别+年龄+外形,再做化整为零描述动作(五官)的动作形态:眉毛+眼睛+鼻子+嘴巴+耳朵,最后是整个表情的定义:开心、失落、愤怒.......

示例:一个10岁左右的小女孩,眉毛皱在一起,眼睛瞪的圆圆的看着我,鼻孔撑大,下嘴唇轻咬上嘴唇,看起来很伤心的样子。

百度翻译:A little girl around 10 years old, her eyebrows furrowed together, her eyes wide and round looking at me, her nostrils widened, her lower lip gently biting her upper lip, looking very sad.

景·以静画动

再次我们以风景的元素作拆解,这里面的风景可以是狭义的景色,也可以是广义的背景。
风景元素有很多,包括青山、绿水、芦苇、水鸟、汽车、马路等等。
我们首先进行脑补构图,脑补先确认是否有明确的分界线,例如
  • 上下的分界:地平线将画面分为天空和大地、海平面将画面分为天空和大海,诸如此类的海岸线、桌线等等不作赘述。
  • 左右的分界:高速公路将地面分为左右两块,装订线将书本分为左右两个页面,诸如此类的顶梁柱、人中线等等同不作赘述。
  • 其他分界线如曲线、圆形等等也可以套用此分类。
然后按照分界线的顺序进行分解描述,如上线分界线,先介绍上面或下面再描述另一区域。每个区域逐个进行元素描述(prompt)。

示例:蔚蓝的大海上,漂泊着一只小白船,天上飞着很多海鸥。

(本示例为生成背景,prompt均轻量化描述)
百度翻译:On the vast blue sea, a small white boat drifts, and many seagulls fly in the sky。

物·光影留帧

最后我们以物体的形象作描述,这里面的物体可以是画面中重点突出的对象,也可以是混入整体背景的参照物
物体的分类有很多,电脑、插座、床、快递箱等等。
对于参照物的描述(prompt),可以一笔带过;对于重点描述(突出C位)的物体,要有直观感受的细节化描述(prompt):形状、大小(通过参照物)、颜色等三方面内容,进而再进行细节延伸的描述。

示例:桌子上有一台笔记本电脑,电脑旁边放着一个透明玻璃杯,这是一个圆柱形的杯子,半杯水还冒着热气,杯身折射了些许阳光。

百度翻译:There is a laptop on the table, and next to it is a transparent glass. This is a cylindrical cup, half of which is still steaming hot, and the cup body reflects some sunlight。
最后,如果我们要生成一张图:蔚蓝大海上的一条船上,一个人向我奔跑过来。该怎么做重点元素的扩写,就交给您去试试啦~
评论
用户头像