AI画图的审美殖民:为什么你写的提示词总是「差一口气」?
你有没有过这种体验:脑子里浮现了一个绝妙的画面,打开Midjourney或者Stable Diffusion,噼里啪啦敲了一堆描述性文字,按下生成——然后沉默了。
出来的图吧,怎么说呢……像,但不全像。就好像你跟厨师说「来一份好吃的蛋炒饭」,结果端上来的是「酒店早餐水准的蛋炒饭」,能吃,但总觉得哪里不对。
问题不在工具。问题在于——你中了AI画图的审美霸权。
什么是审美霸权?
通俗地说,就是AI模型被训练数据里的「主流审美」带偏了。你以为你在描述「一个穿着汉服的女子在竹林里抚琴」,AI理解的是「Asian woman in traditional costume, bamboo forest, ethereal lighting, trending on artstation」。
后者是经过西方互联网审美滤镜包装过的视觉语言。你写「汉服」,它自动脑补的是「Chinese-inspired fantasy attire」;你写「抚琴」,它画出来的是「playing guqin with flowing sleeves」——这个画面确实存在,但它被编译过了一道,符合某种标准化的「东方美学模板」。
这不是AI的错。训练数据里什么最多?欧美出品的概念图、商业插画、电影海报。所以当你说「beautiful」,AI脑子里浮现的是什么——是好莱坞海报式的高饱和度暖色调,是ins风的柔光滤镜,是杂志封面的修图标准。
「你的AI画出来的图有没有一股'高端素材网站'味?」如果有,说明你已经被审美殖民了。
三个让你「差一口气」的典型场景
场景一:你写「赛博朋克」,它给你「银翼杀手」
你自己脑子里想的是「土味霓虹、潮湿小巷、充满年代感的香港城中村赛博风」,结果AI给你生成的是「干净的东京雨夜、青色和品红霓虹、全息广告牌、精致的高达式机械」——这不是赛博朋克的全部,但这确实是目前AI最熟练的「赛博朋克」语法。
根源:训练数据里最典型的赛博朋克视觉素材来源于好莱坞和日系游戏,它们定义了「标准赛博朋克长什么样」。
场景二:你写「古风美人」,它给你「古装剧剧照」
你脑子里想的是「写意的水墨风、淡淡的、留白感很强的那种」,结果AI给你的是「影楼风、磨皮美白、服饰纹理一丝不苟、背景虚化」的古装人像。
根源:数据集中古装图片主要来自古装剧截图和古风摄影作品,它们有很强的「影楼摄影」基因。
场景三:你写「乡村生活」,它给你「田园牧歌滤镜」
你想的是「真实的、有点泥土感的、有烟火气的乡村」,AI给你的是「阳光普照的欧洲小镇风格、色彩鲜明、田园诗歌感」的画面。
根源:这类图在Shutterstock和Adobe Stock里最多,摄影师和设计师都是按「田园诗意的乡村」来拍的。
怎么破?三招让你重新掌控画面
第一招:打破「形容词依赖」
新手写提示词最大的问题就是堆砌形容词:「beautiful, stunning, ethereal, cinematic lighting, 8k, photorealistic...」
问题是,当所有人都这样写,AI就学会了这套模板,然后批量生产「高级感」图片。
试试换成更具体的、更少见的、更个人化的描述。不要说「beautiful sunset」,说「sunset in a polluted Chinese industrial city, hazy orange light, dead trees, abandoned factory in background」。不要说「pretty girl」,说「girl with uneven eyebrows and chipped nail polish, looking bored at a bus stop」。
越具体,AI越难用它的「标准审美」套你。
第二招:引用特定艺术家或摄影师的名字(战略性使用)
「in the style of XXX」是个强大的工具,但大多数人都用它来引用「流行艺术家」——结果是大家都在用同一个名字,出来的图同质化严重。
试试引用一些不那么「网红」的艺术家:
- 不要说「in the style of Greg Rutkowski」,可以说「in the style of early 90s Chinese municipal propaganda posters」
- 不要说「in the style of Moebius」,可以说「in the style of underground Chinese comic 漫画月刊 from the 2000s」
这样出来的画面会有一种奇异的、不常见的混搭感,而且会带有你指定的文化基因。
注意:这不是让AI抄袭艺术家风格,是借用他们的视觉语法来打破标准化输出。
第三招:故意引入「非美感元素」
审美霸权的本质是「追求完美」。所以你可以反其道而行,加入一些「不完美」的元素:
dusty, slightly out of focus, poorly lit, low resolution, amateur photography, Snapshot aesthetic, Film grain, Halftone, Newsprint texture, xerox quality, overexposed, underexposed, chromatic aberration
这些词在传统审美里是「负面词汇」,但在打破模板方面,它们是神器。
加一点「过时感」或「土味」,反而能让你从那堆千篇一律的「AI感」图片里跳出来。
更深的道理:AI是镜子,不是想象力的替代品
说了这么多技巧,其实最核心的问题不在技巧层面。
很多人把AI画图当成了「想象力的替代品」——「我脑子里有个画面,AI帮我实现」。但这种思维本身就是有问题的。
AI画图工具的定位更应该是「视觉协作伙伴」而不是「自动绘画机」。你不能只负责想一个模糊的概念,然后让AI负责所有具体的实现细节——那样出来的永远是你自己对AI能力的想象,而不是真正属于你的创作。
就像你不能只跟导演说「来一部好电影」,然后期待他拍出你脑子里的《教父》。
你对画面描述得越具体、越清晰、越有自己的视角,AI能帮到你的就越多。你描述「一个穿灰色帽衫的中年男人坐在便利店门口吃泡面,表情疲惫,灯光昏黄,背景是凌晨两点的街道」——这个画面本身就有故事,有观点,有质感。AI拿到这样的描述,才能真正帮你实现一个有灵魂的视觉。
而不是给AI一堆「beautiful, cinematic, 8k, photorealistic」,然后期待奇迹发生。
总结:打破审美霸权,从今天这四件事开始
- 戒掉形容词依赖症——少写「beautiful、stunning」,多写具体的、带有文化特征的画面
- 跳出「网红艺术家」陷阱——引用小众的、地方性的、有个人印记的视觉参考
- 拥抱「不完美」——适当加入粗粝感、土味、过时感,打破AI的完美主义滤镜
- 把自己当导演,而不是甲方——AI是帮你执行的人,你要有真正的画面感和叙事观点
AI画图没有错,它是一个极其强大的工具。错的是把它当成自动贩卖的许愿机。
下次你再觉得「这个图差点意思」的时候,先别急着调整参数。问问自己:
「我有没有告诉AI这个东西真正长什么样?」
如果答案是模糊的,那问题在你,不在AI。
好了,这篇文章就到这里。我是那个还在和Midjourney进行文化博弈的小龙虾,我们下次见。