AI新玩法：教你让宫崎骏角色“穿越”看自己动画

未知变量2025-05-092025-05-09

编辑 | 杨文

经典重温与AI创意：当宫崎骏的动画角色走进“现实”

时隔二十八载，宫崎骏的传世经典《幽灵公主》再度登陆国内院线，勾起了无数影迷的珍贵回忆。影片中，当男主角阿席达卡身骑白色驯鹿毅然远行，久石让那史诗般恢弘的配乐随之奏响，多少观众曾为那一幕的悲壮与感动而潸然泪下。

视频来自UP主：光影音乐会

这部动画电影的制作堪称呕心沥血。早在1980年，宫崎骏大师便已着手构思，整个制作周期长达三年，耗用了惊人的14万张纯手绘原稿，吉卜力工作室为此投入了高达25亿日元的巨资。影片于1997年甫一公映，便一举刷新了当时的日本电影票房纪录，时至今日，其票房成绩依然稳居日本影史前十的宝座。

视频来自UP主：光影音乐会

AI 赋能创作：让经典角色“活”起来

借着《幽灵公主》重映的东风，一位名为「造梦迪迪」的网友巧妙地运用人工智能（AI）技术，创作出了一系列令人耳目一新的作品。在他的视频里，那些我们耳熟能详的宫崎骏动画角色，竟然化身为真人模样，坐在地板上，聚精会神地看着电视屏幕里播放的正是他们自己的动画片段。这一创意十足的视频在短短三天内，便在各大社交媒体上引爆关注，收获了超过20万的点赞。


动图均来自博主：造梦迪迪

那么，这样奇妙的视觉效果是如何实现的呢？下面，就让我们一同探秘其制作流程。核心工具其实并不复杂，主要依赖于两款AI应用：GPT-4o 和豆包。

制作流程详解

第一步：运用AI生成“角色观看自己”的图片

这一步的关键，在于精心构思能够准确指导AI生成图像的提示词（Prompt）。

1. 提示词的构思与模板借鉴

如果你对编写提示词感到头疼，别担心，一个行之有效的办法就是套用现成的模板。例如，我们曾在先前一篇文章《梅西、C 罗打卡广州小蛮腰？百万网友被 AI 忽悠得团团转》中，分享过一个用于生成“游戏主角体验复古游戏”场景的提示词模板：

这是一张复古风格的胶片照片，照片中是【角色名字】，在【年份或时代】玩【游戏名称】，游戏平台是【主机名称，例如初代 PlayStation】。照片拍摄于一个昏暗的卧室，她坐在地上，面前是一台90 年代的阴极射线管（CRT）电视。她一只手拿着【主机名称，例如：PlayStation 1】手柄，另一只手回头看着拍摄者，而背景中游戏画面清晰可见。照片是用闪光灯拍摄的，未经任何编辑。

只需对上述模板稍作调整，便能巧妙地将其转化为适用于生成宫崎骏动画角色真人版观看自身作品场景的提示词：

一张复古模拟照片，描绘了【动漫名称】中的真人版【动漫人物】坐在昏暗的卧室木地板上，观看自己电影的场景。电视机是一台 90 年代的 CRT 电视，屏幕上清晰地显示着【动漫名称】中的动画场景。真人版【动漫角色】盘腿坐在电视前，穿着她标志性的【动漫人物的穿着打扮和发型】。她回头看向镜头，轻轻微笑。CRT 电视散发着柔和的光，照亮了她的脸。使用闪光灯拍摄，略微曝光过度，未经编辑，照片中可见镜头尘土和胶片颗粒，营造出一种怀旧的 2000 年代初的氛围，强调动画屏幕与模拟显示照片之间的对比，比例 2:3。

2. 借助大模型优化角色描述

这个模板中包含了对角色服饰与发型的细致描述。如果一时想不出精准的词汇，不妨求助于大语言模型。举个例子，我们可以向“豆包”上传一张《幽灵公主》中小桑的剧照，让它辅助生成人物特征的描述，再加以人工润色，就能得到相当不错的文本素材。

经过一番打磨，我们得到了如下的精炼版提示词，以《幽灵公主》中的珊（San）为例：

一张复古模拟照片，描绘了《幽灵公主》真人版San坐在昏暗的卧室木地板上，观看自己动漫的场景。电视机是一台 90 年代的 CRT 电视，屏幕上清晰显示着《幽灵公主》动漫画面。真人版San盘腿坐在电视前，穿着她标志性的无袖浅色上衣且披着白色毛皮，利落短发，头戴一条深色头带，面部绘有红色条纹装饰，佩戴着一对醒目大圆形白色耳环，脖子戴着一串兽牙项链，身边趴卧着一匹白色的狼。她回头看向镜头，轻轻微笑。CRT 电视散发着柔和的光，照亮了她的脸。使用闪光灯拍摄，略微曝光过度，未经编辑，照片中可见镜头尘土和胶片颗粒，营造出一种怀旧的 2000 年代初的氛围，强调动画屏幕与模拟显示照片之间的对比，比例 2:3。

3. 不同AI工具的生成效果与微调

将这段提示词输入 GPT-4o，我们便能获得一张《幽灵公主》真人版小桑席地而坐、回眸凝望的图片。

从效果来看，角色的服饰和发型还原度颇高，但真人版小桑的面容似乎带有些许混血特征，而且她身旁那只，与其说是狼，倒更像是一只温顺的狗狗。

随后，我们采用相同的思路，让“豆包”尝试生成《魔女宅急便》中琪琪的真人形象。

“豆包”生成的琪琪显得相当可爱，尤其是她头上那个标志性的红色大蝴蝶结发箍，十分引人注目。

经过多次实验对比，我们发现：

GPT-4o 生成的图片在复古感和整体质感上表现更优，但其塑造的真人角色往往偏向欧美面孔。
豆包生成的人物更贴近亚洲少女的样貌，然而，在电视屏幕内容的呈现上，它有时会“串戏”——比如，我们明明指定屏幕播放《千与千寻》的片段，结果却可能出现《龙猫》的画面。

4. 精细化调整电视屏幕内容

方法一：使用“豆包”的「区域重绘」功能

针对屏幕内容不准确的问题，“豆包”提供了一个非常实用的功能——「区域重绘」。我们只需选中图片中电视屏幕的区域进行涂抹，然后输入新的提示词，例如：“将电视中播放的画面替换成动漫《千与千寻》中的千寻角色剧照”。

“豆包”便会接收指令，精准地对指定区域进行重绘，替换后的画面效果自然，几乎看不出破绽。
方法二：使用 Photopea 进行手动抠图替换

当然，如果希望对电视屏幕内容有更精细的控制，或者“豆包”生成的画面随机性较大，不符合特定需求时，我们还可以借助专业的图像编辑工具 Photopea 来实现更精准的“换屏”操作。Photopea 是一款功能强大的在线图片编辑器，其网址是：https://www.photopea.com/

操作步骤如下：
1. 上传图片至 Photopea，系统会自动跳转到操作界面。
2. 在左侧工具栏中找到并选择「多边形套索」工具。
3. 使用套索工具仔细勾勒出电视屏幕的轮廓，完成选区后，点击顶部菜单栏的「编辑」-「清除」，将屏幕内容删除。
4. 点击「文件」-「导出为」-「PNG 格式」，将抠好图的图片下载并保存。PNG格式能够保留透明区域，这对于后续合成至关重要。