什么是深度伪造?AI 如何伪造照片、视频和声音
深度伪造是由 AI 生成或经 AI 篡改的媒体内容,能够以假乱真地模仿一个真实存在的人。一份冷静、以证据为本、写给家长的指南:什么是深度伪造、它们如何被制作出来,以及它们对您孩子意味着什么。
深度伪造究竟是什么

大多数家长第一次见到这个词,是在某条新闻标题里——一位从未说过那句话的名人、一位从未站在那里的政客、一张被安到根本不属于自己身体上的同班同学的脸。这些标题是真实的,但它们留下了一个空缺:一个家长真正用得上的实用定义。没有它,每一张奇怪的照片看上去要么无害、要么险恶,而无论哪种猜测都帮不到您的孩子。
深度伪造(deepfake,也写作两个词,deep fake)是一段合成媒体——一张图像、一段视频或一段音频——由人工智能创建或篡改,逼真到能让人相信某个真实存在的人做了或说了他们从未做过或说过的事。《大英百科全书》将其定义为「描绘现实中并不存在的事物,或从未发生过的事件」的合成媒体。这个词本身是深度学习(deep learning,支撑它的 AI 技术)和伪造(fake)的合成词——而这个词比它如今所影响的青少年还要年轻。
这个术语出现于 2017 年末,当时一位 Reddit 用户创建了一个名为「r/deepfakes」的子版块,并开始在那里发布换脸视频,从而给整个类别起了名字。在不到十年间,它已从互联网上一个不起眼的角落,演变成校园走廊里的问题。这种速度很重要:您孩子所身处的这项技术,比家长们听过的大多数相关建议都要新。
如今一个标签跨越了三种不同的东西——把一张脸换到另一个人身上、用一小段录音克隆出的声音,以及在它最宽泛的边界处,一张根本不属于任何人的脸。严格来说,深度伪造模仿或篡改的是一个真实存在的人;一张完全虚构的脸是它的近亲——以同样方式使用的合成媒体,出现在虚假资料和骗局之中。把它们联系在一起的,不是它们如何被构建,而是它们达成了什么:一个逼真到足以被人相信的结果。青少年 AI 风险的支柱指南把每一种都视为某个更古老危险的放大版;而本指南只聚焦于深度伪造本身——它是什么、它如何被制作,以及它为何突然无处不在。
深度伪造究竟是如何制作的

您不需要知道如何制作一个,才能保护您的孩子不受其害——本指南也不会讲解如何制作。但一位理解大致原理的家长,要难骗得多,也更善于向半信半疑的青少年解释其中的风险。几乎每一个深度伪造的核心,都是一个简单的想法:给一个 AI 模型看足够多某张脸或某个声音的真实样本,它就学会了制造出以假乱真的新样本。
最广为人知的方法是生成式对抗网络(generative adversarial network,简称 GAN)——它在 2010 年代中期问世时,是这项技术的一个转折点。两个 AI 模型被设置成相互对抗,本质上是一场伪造者与检验者的游戏,伪造者不断改进,直到检验者再也无法揪出它为止。
深度伪造常常使用生成式对抗网络(GAN)来制作,其中两个不同的 AI 深度学习模型在一场猜测游戏中协同运作。其中一个模型尽可能制作出真实图像或视频的最佳复制品,另一个则检测该复制品是否为伪造,如果检测到错误,便报告它与原件之间的差异。
——《大英百科全书》,「Deepfake」
更新的系统使用扩散模型(diffusion models)——如今在图像和视频工具中已很常见——它们从随机噪声开始,一步步地将其细化,最终生成一张与某段描述相符的图像。换脸视频则往往依赖另一种工具——一个被 MIT Sloan 称为「变分自编码器」的网络,它经过训练,能把一张脸压缩成一个紧凑的模式,再在另一个人的头上重建出来。声音的克隆,则是向一个模型输入真实录音,直到它能模仿一个人说话的方式。细节各不相同,原理却始终如一。给机器看足够多真实的东西,它就会制造出伪造的东西。
技术细节的演进,快过任何家长能够追踪的速度——而它也无需被追踪。那些支撑无害的照片滤镜和作业助手的同一类模型,也同样支撑着这些滥用行为,这恰恰是这项技术如此难以隔绝的原因,也是为什么有用的问题不是「我该如何禁止它」,而是「我们该如何核实自己所看到的东西」。
您真正会遇到的三种形式

对一位家长而言,有用的分类不是技术性的。它关乎什么东西会出现——在您孩子的手机上、在您自己的语音信箱里,或是在某个群聊中。三种形式几乎涵盖了一切。
- 换脸视频和照片把一个真实存在的人的脸映射到另一个身体上,或放进一个他们从未身处其中的场景里。这是最初的「深度伪造」,也是大多数针对青少年的虚假私密图像背后的形式。
- 克隆的声音一小段公开的片段就足以逼真地模仿某人的声音,尤其是在一通匆忙的电话里。它支撑着「家庭紧急情况」电话诈骗——也能把话塞进一个青少年的嘴里。
- 完全合成的人一张脸——有时是一整个人设——不属于任何真实存在的人。严格来说它是深度伪造的近亲,因为它并不模仿任何人,但使用方式相同:用来填充虚假资料,让一个陌生人冒充成一个看似可信、却根本不存在的青少年。
这些界限会变得模糊:一份虚假资料可能把一张合成的脸、一段克隆的声音,以及一段作为「证据」提供的换脸片段组合在一起。最后这种形式,正是 AI 重建经典网络钓鱼式假冒身份的方式——支柱指南详细介绍了 AI 构建的假冒身份人设。但说出这种形式的名字,是判断您孩子所收到的那个具体东西的第一步。
它为何突然变得便宜、快捷又简单

在计算机历史的大部分时间里,逼真地伪造一张脸都需要一间工作室、一笔预算和一位专家。两件事改变了这一点。第一是前面已经描述过的技术飞跃——2010 年代中期问世的那些生成式方法。第二是分发渠道:免费的、可下载的工具和服务,持续地降低了非专业人士的门槛。曾经需要一间工作室和一位专家才能做到的事,如今已变得容易得多。
对家长来说最重要的变化不是速度,而是原始素材。深度伪造不再需要以一张私密或难堪的图像作为起点。它只需要一张脸的普通照片——那种早已躺在毕业纪念册、球队名单、朋友的帖子、公开资料或一个旧账号里的照片。FBI 警告,恶意行为者会获取「照片或视频——通常是从个人的社交媒体账号、公开的互联网上截取,或向受害者索取的」——再把它们变成那个人从未做过的事。原始素材,就是任何青少年在网上留下的那种普通数字足迹——这正是为什么一份更小、更私密的足迹是为数不多的切实可行的保护措施之一,而绝不是因为发帖曾经是孩子的过错。
数据印证了它的蔓延。对深度伪造的首次真正普查——Deeptrace 的 2019 年报告——统计到网上有 14,678 段深度伪造视频,几乎是七个月前数字的两倍,且其中 96% 是未经同意的色情内容。到 2023 年,身份验证公司 Sumsub 报告称,它在短短一年内检测到的深度伪造数量增长了十倍。这两项统计衡量的是不同的东西——网上的视频,对比身份核查中被抓到的伪造内容——但它们指向同一个方向:在短短几年间,合成媒体已从一种新奇事物,变成了一个大规模的问题。
青少年实际会在哪里遇到深度伪造

您孩子看到的大多数 AI 篡改的媒体都是无害的——人脸滤镜、搞笑配音、减龄特效——而把所有这些都当成威胁,只会让您失去可信度。当同样的合成媒体技术被用来冒充、羞辱、诈骗或胁迫时,危害才开始,而它通过为数不多、可辨认的几扇门触及青少年。
- 诈骗电话和消息 一段克隆的声音支撑着「家庭紧急情况」电话。FTC 警告,骗子只需要「一小段音频……他可以从网上发布的内容里获取」。电话那头的声音可能是某位亲人的——也可能是您孩子的,被克隆出来用以欺骗您。
- 虚假私密图像 普通照片被变成露骨的伪造内容。这已发生在真实的学校里:2023 年末,新泽西州一所高中的一名学生被指控使用 AI 伪造同班同学的裸体图像——其中一名女孩说,自己是三十多名受害者之一。任何此类照片中的孩子都没有做错任何事;制作它的人才有错。支柱指南完整介绍了 深度伪造裸照和「一键脱衣」应用。
- 性勒索 不再需要一张真实照片的敲诈。FBI 报告称,包括未成年人在内的受害者,往往「在被他人提醒之前,都不知道自己的图像已被复制、篡改并传播」。参见 AI 驱动的性勒索。
- 欺凌 虚假的片段、虚假的「实锤」,以及在一个年级里传来传去的羞辱性图像——同伴间的骚扰因合成的「证据」而显得更加可信。它正好属于网络欺凌的范畴。
- 虚构的人 网络钓鱼式假冒身份资料背后的合成人脸和人设,让一个陌生人看上去像一个可信的青少年。我们关于如何核实网上的人是否真实存在的指南依然适用——只是如今它要费更大的力气了。
规模是真实的,却很容易被误读。2024 年,美国国家失踪与受虐儿童中心记录到涉及生成式 AI 的报告增长了 1,325%,并在 2024 年至 2025 年间识别出 275 名以上的 AI 生成儿童性虐待材料的直接受害者——施害者往往是孩子生活中本就认识的某个人。2025 年的原始总数看上去要大得多,但 NCMEC 提醒,那个体量中的绝大部分来自单一的举报来源,且缺乏足够的细节以采取行动。这些案例读起来让人难受。但它们也是可以挺过去的,而应对之道早已确立。
为何即便您孩子从未成为目标,它依然重要

还有一个更安静的后果,触及每一个青少年,无论是否成为目标。几代人以来,「我亲眼看见的」就是一场争论的终点。深度伪造终结了那个时代。当任何一张图像都可能是伪造的时候,两件事会同时发生:虚假的东西变得更容易被相信,而——更具腐蚀性的是——真实的东西变得更容易被否认。
颇具讽刺意味的是,随着公众对深度伪造所带来的威胁了解得越多,那些为逃避对自己真实言行负责的撒谎者,反而会变得更可信。
——Bobby Chesney 与 Danielle Citron,《Deep Fakes: A Looming Challenge for Privacy, Democracy, and National Security》,《加州法律评论》(2019 年)
法律学者把这称为撒谎者的红利(liar's dividend):一旦人人都知道伪造存在,一段真实的视频就可以被一句「大概是 AI 做的」轻轻打发掉。对一个青少年来说,这可能意味着一张真实的欺凌截图被当成捏造而不予理会,或是一句真诚的道歉被否认。深度伪造的危害不仅是伪造内容本身——更是它给一切真实之物投下的怀疑。您可以在《加州法律评论》上读到完整的论述。
人们的本能反应是学会识别伪造。了解那些经典的破绽——别扭的手、奇怪的牙齿、不匹配的光线、不自然的眨眼——是值得的,但这是一项正在失效的技能。MIT 的媒体实验室直言不讳地指出,「并不存在单一的破绽标志」,而当研究人员在 2025 年用真实世界的伪造内容测试检测工具时,它们的准确率急剧下降——而这项技术却仍在不断进步。识别破绽依然有用,但已不再足够。
于是目标发生了转移——从识别伪造,转向核实来源。这是一个家庭可以养成的习惯,而且它并不取决于一双锐利的眼睛。
| 旧的本能反应 | 依然管用的习惯 | |
|---|---|---|
| 收到某个令人震惊的东西 | 盯着图像看,相信自己的眼睛 | 慢下来,核实它究竟从何而来 |
| 一通惊慌失措的电话或语音消息 | 相信那个声音——它听起来和本人一模一样 | 挂断电话,用您本就知道的号码回拨 |
| 一张您说不清来历的照片 | 一眼就断定它是真是假 | 做一次反向图片搜索,找到原图 |
| 某人身份的「证据」 | 一张自拍或一小段片段就能拍板 | 不要只依赖一张图像;在进行任何进一步私下接触之前,先通过一位可信赖的成年人或平台核实 |
这一切都不要求您的孩子害怕自己的手机,也不要求您成为一名取证分析师。它只要求一条共同的规则——在反应之前先核实——以及一位足够冷静、能以身作则的家长。本指南的其余部分将逐一剖析各种风险:虚假私密图像如何被制作又如何应对、AI 性勒索如何运作、声音克隆骗局如何触及您的家庭,以及 AI 如何重建网络钓鱼式假冒身份。把这套运作机理弄懂一次,上述每一种就不再是谜团,而成了一个有应对方案的问题。
常见问题
深度伪造究竟是什么?
深度伪造是一种合成媒体——一张照片、一段视频或一段音频——人工智能将其生成或篡改,使其逼真到能让人相信某个真实存在的人做了或说了他们从未做过或说过的事。这个名字结合了支撑它的 AI 方法「深度学习」(deep learning)和「伪造」(fake)。它通常表现为三种形式之一:把一张脸换到另一个人身上、用一小段录音克隆出的声音,以及——在这个词较宽泛的边界处——一张完全虚构的脸。前两者模仿的是真实存在的人;完全合成的脸是它的近亲,使用方式相同。它们的共同点,在于足够逼真到让人信以为真。
深度伪造是如何制作出来的?
大多数深度伪造的制作方式,是用某个人真实的照片、视频或音频来训练一个 AI 模型,直到它能生成以假乱真的新版本。最广为人知的方法——生成式对抗网络——让两个模型相互对抗:一个负责制造伪造内容,另一个负责揪出破绽——直到结果通过为止。其他方法使用扩散模型或换脸网络,而声音则是从录音中克隆出来的。家长不需要了解这些技术细节;原理很简单,就是足够多的真实素材教会了机器伪造出更多内容。
光凭肉眼能看出深度伪造吗?
有时能,但这是一项不可靠且正在失效的技能。经典的破绽包括别扭的手、变形的牙齿、不匹配的光线、奇怪的眨眼,以及闪烁的边缘。麻省理工学院的媒体实验室提醒道,「并不存在单一的破绽标志」,而且这项技术进步得如此之快,专家预计连训练有素的眼睛也会越来越难以辨别。更稳妥的习惯,是去核实来源,而不是去判断画面像素——做一次反向图片搜索,或回拨一个您本就知道的号码。对于您孩子只在网上认识的人,应通过一位可信赖的成年人或平台来核实,而不是逼着对方提供更多「证据」。
要制作我孩子的深度伪造,对方需要多少素材?
远比家长们以为的要少。一段声音可以从公开视频里截取的一小段讲话中克隆出来,一张脸可以用普通照片伪造出来——一张校园照、一份球队名单、一位朋友的帖子。完全不需要任何私密或难堪的图像。FBI 指出,施害者通常会从一个人的社交媒体账号或公开的互联网上获取照片。减少公开可见的内容是一项切实可行的措施——但过错始终在于制作并散布伪造内容的那个人,绝不在于孩子。
制作某人的深度伪造是否违法?
有可能违法——不过这通常取决于该伪造内容是否被散布、当事人的年龄,以及您所在的地区,而不仅仅取决于制作行为本身。在美国,《TAKE IT DOWN Act》可以将明知故犯地发布或威胁发布未经同意的私密影像——包括 AI「数字伪造品」——定为联邦罪行,针对成年人和未成年人有不同的规定,且受其约束的平台必须在 48 小时内删除有效删除请求所涵盖的内容以及已知的相同副本。针对未成年人的色情伪造内容也可被作为儿童性虐待材料起诉。各国法律不尽相同,因此这不构成法律建议。
青少年最有可能在哪里遇到深度伪造?
您的孩子最常在无害的场合遇到 AI 篡改的媒体——滤镜、搞笑配音、减龄特效。有害的深度伪造通常通过几扇特定的门进入:克隆声音的「家庭紧急情况」诈骗电话、用普通照片制作的虚假私密图像、利用合成图片的性勒索、用虚假「证据」助长的 AI 协助欺凌,以及建立在虚构人脸之上的网络钓鱼式假冒身份资料。辨认出您面对的是哪一种形式,是决定该怎么做的第一步。