VIP部落

抖音上爆吹的克隆语音之王IndexTTS2，AI语音克隆神器

郭然 — Tue, 14 Oct 2025 23:13:09 +0000

最近刷抖音，是不是发现有很多熟悉的香港配音的唐僧，说着很社会的话？或者在B站发现评论区突然多了一堆“AI语音整活”视频，点进去一听，好家伙，赵本山讲英语、郭德纲唱Rap、甚至特朗普用中文背《出师表》？！
我听了，超级像，如果不提示，真还以为是本人发的声
因为它们都用了抖音上爆吹的B站官方偷偷上线的AI语音克隆神器，最重要的是完全免费、不用代码、一键搞定，国外那帮付费软件直接被吊起来打！
这个项目其实是B站官方开源的TTS引擎升级版，趣哥搞到了一键整合包，解压就能用，支持中文、英文、甚至方言，关键还是本地运行，不上传音频，隐私安全拉满！

解压三个压缩包，双击文件夹里的 IndexTTS2.exe

注意啊，解压出来的文件路径上，不能有中文，要不然启动不了。

会弹出一个黑色命令窗口，别关！

等它加载完，浏览器会自动打开本地网页，界面长这样

加载完成后，如图所示，上传音色
点击「上传新音色」，随便录一段10秒以上的干声（为了出来的效果更精准，别带背景音乐），支持mp3/wav/flac。

输入文本
在文本框里输入你想让TA说的话，支持情绪标签比如【开心】【生气】【严肃】，甚至能加停顿符号「……」

生成下载
点击「添加到任务队列」，等30秒左右，就能预览效果，支持0.5~2倍速调节，满意直接下载，音质堪比原声！

点击下载

Wan2GP V11版 – 低配显卡玩转AI视频生成，更新Wan2.2图生视频模型支持50系显卡一键整合包下载

郭然 — Mon, 04 Aug 2025 15:34:43 +0000

Wan2GP 是一个由DeepBeepMeep开发的开源视频生成模型项目，旨在为GPU资源有限的用户提供高质量的视频生成体验。它囊括了多种视频生成模型，包括阿里的Wan及其衍生模型、腾讯的Hunyuan Video和LTV Video等主流视频生成模型，通过简洁易用的网页界面，用户无需深入了解复杂的模型细节，即可轻松生成想要的视频内容。
Wan2GP 的问世，让广大低端显卡用户也能玩转高大上的视频生成项目了。就以HunyuanVideo 13B图生视频模型来说，原版需要至少80G显存才能跑得动的模型，现在 Wan2GP 把这个标准降低到10GB，而且生成的视频质量几乎没用任何的损失和降低。但缺点也是有的，生成时间会拉长，同时需要更大的运行内存。

今天分享的 Wan2GP V11版，基于官方7月30日的V7.5打包，更新Wan2.2图生视频模型，支持首尾帧生成视频。在尽量保证功能完整的情况下，进一步对WebUI做了更多的汉化翻译，目前汉化率97%。新增“多开”功能，支持一次开启多个WebUI。
注. 从V6版开始，提供两种版本，免费版和付费版。区别为：免费版不再提供中文翻译，原汁原味官方原版，不包含模型；付费版为中文翻译版，后期会逐步完全汉化，包含一些常用的模型，后期会逐步加入更多模型，以及一些优化功能加入。

主要更新内容如下：

7月30日更新

环境部分：

更新torch到2.7.1；SageAttention 更新至2.2，与 2.1 相比，这提高了在 RTX 40xx（sm89）和 50xx（sm120）GPU 上的速度

软件部分：

现在是 Wan 2.2 的图像转视频模型，如果你想要设置起始帧和结束帧，这是一个非常好的模型。已经提供了两个 Wan 2.2 模型。
对 Wan 2.2 进行了优化，以管理内存使用，使得 LoRA 和模块只会在内存中加载一次，这可以节省多达 5GB 的内存。
去掉了 Vace Cocktail Light，它会导致模糊的视野。
Flux 添加多张图像编辑功能

项目特点
低显存要求‌：Wan2GP对显存的需求较低，某些模型甚至仅需6GB 显存即可运行，这使得更多用户能够体验到视频生成的乐趣。 ‌
支持老旧GPU‌：项目不仅支持最新的GPU，还兼容RTX 10XX、20XX等老旧型号，降低了硬件门槛。 ‌
高效快速‌：在最新GPU上，Wan2GP能够非常快速地生成视频，大大缩短了等待时间。 ‌
易用性‌：提供全网页界面，用户无需安装额外软件即可使用，同时集成了模型自动下载、视频生成工具（如遮罩编辑器、提示增强器）、时空生成等功能，简化了操作流程。 ‌
Loras支持‌：允许用户自定义每个模型，以满足个性化需求。 ‌
排队系统‌：用户可以列出想要生成的视频清单，稍后回来查看结果，提高了效率。

应用领域
创意内容制作‌：设计师、动画师等创意工作者可以利用Wan2GP快速生成概念视频、动画短片或广告素材。 ‌
娱乐与社交‌：用户可以在社交媒体上分享通过Wan2GP生成的有趣视频，增加互动性和趣味性。 ‌
教育与培训‌：教师可以制作生动的教学视频，帮助学生更好地理解和掌握知识；企业也可以利用该技术进行产品演示或员工培训。 ‌
影视后期制作‌：影视行业从业者可以利用Wan2GP进行特效制作、场景渲染等工作，提高制作效率和质量。

使用教程：（建议N卡，显存8G起，内存32G起。支持50系显卡，基于CUDA12.8）

使用和之前发布的Wan2.1以及类似的视频生成软件类似，根据需要，点击最上方的模型列表，切换需要使用的模型，会根据切换的模型自动下载，模型较大，耐心等待下载完成。
注. 模型是通用的，更新新版后，只需要将之前旧版的模型目录（目录下的ckpts）移动到新软件目录下即可，无需重复下载

支持文生视频和图生视频。支持低端显卡运行阿里Wan、腾讯HunyuanVideo以及LTV Video等高精度模型。支持多种Lora类型扩展，请根据页面使用说明将lora模型放入对应的目录手动加载。
启动WebUI后，页面有“指南”选项卡，作者很详细的介绍了不同的模型参数和特点及应用领域、Lora模型的加载及使用以及VACE ControlNet的详细使用说明。UI我也做了大部分汉化，方便大家使用。
基于原版使用文档，我做了详细的翻译，建议大家仔细阅读，作为操作参考。

测试了30-50系显卡，均能正常运行。10-20没做测试，有些模型估计运行不了

Wan2.2 提示词填写技巧，可以参考官方文档：https://mp.weixin.qq.com/s/ucHuyomTZ6X2q_tL3wHQQg

下载地址：
免费版（英文，未汉化，没有模型，模型需要自己下载）：https://pan.xunlei.com/s/VOWUUnFWpPtXEbD4UJu-Gf4-A1?pwd=j972
付费版（百度网盘，汉化，有模型）：

钻石免费永久钻石免费

已有0人支付

Wan2GP V6版 – 低配显卡玩转AI视频生成，新增数字人对话模型 Multitalk 支持50系显卡一键整合包下载

郭然 — Sat, 19 Jul 2025 12:22:46 +0000

Wan2GP 是一个由DeepBeepMeep开发的开源视频生成模型项目，旨在为GPU资源有限的用户提供高质量的视频生成体验。它支持多种视频生成模型，包括阿里的Wan及其衍生模型、腾讯的Hunyuan Video和LTV Video等，通过简洁易用的网页界面，用户无需深入了解复杂的模型细节，即可轻松生成想要的视频内容。
Wan2GP 的问世，让广大低端显卡用户也能玩转高大上的视频生成项目了。就以HunyuanVideo 13B图生视频模型来说，原版需要至少80G显存才能跑得动，现在 Wan2GP 把这个标准降低到10GB，而且生成的效果几乎没用任何的降低。但缺点也是有的，生成时间会拉长，同时需要更大的运行内存。

今天分享的 Wan2GP V6版，基于官方7月8日的V6.6打包，修复了原版模型下载报错问题。在尽量保证功能完整的情况下，进一步对WebUI做了更多的汉化翻译，目前汉化率97%。新增“多开”功能，支持一次开启多个WebUI。
注. 从V6版开始，提供两种版本，免费版和付费版两种。区别为：免费版不再提供中文翻译，原汁原味官方原版；付费版为中文翻译版，后期会逐步完全汉化，以及一些优化功能加入。

主要更新内容如下：

7月8日更新
环境部分：
更新torch到2.7.1；SageAttention 更新至2.2，与 2.1 相比，这提高了在 RTX 40xx（sm89）和 50xx（sm120）GPU 上的速度

软件部分：
WanGP v6.6，WanGP 为您提供 Vace Multitalk 双声融合无限版；
Vace 我们挚爱的超级 Control Net 已与 Multitalk 新晋王者相结合，Multitalk 能够驱动最多两个人说话（Dual Voices）。它由 Fusionix 模型加速，并得益于滑动窗口支持和自适应投影引导（虽然速度较慢，但应减少长视频中的红色效果），您的两个人将能够长时间交谈（在视频生成领域，这是无限的时间）；
当然，您还将获得 Multitalk 原味版，以及 720p Multitalk 作为额外福利；
附赠了一个音频分离器，当您使用 Multitalk 与两个人交谈时，它能帮您节省时间来分离每个声音；
滑动窗口支持已添加到所有 Wan 模型中，所以想象一下，随着 text2video 在 6.5 版本中最近升级为 video2video，你现在可以无视 VRAM 的限制来放大非常长的视频。老旧的 image2video 模型现在可以重用最后一帧图像来生成新视频（正如许多人所请求的）；
添加了将原始控制视频的音频进行转换的功能（杂项高级选项卡），以及一个保留生成视频中帧率的选项，因此从现在起，你将能够放大/修复你的旧视频并保持音频在其原始节奏。请注意，持续时间将限制在 1000 帧，因为我还需要为无限大小的视频添加流式传输支持；从非 WanGP 生成的视频中提取视频信息，甚至更好，你还可以对非 WanGP 视频应用后处理（上采样/MMAudio）；
强制生成的视频帧率符合你的喜好，使用 Control Video 时与 Vace 配合效果非常好；
能够串联 Finetune 模型的 URL（例如将模型的 URL 放入主 Finetune 中，并在其他 Finetune 模型中引用此 Finetune 以节省时间）。

测试下来，” FusioniX “模型应该是目前消费级显卡能产出视频质量最高的模型，一段480P高质量视频生成，8G显存仅需3分24秒。不仅速度快，质量还高，甚至媲美某项商业模型。低端显卡视频生成质量再上一个新台阶。

这里隆重介绍下此次更新的MultiTalk：

MultiTalk，这是一款数字人领域的最新前沿框架。
MultiTalk专注于音频驱动的多人对话、歌唱、互动控制以及卡通风格视频生成，提供更高效和精准的数字人视频创作。
MultiTalk能够基于多声道音频输入、参考图像和提示，生成包含互动的视频，且人物唇部动作与音频保持一致。
其功能亮点如下：
支持单人与多人生成：无论是单一角色还是复杂多人场景，MultiTalk 均能精准生成。
互动角色控制：通过提示直接操控虚拟人物的动作与表情。
泛化性能卓越：支持卡通角色生成及歌唱视频制作，适用范围广泛。
分辨率与长视频生成灵活：支持 480p 和 720p 分辨率输出，适应不同纵横比；最长可生成 15 秒视频。

项目特点 ‌
低显存要求‌：Wan2GP对显存的需求较低，某些模型甚至仅需6GB 显存即可运行，这使得更多用户能够体验到视频生成的乐趣。 ‌
支持老旧GPU‌：项目不仅支持最新的GPU，还兼容RTX 10XX、20XX等老旧型号，降低了硬件门槛。 ‌
高效快速‌：在最新GPU上，Wan2GP能够非常快速地生成视频，大大缩短了等待时间。 ‌
易用性‌：提供全网页界面，用户无需安装额外软件即可使用，同时集成了模型自动下载、视频生成工具（如遮罩编辑器、提示增强器）、时空生成等功能，简化了操作流程。 ‌
Loras支持‌：允许用户自定义每个模型，以满足个性化需求。 ‌
排队系统‌：用户可以列出想要生成的视频清单，稍后回来查看结果，提高了效率。

应用领域
创意内容制作‌：设计师、动画师等创意工作者可以利用Wan2GP快速生成概念视频、动画短片或广告素材。 ‌
娱乐与社交‌：用户可以在社交媒体上分享通过Wan2GP生成的有趣视频，增加互动性和趣味性。 ‌
教育与培训‌：教师可以制作生动的教学视频，帮助学生更好地理解和掌握知识；企业也可以利用该技术进行产品演示或员工培训。 ‌
影视后期制作‌：影视行业从业者可以利用Wan2GP进行特效制作、场景渲染等工作，提高制作效率和质量。

使用教程：（建议N卡，显存8G起，内存32G起。支持50系显卡，基于CUDA12.8）

使用和之前发布的Wan2.1以及类似的视频生成软件类似，根据需要，点击最上方的模型列表，切换需要使用的模型，会根据切换的模型自动下载，模型较大，耐心等待下载完成。

支持文生视频和图生视频。支持低端显卡运行阿里Wan、腾讯HunyuanVideo以及LTV Video等高精度模型。支持多种Lora类型扩展，请根据页面使用说明将lora模型放入对应的目录手动加载。
启动WebUI后，页面有“指南”选项卡，作者很详细的介绍了不同的模型参数和特点及应用领域、Lora模型的加载及使用以及VACE ControlNet的详细使用说明。UI我也做了大部分汉化，方便大家使用。
基于原版使用文档，我做了详细的翻译，建议大家仔细阅读，作为操作参考。

测试了30-50系显卡，均能正常运行。10-20没做测试，有些模型估计运行不了

暂无优惠
当前隐藏内容需要支付
69积分
已有0人支付

FaceFusion4.0最新版(N卡专用支持50系列)批量视频换脸整合包下载地址

郭然 — Sat, 28 Jun 2025 00:11:04 +0000

FaceFusion换脸工具4.0最新版本换脸工具整合包(2025年6月23日更新)，无需配置任何环境，解压即用，本地版本，无需联网也可使用，一次下载，永久免费使用
FaceFusion软件功能:图片换脸，视频换脸，人脸编辑，数字人对口型，视频批量换脸，老旧照片视频修复上色，此版本支持DFM模型, 侧脸效果大幅度优化提高
无需配置任何环境，解压即用，本地版本，无需联网也可使用，一次下载，永久免费使用
电脑要求：
1、软件解压就能用，任何电脑都可用，推荐英伟达显卡4G以上下载，没显卡也能用，也支持cpu版本
2、系统要求：win10、win11
容易出错的地方
软件路径不要包含中文
图片和视频文件名称和路径也不要包含中文
计算机系统用户名不要是中文
FaceFusion 4.0 最新版本如图：

● 整合版更新
○ 彻底解除NSFW限制
○ 本地离线版本，无需联网也可使用
○ 中文汉化
○ 更新最新版依赖组件
○ 优化隔离环境
○ 修改缓存目录为当前文件夹temp，避免替换长视频C盘占满
FaceFusion4.0 最新版本更新日志
新增hyperswap_1a_256、hyperswap_1b_256、hyperswap_1c_256三个256分辨率深度换脸模型
加入ultra_sharp_2_x4 帧增强模型
提升高分辨率处理性能
使用 68 点人脸关键点创建面部区域遮罩
通过–lip-syncer-weight参数控制嘴唇动作
增强损坏视频的读写可靠性
为不支持的音视频编码器引入回退逻辑
修复 UDP 网络摄像头模式
修复 libopus 编码器的比特率范围违规问题
FaceFusion3.9.0 版本更新日志
开启face_enhancer人脸增强和开启region区域以及保留嘴巴选项时, 保留嘴巴内部(主要是牙齿)不被增强, 避免增强后牙齿更丑
优化视频大文件视频报错问题
将可用的音频编码器和视频编码器选项进行精简。
为多个作业命令引入 –halt-on-error 参数（遇到错误时停止）。
改善 Gradio 对大于 512 MB 且无法播放的视频的预览效果。
让人脸选择器对预览变化的响应更灵敏。
添加 –output-audio-quality（输出音频质量）和 –output-audio-volume（输出音频音量）参数。
将默认的 –output-audio-encoder（输出音频编码器）从 AAC 改为 FLAC。
用 xseg_3 模型扩展人脸遮挡功能。
检测理想的默认执行提供者。
移除 –skip-audio 参数。
规范 –reference-face-distance 参数的取值范围。
消除 Gradio 中损坏文件格式的验证。
恢复 CoreML 对帧着色器的支持。
防止离线时深度换脸器和人脸增强器出错。
为 OpenVINO 增加多 GPU 支持。
修复深度换脸器的模型大小检测问题。
修复推理池共享问题，避免更换模型时崩溃。
修复修改 –output-video-fps（输出视频帧率）时的音频恢复问题。
修复提取和合并过程中的进度条显示问题。
修复 Windows 系统下对 WebP 和 Webm 格式的支持问题。
FaceFusion3.8.0 版本更新日志
增加对 DeepFaceLive 模型的支持
引入 HifiFace 256换脸模型(效果也比较好)
开启face_enhancer人脸增强和开启region区域以及保留嘴巴选项时, 保留嘴巴内部(主要是牙齿)不被增强, 避免增强后牙齿更丑
修复部分电脑上传视频文件太大出错的问题
引入用于顺序处理的批量运行命令。
引入可调节的面部遮挡器和面部解析器模型。
发布五个热门的帧增强器模型。
为视频提取和合并添加进度条。
添加视频编码器 h264_qsv 和 hevc_qsv。
提供一个选择网络摄像头设备的选项。
更新至最新的 Gradio 5 版本。
更新浅色和深色主题的外观。
在退出时妥善关闭网络摄像头流。
优化年龄修改处理器以减少光晕效应。
引入 “–temp-path” 参数来更改临时目录
针对 WebM 处理强制使用 libvpx – vp9 编解码器。
解决预览更新不一致的问题。
删除过时的 “–skip-download” 参数。
修复替换音频时视频长度不正确的问题。
通过将 GPU.0 别名为 GPU 来解决 OpenVINO 问题。
FaceFusion3.7.0（2024.09.21）更新日志
引入像素增强功能到换脸模块
为人脸检测器加入多角度处理
引入年龄修改处理器
引入由Live Portrait驱动的表情恢复处理器
引入由Live Portrait驱动的脸部编辑处理器
用resnet_34模型替代现有的人脸解析器
发布GHOST换脸模型
发布帧增强模型real_esrgan_x8
为SimSwap和GHOST引入ArcFace转换模型
引入基于本地哈希验证的离线优先资源管理
用更先进的fairface模型替换现有的性别和年龄模型
将顺序、年龄和性别转移到人脸选择器
支持CUDA 12.4、TensorRT 10.4、OpenVino 2024.1和ROCm 6.2
在无头模式下提供合适的错误代码
将CLI迁移到命令行模式，支持相关参数
引入定制的peppa_wutz人脸标志点模型
引入–face-landmark-model参数
引入–output-audio-encoder参数
添加视频编码器h264_videotoolbox和hevc_videotoolbox
将–face-selector-order参数的默认值改为large-small
用上下文感知的推理管理器替换全局变量
调整UI布局和视觉外观
升级到最新的Gradio 4
提供一个多范围滑块用于剪辑视频帧
为UI引入一个日志级别感知的终端组件
确保更精确的基准测试结果
由于精度低，移除yunet人脸检测模型
修复uniface换脸模型中的闪烁问题
修复ROCm和DirectML线程和预览崩溃问题
提升webp图像质量
修复ffmpeg处理终止问题
FaceFusion3.6.0（2024.05.20）更新日志
添加帧增强器模型 modelclear_reality_x4 和 ultra_sharp_x4
通过参数ini–config加载不同文件
添加程序准备就绪后打开浏览器的功能 –open-browser
添加选择处理设备参数 –execution-device-id
使用 OpenVINO 执行提供程序支持 Intel Arc显卡
禁止 Gradio 上传超过 512 MB 大小的视频
修复 Windows 下与特殊字符相关的路径问题
修复使用临时文件最终处理图像时的问题●下载声明
软件只要下载到您手上，就可以永久使用。
注册成功后可直接获得论坛积分。若积分不够，可以通过登录、发布资源让别人购买等操作获取，别人已经发布的资源禁止重复发布。
此外充值可快速获得积分。

AI去衣脱衣软件SelfieU版本，最新版本

郭然 — Tue, 17 Dec 2024 15:52:34 +0000

此APP需要使用科学上网，（或者直接在出现联不上网、需要购买、充值或者签到时关闭提示），请科学上网或者使用稳定的梯子APP。否则在部分手机上会一直转圈而不出现结果。

Selfieu模块AI重绘可以去衣。一次可以生成四张，可以高清导出，但是去衣效果一般，感觉不行调一下想象值多重新生成几次。关键词nude girl,big breast

第一步先点击AI实验室

下拉找到AI重绘

选择一张照片，他会自动识别衣服，如果选择不对自己删除或者添加
添加上关键词开始点击制作

下面是楼主自己生成的两张图，想要效果更好的话自己多重绘几次

容易遇到的问题，多次后点击制作不好使了一直加载，退出软件清理下数据重新进就能继续生成了。

话不多说直接上链接
请用于合法用途。

为了APP能有一个合法的用途，稍微设一个门槛，收费9.9元。

【AI换脸】一键换脸 FaceFusion 3.0.1 N卡版修复3.0bug 本地一键整合包下载

郭然 — Mon, 16 Dec 2024 16:03:57 +0000

今天分享的是FaceFusion最新的3.0.1版本，主要修复了大量3.0版本的bug，之前遇到的问题，这个版本基本都解决了，FaceFusion3 全新架构，全新模型，更优秀的人脸检测等等

FaceFusion 傻瓜一键换脸软件三剑客之一，他的老大哥是家喻户晓的Roop，二哥Rope

同样由Roop衍生而来，集成WebUI，操作更简单。提供更多可控的参数调节，可玩性更高，新版最大的功能就是优化了侧脸换脸效果。
FaceFusion还支持直播实时换脸。

新版的FaceFusion 支持五官选择性替换，比如只替换眼镜、嘴巴、或者鼻子等。也可选择性替换和保留
支持一键创建数字人，可以上传一段音频实现对口型，使用的是wav2lip技术.
最新的3.0支持更多新增功能，比如人脸编辑、年龄修改、新的人脸检测和换脸模型等。

相较其他类似傻瓜软件，FaceFusion也是一直在更新，人脸识别也是同类做的最好的，侧脸效果和Rope一样，现在也优化的很不错了。
具体效果可自行体验。

3.0.1更新日志：
修复bug，3.0版的bug修复；
如使用3.0有各种未知问题，请更新此版

3.0更新日志：
改造一切都是工作的架构
将像素增强引入面部交换器
为人脸检测器添加多角度处理
引入年龄修饰符处理器
推出由 Live Portrait 提供支持的表情还原处理器
推出由 Live Portrait 提供支持的人脸编辑器处理器
将人脸解析器替换为 resnet_34 模型
发布 GHOST 换脸器模型
real_esrgan_x8模型的释帧增强器
引入 SimSwap 和 GHOST 的 ArcFace 转换器模型
引入基于本地哈希验证的离线优先资产
用卓越的 Fairface 模型替换 gender_age
将顺序、年龄和性别传输到面孔选择器
支持 CUDA 12.4、TensorRT 10.4、OpenVino 2024.1 和 ROCm 6.2
在无头模式下提供适当的错误代码
将 CLI 迁移到命令以及相关参数
引入定制的 peppa_wutz Face 地标模型
引入 –face-landmark-model 参数
引入 –output-audio-encoder 参数
添加视频编码器h264_videotoolbox和hevc_videotoolbox
将 –face-selector-order 默认值更改为 large-small
将 globals 替换为上下文感知推理管理器
调整 UI 布局和视觉外观
更新到最新的 Gradio 4
提供多范围滑块以修剪视频帧
在 UI 中引入日志级别感知终端组件
确保更准确的基准测试结果
由于精度低，丢弃人脸检测器模型 yunet
修复换脸器单面模型中的闪烁
修复 ROCm 和 DirectML 的线程和预览崩溃
修复 webp 图像的图像质量
修复 ffmpeg 处理终止的问题

下载地址：（下载前，请先阅读使用说明再下载，避免不必要的问题和纠纷）
因为3.0改动较大，所以本次升级只提供完整包。包含一键包和模型包两个部分，先下载一键包，解压出来，再下载模型包，放到一键包根目录，解压到当前文件夹即可。
已支持tensorrt，tensorrt显存占用更低。如果tensorrt模式报错，也可以可以用cuda处理

夸克网盘：
一键包下载：

模型包下载： https://pan.baidu.com/s/1zy90_5hYah5QRvxjZnz28g?pwd=wpat 提取码: wpat

FaceFusion3.7.0黄金版本(N卡专用)支持批量视频换脸整合包下载地址

郭然 — Mon, 16 Dec 2024 13:38:10 +0000

FaceFusion换脸工具3.7.0黄金版本换脸工具整合包，此版本是最新版本，无需配置任何环境，解压即用，本地版本，无需联网也可使用，一次下载，永久免费使用
FaceFusion软件功能:图片换脸，视频换脸，人脸编辑，数字人对口型，视频批量换脸，老旧照片视频修复上色，此版本侧脸效果大幅度优化提高
无需配置任何环境，解压即用，本地版本，无需联网也可使用，一次下载，永久免费使用
电脑要求：
1、软件解压就能用，任何电脑都可用，推荐英伟达显卡4G以上下载，没显卡也能用，也支持cpu版本
2、系统要求：win10、win11
容易出错的地方
软件路径不要包含中文
图片和视频文件名称和路径也不要包含中文
计算机系统用户名不要是中文
FaceFusion 3.7.0版本如图：

● 整合版更新
○ 彻底解除NSFW限制
○ 本地离线版本，无需联网也可使用
○ 中文汉化
○ 更新最新版依赖组件
○ 优化隔离环境
○ 修改缓存目录为当前文件夹temp，避免替换长视频C盘占满
FaceFusion（2024.10.02）更新日志
代码优化
FaceFusion3.7.0（2024.09.21）更新日志
引入像素增强功能到换脸模块
为人脸检测器加入多角度处理
引入年龄修改处理器
引入由Live Portrait驱动的表情恢复处理器
引入由Live Portrait驱动的脸部编辑处理器
用resnet_34模型替代现有的人脸解析器
发布GHOST换脸模型
发布帧增强模型real_esrgan_x8
为SimSwap和GHOST引入ArcFace转换模型
引入基于本地哈希验证的离线优先资源管理
用更先进的fairface模型替换现有的性别和年龄模型
将顺序、年龄和性别转移到人脸选择器
支持CUDA 12.4、TensorRT 10.4、OpenVino 2024.1和ROCm 6.2
在无头模式下提供合适的错误代码
将CLI迁移到命令行模式，支持相关参数
引入定制的peppa_wutz人脸标志点模型
引入–face-landmark-model参数
引入–output-audio-encoder参数
添加视频编码器h264_videotoolbox和hevc_videotoolbox
将–face-selector-order参数的默认值改为large-small
用上下文感知的推理管理器替换全局变量
调整UI布局和视觉外观
升级到最新的Gradio 4
提供一个多范围滑块用于剪辑视频帧
为UI引入一个日志级别感知的终端组件
确保更精确的基准测试结果
由于精度低，移除yunet人脸检测模型
修复uniface换脸模型中的闪烁问题
修复ROCm和DirectML线程和预览崩溃问题
提升webp图像质量
修复ffmpeg处理终止问题

FaceFusion3.6.0（2024.05.20）更新日志
添加帧增强器模型 modelclear_reality_x4 和 ultra_sharp_x4
通过参数ini–config加载不同文件
添加程序准备就绪后打开浏览器的功能 –open-browser
添加选择处理设备参数 –execution-device-id
使用 OpenVINO 执行提供程序支持 Intel Arc显卡
禁止 Gradio 上传超过 512 MB 大小的视频
修复 Windows 下与特殊字符相关的路径问题
修复使用临时文件最终处理图像时的问题

●下载声明
软件只要下载到您手上，就可以永久使用。

重要说明：软件压缩包中自带一个miyao.txt密钥文件，切勿把软件发送他人使用，两台电脑同时使用密钥，密钥会自动失效
软件不绑定电脑，但是不要两台电脑同时使用

一键生成高清短视频：MoneyPrinterTurbo 本地一键包

郭然 — Sat, 30 Nov 2024 06:59:13 +0000

MoneyPrinterTurbo是一个强大的开源项目，只需提供一个视频主题或关键词，即可全自动生成视频文案、视频素材、视频字幕、视频背景音乐，并合成一个高清的短视频。自媒体必备神器！

MoneyPrinterTurbo是一个由 harry0703 创造的开源项目，它可以让你轻松地生成短视频。
项目地址：https://github.com/harry0703/MoneyPrinterTurbo

只需要输入一个视频主题或关键词，它就可以自动为你生成视频文案、视频素材、视频字幕、视频背景音乐，并将这些元素合成为一个高清的短视频。这个项目的目标是让视频创作变得更加轻松、快捷。

项目采用MVC架构，代码结构清晰，便于维护，同时支持API和Web界面。它有很多功能特性，包括支持视频文案AI自动生成，也可以自定义文案，支持多种高清视频尺寸，支持批量视频生成，支持视频片段时长设置，支持中英文视频文案，支持多种语音合成，支持字幕生成，支持背景音乐设置，且视频素材来源高清且无版权，最后也支持OpenAI、moonshot、Azure、gpt4free、one-api、通义千问等多种模型接入。

主要功能
视频生成
AI自动生成视频文案，也可以自定义文案
支持多种高清视频尺寸，包括竖屏9:16，1080×1920和横屏16:9，1920×1080
支持批量视频生成，可以一次生成多个视频，然后选择一个最满意的
支持视频片段时长设置，方便调节素材切换频率
支持中英文视频文案
支持多种语音合成
支持字幕生成，可以调整字体、位置、颜色、大小，同时支持字幕描边设置
支持背景音乐，随机或者指定音乐文件，可设置背景音乐音量
视频素材来源高清且无版权

模型接入
支持OpenAI、moonshot、Azure、gpt4free、one-api、通义千问等多种模型接入

后期计划
GPT-SoVITS 配音支持
优化语音合成，利用大模型，使其合成的声音，更加自然，情绪更加丰富
增加视频转场效果，使其看起来更加的流畅
优化视频素材的匹配度
OLLAMA 支持
总的来说，MoneyPrinterTurbo是一款功能强大、易于使用、免费开源的短视频制作工具。无论你是个人还是团队，都可以使用它来帮助你更高效地制作短视频。

下载一键启动包，解压直接使用（需要开启魔法）

载后，建议先双击执行 update.bat 更新到最新代码，然后双击 start.bat 启动Web界面

下载地址：
夸克网盘：https://pan.quark.cn/s/627b97140464
百度网盘：https://pan.baidu.com/s/1ojdIUOd-lqJB3ZYnK8ugqQ?pwd=mytw

FaceFusion3.7.0黄金版本(AMD、Intel显卡通用10月02更新)支持批量视频换脸

郭然 — Tue, 22 Oct 2024 06:46:01 +0000

FaceFusion换脸工具3.7.0黄金版本换脸工具整合包，此版本是最新版本，无需配置任何环境，解压即用，本地版本，无需联网也可使用，一次下载，永久免费使用
FaceFusion软件功能:图片换脸，视频换脸，视频批量换脸，人脸编辑，数字人对口型，老旧照片视频修复上色，此版本侧脸效果大幅度优化提高
此版本支持AMD显卡和Intel显卡，凡是支持directx 12 的AMD或Intel显卡(包括集成显卡)都可以使用此版本换脸工具，使用的是显卡运算，速度很快，此版本同时支持没有独立显卡的电脑
（目前测试AMD rx550及其以上的显卡都可以用显卡GPU正常运行，AMD显卡4G及其以上的都可以用，Intel独立显卡推荐8G及其以上，A卡和I卡的福音）
电脑要求：
1、软件解压就能用，任何电脑都可用，推荐AMD独立显卡4G以上或英特尔独立显卡8G以上下载，没显卡也能用，也支持cpu版本
2、系统要求：win10、win11
容易出错的地方
软件路径不要包含中文
图片和视频文件名称和路径也不要包含中文
计算机系统用户名不要是中文
● 整合版更新
○ 彻底解除NSFW限制
○ 本地离线版本，无需联网也可使用
○ 中文汉化
○ 更新最新版依赖组件
○ 优化隔离环境
○ 修改缓存目录为当前文件夹temp，避免替换长视频C盘占满

FaceFusion 3.7.0版本如图：

FaceFusion（2024.10.02）更新日志
代码优化
FaceFusion3.7.0（2024.09.21）更新日志
引入像素增强功能到换脸模块
为人脸检测器加入多角度处理
引入年龄修改处理器
引入由Live Portrait驱动的表情恢复处理器
引入由Live Portrait驱动的脸部编辑处理器
用resnet_34模型替代现有的人脸解析器
发布GHOST换脸模型
发布帧增强模型real_esrgan_x8
为SimSwap和GHOST引入ArcFace转换模型
引入基于本地哈希验证的离线优先资源管理
用更先进的fairface模型替换现有的性别和年龄模型
将顺序、年龄和性别转移到人脸选择器
支持CUDA 12.4、TensorRT 10.4、OpenVino 2024.1和ROCm 6.2
在无头模式下提供合适的错误代码
将CLI迁移到命令行模式，支持相关参数
引入定制的peppa_wutz人脸标志点模型
引入–face-landmark-model参数
引入–output-audio-encoder参数
添加视频编码器h264_videotoolbox和hevc_videotoolbox
将–face-selector-order参数的默认值改为large-small
用上下文感知的推理管理器替换全局变量
调整UI布局和视觉外观
升级到最新的Gradio 4
提供一个多范围滑块用于剪辑视频帧
为UI引入一个日志级别感知的终端组件
确保更精确的基准测试结果
由于精度低，移除yunet人脸检测模型
修复uniface换脸模型中的闪烁问题
修复ROCm和DirectML线程和预览崩溃问题
提升webp图像质量
修复ffmpeg处理终止问题

解压密码: www.aibl.vip

●下载声明
软件只要下载到您手上，就可以永久使用。

sd教程：电脑本地安装3步轻松搞定，小白看完也能学会

郭然 — Mon, 10 Jun 2024 08:45:11 +0000

SD做出来的小姐姐太美了，昨天网友私信我，买了新电脑，Stable Diffusion webui就是装不好，好吧好吧，今天就来教大家快速安装SD，一起愉快的制作小姐姐。首先说明一下，SD对电脑要求很高，最好是N卡，显存至少4G，内存8G以上，如果你的电脑是入门级的上网本，或者是amd显卡，也不要着急，我有别的方式让你用上SD。具体私信联系我。

对于新人来说，最简单最常用的应该是Windows系统，这里就介绍windows系统下如何安装，安装之前先把你的显卡驱动升级到最新，第一步下载python3.10版。这是sd必须依赖的执行程序。

安装就直接默认就可以了，第二步安装这程序也直接默认安装就好了。上面两个程序都是SD运行必须使用的依赖环境。

第三步，在你准备安装SD的目录，以管理员身份打开CMD命令行工具，这里有个小技巧，直接在文件地址栏全选目录，输入CMD就打开了。打开后使用GT远程下载SD的安装包，这个命令我放在下面了，

git clone https:http://ghproxy.com/https:http://github.com/AUTOMATIC1111/stable-diffusion-webui

网络可能不好，有时网络出错，Ctrl+z退出重复操作

https:http://ghproxy.com/是一个加速git网站地址。

需要的小伙伴直接复制一下就好了。安装包有2G多，如果你网络不好，可能需要等十分钟左右才可以完全执行完命令。

恭喜你，SD已经安装完90%了。最后一步也很简单，打开你的SD安装包，直接点击web user这个批处理命令，命令会自动运行，第一次点击它会自动下载一些SD需要的程序，这个过程如果网速好的话，可能20分钟就可以了。

在安装中间可能会出一些小问题，比如豆豆的SD就提示我的G不是最新的，让我升级到最新好的。经过漫长的等待，SD会给你一个网址，你把这个网址复制到你的浏览器，激动人心的时刻终于来到了，我们随便输入一些关键词，下面就是见证奇迹的时刻。

sd教程：LoRA、TI、dreambooth、Hypernetworks四大模型区别

郭然 — Mon, 10 Jun 2024 08:42:56 +0000

玩StableDiffusion的朋友，第一个难关应该是软件的本地安装了，

因为它对电脑硬件有一定要求，还需要安装各种各样的依赖环境。

新人很容易不知所措。

如果你还没有安装好sd，可以参考我下面的教程：

sd教程：电脑本地安装3步轻松搞定，小白看完也能学会

安装好了，就该装模型文件了，sd的模型这么多，而且动不动就是几个g，新人到底应该如何选择呢？

下面我结合我的经验给新人一些推荐，希望可以帮助到大家。

首先把模型切换出来，如下图请点击橙色生成按钮下第三个图标，就可以切换出这4类模型。

sd里面的模型大体上有下面4种：

check point模型

也就是sd所谓的大模型，或者说基础模型，比如sd-v1.5.ckpt，sd官方自带的基础模型。这类模型都是由dreambooth技术，经过大量数据训练，可以生成各类常见元素的图片，算是一个全能工具。因此不可缺少，至少有一个，不然sd不能启动。这类模型要放在models\stable diffusion文件夹内。通过右上角的选择框进行切换。如下图

小知识：所有的check point模型，都有搭配的vae文件，vae的作用是增强模型的色彩、光照等表现效果，相当于给模型加了美颜滤镜。所以如果你发现你的模型做的图发灰，检查一下vae文件是否勾选。

embeddings模型

字面意思是文字嵌入，这类模型是通过Textual Inversion (TI)#纹理反转的方法，在check point模型的基础上训练来的，特点是文件格式是pt，体积一般只有几十kb，特别小。下载的这类模型，要放到\embeddings文件夹内。

这类模型使用时要在prompt中，添加模型名字。模型的功能是可以生成特定人物类型或风格的图片，比如一款叫Pure Eros.pt的模型，可以让生成的人物都是一副纯欲脸的样子。

flower_style.pt这个模型，可以给生成的画面，添加很多随机的花朵。

hypernetworks模型

超级网格模型，和上面的类似，也是pt格式，文件一般100m左右，由于lora模型现在更受到欢迎，这类模型使用的人很少。下载的模型要放到models\hypernetworks文件夹内。

lora模型

这种模型格式是safetensors，放到models\lora文件夹内。这类模型容易训练，对电脑配置要求低，文件安全，现在使用的人很多。使用时，需要把模型名字放入prompt内，一般格式是，比如，注意权重一般在0-1之间，根据实际需要灵活调整。可以多个lora模型一起使用，一般权重加起来不超过1.

总体上来看，check point模型、embeddings模型、lora模型都很受欢迎，hypernetworks模型有慢慢被淘汰的趋势。

这四类模型，哪些适合新人朋友？哪些好用？我想生成妹子，该用什么模型？下面几期我会详细介绍。

全网最全stable diffusion模型讲解！快来！！小白必收藏！！

郭然 — Sun, 09 Jun 2024 16:31:57 +0000

手把手教你入门绘图超强的AI绘画程序Stable Diffusion，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包（文末可获取）

AI模型最新展现出的图像生成能力远远超出人们的预期，直接根据文字描述就能创造出具有惊人视觉效果的图像，其背后的运行机制显得十分神秘与神奇，但确实影响了人类创造艺术的方式。

Stable Diffusion的发布是AI图像生成发展过程中的一个里程碑，相当于给大众提供了一个可用的高性能模型，不仅生成的图像质量非常高，运行速度快，并且有资源和内存的要求也较低。

相信只要试过AI图像生成的人都会想了解它到底是如何工作的，这篇文章就将为你揭开Stable Diffusion工作原理的神秘面纱。

Stable Diffusion从功能上来说主要包括两方面：

1）其核心功能为仅根据文本提示作为输入来生成的图像（text2img）；
2）你也可以用它对图像根据文字描述进行修改（即输入为文本+图像）。

下面将使用图示来辅助解释Stable Diffusion的组件，它们之间如何交互，以及图像生成选项及参数的含义。

Stable Diffusion组件

Stable Diffusion是一个由多个组件和模型组成的系统，而非单一的模型。

当我们从模型整体的角度向模型内部观察时，可以发现，其包含一个文本理解组件用于将文本信息翻译成数字表示（numeric representation），以捕捉文本中的语义信息。

虽然目前还是从宏观角度分析模型，后面才有更多的模型细节，但我们也可以大致推测这个文本编码器是一个特殊的Transformer语言模型（具体来说是CLIP模型的文本编码器）。

模型的输入为一个文本字符串，输出为一个数字列表，用来表征文本中的每个单词/token，即将每个token转换为一个向量。

然后这些信息会被提交到图像生成器（image generator）中，它的内部也包含多个组件。

图像生成器主要包括两个阶段：

1. Image information creator
这个组件是Stable Diffusion的独家秘方，相比之前的模型，它的很多性能增益都是在这里实现的。

该组件运行多个steps来生成图像信息，其中steps也是Stable Diffusion接口和库中的参数，通常默认为50或100。

图像信息创建器完全在图像信息空间（或潜空间）中运行，这一特性使得它比其他在像素空间工作的Diffusion模型运行得更快；从技术上来看，该组件由一个UNet神经网络和一个调度（scheduling）算法组成。

扩散（diffusion）这个词描述了在该组件内部运行期间发生的事情，即对信息进行一步步地处理，并最终由下一个组件（图像解码器）生成高质量的图像。

2. 图像解码器

图像解码器根据从图像信息创建器中获取的信息画出一幅画，整个过程只运行一次即可生成最终的像素图像。

可以看到，Stable Diffusion总共包含三个主要的组件，其中每个组件都拥有一个独立的神经网络：

1）Clip Text用于文本编码。

输入：文本

输出：77个token嵌入向量，其中每个向量包含768个维度

2）UNet + Scheduler在信息（潜）空间中逐步处理/扩散信息。

输入：文本嵌入和一个由噪声组成的初始多维数组（结构化的数字列表，也叫张量tensor）。

输出：一个经过处理的信息阵列

3）自编码解码器（Autoencoder Decoder），使用处理过的信息矩阵绘制最终图像的解码器。

输入：处理过的信息矩阵，维度为（4, 64, 64）

输出：结果图像，各维度为（3，512，512），即（红/绿/蓝，宽，高）

什么是Diffusion？

扩散是在下图中粉红色的图像信息创建器组件中发生的过程，过程中包含表征输入文本的token嵌入，和随机的初始图像信息矩阵（也称之为latents），该过程会还需要用到图像解码器来绘制最终图像的信息矩阵。

整个运行过程是step by step的，每一步都会增加更多的相关信息。

为了更直观地感受整个过程，可以中途查看随机latents矩阵，并观察它是如何转化为视觉噪声的，其中视觉检查（visual inspection）是通过图像解码器进行的。

整个diffusion过程包含多个steps，其中每个step都是基于输入的latents矩阵进行操作，并生成另一个latents矩阵以更好地贴合「输入的文本」和从模型图像集中获取的「视觉信息」。

将这些latents可视化可以看到这些信息是如何在每个step中相加的。

整个过程就是从无到有，看起来相当激动人心。

https://jalammar.github.io/images/stable-diffusion/diffusion-steps-all-loop.webm

步骤2和4之间的过程转变看起来特别有趣，就好像图片的轮廓是从噪声中出现的。

Diffusion的工作原理

扩散模型是一种生成模型，用于生成与训练数据相似的数据。简单的说，扩散模型的工作方式是通过迭代添加高斯噪声来“破坏”训练数据，然后学习如何消除噪声来恢复数据。

一个标准扩散模型有两个主要过程：正向扩散和反向扩散。

在正向扩散阶段，通过逐渐引入噪声来破坏图像，直到图像变成完全随机的噪声。

在反向扩散阶段，使用一系列马尔可夫链逐步去除预测噪声，从高斯噪声中恢复数据。

通过缓慢添加（去除）噪声来生成样本的正向（反向）扩散过程的马尔可夫链(图片来源: Jonathan Ho, Ajay Jain, Pieter Abbeel. 2020)

对于噪声的估计和去除，最常使用的是 U-Net。该神经网络的架构看起来像字母 U，由此得名。U-Net 是一个全连接卷积神经网络，这使得它对图像处理非常有用。U-Net的特点在于它能够将图像作为入口，并通过减少采样来找到该图像的低维表示，这使得它更适合处理和查找重要属性，然后通过增加采样将图像恢复回来。

一个典型的U-Net架构实例
具体的说，所谓去除噪声就是从时间帧 t 向时间帧 t − 1 的变换，其中 t 是 t 0（没有噪声）到 t_{max}（完全噪声）之间的任意时间帧。变换规则为：

输入时间帧 t 的图像，并且在该时间帧上图像存在特定噪声；
使用 U-Net 预测总噪声量；
然后在时间帧 t 的图像中去除总噪声的“一部分”，得到噪声较少的时间帧 t − 1 的图像。

向图片逐步增加/删除噪声
从数学上讲，执行此上述方法 T 次比尝试消除整个噪声更有意义。通过重复这个过程，噪声会逐渐被去除，我们会得到一个更“干净”的图像。比如对于带有噪声的图，我们通过在初始图像上添加完全噪声，然后再迭代地去除它来生成没有噪声的图像，效果比直接在原图上去除噪声要好。

近几年，扩散模型在图像生成任务中表现出突出的性能，并在图像合成等多个任务中取代了GAN。由于扩散模型能够保持数据的语义结构，因此不会受到模式崩溃的影响。

然而，实现扩散模型存在一些困难。因为所有马尔可夫状态都需要一直在内存中进行预测，这意味着内存中要一直保存多个大型深度网络的实例，从而导致扩散模型非常吃内存。此外，扩散模型可能会陷入图像数据中难以察觉的细粒度复杂性中，导致训练时间变得太长（几天到几个月）。矛盾的是，细粒度图像生成是扩散模型的主要优势之一，我们无法避免这个“甜蜜的烦恼”。由于扩散模型对计算要求非常高，训练需要非常大的内存和电量，这使得早前大多数研究人员无法在现实中实现该模型。

Stable Diffusion

扩散模型最大的问题是它的时间成本和经济成本都极其“昂贵”。Stable Diffusion的出现就是为了解决上述问题。如果我们想要生成一张 1024 × 1024 1024 尺寸的图像，U-Net 会使用 1024 × 1024 1024尺寸的噪声，然后从中生成图像。这里做一步扩散的计算量就很大，更别说要循环迭代多次直到100%。一个解决方法是将大图片拆分为若干小分辨率的图片进行训练，然后再使用一个额外的神经网络来产生更大分辨率的图像（超分辨率扩散）。

2021年发布的Latent Diffusion模型给出了不一样的方法。 Latent Diffusion模型不直接在操作图像，而是在潜在空间中进行操作。通过将原始数据编码到更小的空间中，让U-Net可以在低维表示上添加和删除噪声（stable Diffusion的核心原理就是Latent Diffusion）。

使用扩散模型生成图像的核心思路还是基于已存在的强大的计算机视觉模型，只要输入足够大的数据集，这些模型可以学习任意复杂的操作。

假设我们已经有了一张图像，生成产生一些噪声加入到图像中，然后就可以将该图像视作一个训练样例。

训练示例是通过生成噪声并将一定的噪声添加到训练数据集中生成的（前向扩散）

使用相同的操作可以生成大量训练样本来训练图像生成模型中的核心组件。

上述例子展示了一些可选的噪声量值，从原始图像(级别0，不含噪声)到噪声全部添加(级别4) ，从而可以很容易地控制有多少噪声添加到图像中。

所以我们可以将这个过程分散在几十个steps中，对数据集中的每张图像都可以生成数十个训练样本。

基于上述数据集，我们就可以训练出一个性能极佳的噪声预测器，每个训练step和其他模型的训练相似。当以某一种确定的配置运行时，噪声预测器就可以生成图像。

移除噪声，绘制图像

经过训练的噪声预测器可以对一幅添加噪声的图像进行去噪，也可以预测添加的噪声量。

由于采样的噪声是可预测的，所以如果从图像中减去噪声，最后得到的图像就会更接近模型训练得到的图像。

得到的图像并非是一张精确的原始图像，而是分布（distribution），即世界的像素排列，比如天空通常是蓝色的，人有两只眼睛，猫有尖耳朵等等，生成的具体图像风格完全取决于训练数据集。

不止Stable Diffusion通过去噪进行图像生成，DALL-E 2和谷歌的Imagen模型都是如此。

需要注意的是，到目前为止描述的扩散过程还没有使用任何文本数据生成图像。因此，如果我们部署这个模型的话，它能够生成很好看的图像，但用户没有办法控制生成的内容。

在接下来的部分中，将会对如何将条件文本合并到流程中进行描述，以便控制模型生成的图像类型。

加速：在压缩数据上扩散

 **潜在空间(Lantent Space)**

潜在空间简单的说是对压缩数据的表示。所谓压缩指的是用比原始表示更小的数位来编码信息的过程。比如我们用一个颜色通道（黑白灰）来表示原来由RGB三原色构成的图片，此时每个像素点的颜色向量由3维变成了1维度。维度降低会丢失一部分信息，然而在某些情况下，降维不是件坏事。通过降维我们可以过滤掉一些不太重要的信息你，只保留最重要的信息。

假设我们像通过全连接的卷积神经网络训练一个图像分类模型。当我们说模型在学习时，我们的意思是它在学习神经网络每一层的特定属性，比如边缘、角度、形状等……每当模型使用数据（已经存在的图像）学习时，都会将图像的尺寸先减小再恢复到原始尺寸。最后，模型使用解码器从压缩数据中重建图像，同时学习之前的所有相关信息。因此，空间变小，以便提取和保留最重要的属性。这就是潜在空间适用于扩散模型的原因。

利用卷积神经网络提取最重要的属性
任何生成性学习方法都有两个主要阶段：感知压缩和语义压缩：

在感知压缩学习阶段，学习方法必须去除高频细节将数据封装到抽象表示中。此步骤对构建一个稳定、鲁棒的环境表示是必要的。GAN 擅长感知压缩，通过将高维冗余数据从像素空间投影到潜在空间的超空间来实现这一点。潜在空间中的潜在向量是原始像素图像的压缩形式，可以有效地代替原始图像。

更具体地说，用自动编码器 (Auto Encoder) 结构捕获感知压缩。自动编码器中的编码器将高维数据投影到潜在空间，解码器从潜在空间恢复图像。

语义压缩

在学习的第二阶段，图像生成方法必须能够捕获数据中存在的语义结构。这种概念和语义结构提供了图像中各种对象的上下文和相互关系的保存。 Transformer擅长捕捉文本和图像中的语义结构。 Transformer的泛化能力和扩散模型的细节保存能力相结合，提供了两全其美的方法，并提供了一种生成细粒度的高度细节图像的方法，同时保留图像中的语义结构（UNet结构中的Transformer主要用于语义压缩）。

感知损失

潜在扩散模型中的自动编码器通过将数据投影到潜在空间来捕获数据的感知结构。论文作者使用一种特殊的损失函数来训练这种称为“感知损失”的自动编码器。该损失函数确保重建限制在图像流形内，并减少使用像素空间损失（例如 L1/L2 损失）时出现的模糊。

为了加速图像生成的过程，Stable Diffusion并没有选择在像素图像本身上运行扩散过程，而是选择在图像的压缩版本上运行，论文中也称之为「Departure to Latent Space」。

整个压缩过程，包括后续的解压、绘制图像都是通过自编码器完成的，将图像压缩到潜空间中，然后仅使用解码器使用压缩后的信息来重构。

前向扩散（forward diffusion）过程是在压缩latents完成的，噪声的切片（slices）是应用于latents上的噪声，而非像素图像，所以噪声预测器实际上是被训练用来预测压缩表示（潜空间）中的噪声。

前向过程，即使用自编码器中的编码器来训练噪声预测器。一旦训练完成后，就可以通过运行反向过程（自编码器中的解码器）来生成图像。

前向和后向过程如下所示，图中还包括了一个conditioning组件，用来描述模型应该生成图像的文本提示。

文本编码器：一个Transformer语言模型

模型中的语言理解组件使用的是Transformer语言模型，可以将输入的文本提示转换为token嵌入向量。发布的Stable Diffusion模型使用 ClipText (基于 GPT 的模型) ，这篇文章中为了方便讲解选择使用 BERT模型。

Imagen论文中的实验表明，相比选择更大的图像生成组件，更大的语言模型可以带来更多的图像质量提升。

早期的Stable Diffusion模型使用的是OpenAI发布的经过预训练的 ClipText 模型，而在Stable Diffusion V2中已经转向了最新发布的、更大的CLIP模型变体OpenClip.

CLIP是怎么训练的？

CLIP需要的数据为图像及其标题，数据集中大约包含4亿张图像及描述。

数据集通过从网上抓取的图片以及相应的「alt」标签文本来收集的。

CLIP 是图像编码器和文本编码器的组合，其训练过程可以简化为拍摄图像和文字说明，使用两个编码器对数据分别进行编码。

然后使用余弦距离比较结果嵌入，刚开始训练时，即使文本描述与图像是相匹配的，它们之间的相似性肯定也是很低的。

随着模型的不断更新，在后续阶段，编码器对图像和文本编码得到的嵌入会逐渐相似。

通过在整个数据集中重复该过程，并使用大batch size的编码器，最终能够生成一个嵌入向量，其中狗的图像和句子「一条狗的图片」之间是相似的。

就像在 word2vec 中一样，训练过程也需要包括不匹配的图片和说明的负样本，模型需要给它们分配较低的相似度分数。

文本信息喂入图像生成过程：

文本-图像合成：在 Python 实现中，我们可以使用使用 LDM v4 的最新官方实现来生成图像。在文本到图像的合成中，潜在扩散模型使用预训练的 CLIP 模型3，该模型为文本和图像等多种模态提供基于Transformer的通用嵌入。然后将Transformer模型的输出输入到称为“diffusers”的潜在扩散模型Python API，同时还可以设置一些参数（例如，扩散步数、随机数种子、图像大小等）。

为了将文本条件融入成为图像生成过程的一部分，必须调整噪声预测器的输入为文本。

所有的操作都是在潜空间上，包括编码后的文本、输入图像和预测噪声。

为了更好地了解文本token在 Unet 中的使用方式，还需要先了解一下 Unet模型。

Unet 噪声预测器中的层（无文本）

一个不使用文本的diffusion Unet，其输入输出如下所示：

在模型内部，可以看到：

1. Unet模型中的层主要用于转换latents；
2. 每层都是在之前层的输出上进行操作；
3. 某些输出（通过残差连接）将其馈送到网络后面的处理中
4. 将时间步转换为时间步长嵌入向量，可以在层中使用。

Unet 噪声预测器中的层（带文本）

现在就需要将之前的系统改装成带文本版本的。

条件扩散

扩散模型是依赖于先验的条件模型。在图像生成任务中，先验通常是文本、图像或语义图。为了获得先验的潜在表示，需要使用转换器（例如 CLIP）将文本/图像嵌入到潜在向量τ \tauτ中。因此，最终的损失函数不仅取决于原始图像的潜在空间，还取决于条件的潜在嵌入。

主要的修改部分就是增加对文本输入（术语：text conditioning）的支持，即在ResNet块之间添加一个注意力层。

需要注意的是，ResNet块没有直接看到文本内容，而是通过注意力层将文本在latents中的表征合并起来，然后下一个ResNet就可以在这一过程中利用上文本信息。

AI绘画所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去，那么我的使命也就完成了：

👉stable diffusion新手0基础入门PDF👈

👉AI绘画必备工具👈

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

VIP部落

抖音上爆吹的克隆语音之王IndexTTS2，AI语音克隆神器

Wan2GP V11版 – 低配显卡玩转AI视频生成，更新Wan2.2图生视频模型 支持50系显卡 一键整合包下载

Wan2GP V6版 – 低配显卡玩转AI视频生成，新增数字人对话模型 Multitalk 支持50系显卡 一键整合包下载

FaceFusion4.0最新版(N卡专用支持50系列)批量视频换脸整合包下载地址

AI去衣脱衣软件SelfieU版本，最新版本

【AI换脸】一键换脸 FaceFusion 3.0.1 N卡版 修复3.0bug 本地一键整合包下载

FaceFusion3.7.0黄金版本(N卡专用)支持批量视频换脸整合包下载地址

一键生成高清短视频：MoneyPrinterTurbo 本地一键包

FaceFusion3.7.0黄金版本(AMD、Intel显卡通用10月02更新)支持批量视频换脸

sd教程：电脑本地安装3步轻松搞定，小白看完也能学会

sd教程：LoRA、TI、dreambooth、Hypernetworks四大模型区别

全网最全stable diffusion模型讲解！快来！！小白必收藏！！

Stable Diffusion组件

什么是Diffusion？

Diffusion的工作原理

Stable Diffusion

加速：在压缩数据上扩散

文本编码器：一个Transformer语言模型

CLIP是怎么训练的？

Unet 噪声预测器中的层（无文本）

Unet 噪声预测器中的层（带文本）

AI绘画所有方向的学习路线思维导图

👉stable diffusion新手0基础入门PDF👈

👉AI绘画必备工具👈

👉AI绘画基础+速成+进阶使用教程👈

Wan2GP V11版 – 低配显卡玩转AI视频生成，更新Wan2.2图生视频模型支持50系显卡一键整合包下载

Wan2GP V6版 – 低配显卡玩转AI视频生成，新增数字人对话模型 Multitalk 支持50系显卡一键整合包下载

【AI换脸】一键换脸 FaceFusion 3.0.1 N卡版修复3.0bug 本地一键整合包下载