
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。并且官方团队发布了在 768 分辨率上训练的模型权重,此版本中服装和文本提示的强度可以独立调整。以及支持与IP-Adapter-FaceID、ControlNet-Openpos模型一起使用,能够使用肖像和参考姿势图像作为附加条件。这个项目的目标是为图像合成提供更多的控制和灵活性,使得用户能够根据自己的需求创建更具个性化和创意的图像。
- MagicClothing权重文件:https://huggingface.co/ShineChen1024/MagicClothing
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- OOTDiffusion技术论文:https://arxiv.org/abs/2403.01779
- IP-Adapter-FaceID:https://huggingface.co/h94/IP-Adapter-FaceID
Magic Clothing的主要功能特点
- 控制性:用户可以通过文本提示来控制图像合成中的服装细节,从而生成定制的、穿着特定服装的人物图像。
- 高度可控:系统能够在生成过程中融合服装细节,实现高度可控和细粒度的图像输出。
- 多模态支持:支持IP-Adapter-FaceID,允许使用面部图像作为额外条件,提高图像合成的个性化和准确性。
- 模型更新:提供了不同分辨率的模型权重,如512和768分辨率,以及最新的1024分辨率版本,适用于VTON-HD和DressCode。
- 可视化工具:提供了Gradio工具,用户可以通过这些工具来探索和使用Magic Clothing的功能。
ComfyUI_MagicClothing体验
ComfyUI_MagicClothing是MagicClothing虚拟试衣的非官方实现ComfyUI插件,但也是一款强大的ComfyUI插件,支持功能如下:
- 通过提示生语成服装图像
- IPAdapter FaceID 配合人脸检测和服装图像合成
- IPAdapter FaceID 配合 controlnet openpose 和服装图像合成
- 支持上半身、下半身和全身模型
ComfyUI_MagicClothing插件安装
可以使用插件管理器搜索ComfyUI_MagicClothing安装,或者采用Git工具安装。
Git安装如下
在 ComfyUI 的 custom_nodes 目录下运行下列CLI命令
git clone https://github.com/frankchieng/ComfyUI_MagicClothing.git
pip install -r requirements.txt
模型下载
需要从Huggingface下载 cloth_segm.pth, magic_clothing_768_vitonhd_joint.safetensors(上半身模型), OMS_1024_VTHD+DressCode_200000.safetensors(下半身和全身模型)3个模型,并将它们放置在ComfyUI/custom_nodes/ComfyUI_MagicClothing/checkpoints 目录下。
同时,如果需要体验 ipadapterfaceid保持面部风格一致性迁移,那么还需要安装 ComfyUI_IPAdapter_plus 自定义节点。然后从IPAdapter FaceID 模型,并将它们放置在对应目录结构下。
另外,如果还想运行 controlnet openpose 部分,那么必须安装 comfyui_controlnet_aux 插件,以及下载 openpose 模型中的 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth,并将它们放置在 custom_nodes/comfyui_controlnet_aux/ckpts/lllyasviel/Annotators目录下。
还有部分模型会在运行时根据用户选项下载(如openpose模型 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth),因此需要能访问huggingface。
文件结构如下:
ComfyUI
|– models
| |– ipadapter
| | |– ip-adapter-faceid-plus_sd15.bin
| | |– ip-adapter-faceid-plusv2_sd15.bin
| | |– ip-adapter-faceid_sd15.bin
| |– loras
| | |– ip-adapter-faceid-plus_sd15_lora.safetensors
| | |– ip-adapter-faceid-plusv2_sd15_lora.safetensors
| | |– ip-adapter-faceid_sd15_lora.safetensors
|– custom_nodes
| |– ComfyUI_MagicClothing
| | |– checkpoints
| | | |– cloth_segm.pth
| | | |– magic_clothing_768_vitonhd_joint.safetensors
| | | |– OMS_1024_VTHD+DressCode_200000.safetensors
MagicClothing模型体验
01. simple workflow
02. IPAdapater FaceID workflow
03. IPAdapater FaceID chained with controlnet openpose workflow
04. full-body workflow with IPadapterFaceid
注:实践效果中对于人物面部特征保持相对弱,作者也提到很快会有人物细节更好改善版模型。目前内置模型为SD1.5模型,作者称将会尝试dreamshape8, xxmix9realistic_v40等SDXL模型。
附录
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- 插件:https://github.com/frankchieng/ComfyUI_MagicClothing/tree/main
数据统计
相关导航

HelloMeme 是一个专注于生成高保真图像和视频内容的 AI 项目,特别是表情克隆技术。通过采用最新的 SD1.5 架构和空间编织注意力扩散模型,HelloMeme 可以轻松将一张图片的表情迁移到另一张图片或视频上,生成效果超越同类工具如 Liveportrait。HelloMeme 支持 ComfyUI 界面操作,非常适用于 AI 数字人、表情包制作和照片复活等领域,带来更自然细腻的表情效果。

LTX Video
LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构,能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频,生成速度比观看速度还要快。

CatVTON
CatVTON是一款基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

Seed-TTS
Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。

讯飞星火大模型
讯飞星火大模型是科大讯飞发布的一个基于深度学习的自然语言处理模型,以中文为核心,具备跨领域多任务上的类人理解和生成能力。注册免费领取1500万Tokens,该模型对标ChatGPT,并在多个领域表现出色。

SEED-Story
SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。

文心千帆
文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。

FireRedASR
FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别(ASR)模型,支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果,并且在歌词识别方面表现出色。
暂无评论...