智东西
智东西12月24日报谈,本日,阿里Qwen团队认真开源图像剪辑模子Qwen-Image-Edit-2511,这是继9月23日发布Qwen-Image-Edit-2509后的最新增强版块。

在此前的多个公开基准测试中,Qwen-Image系列已展现出较强的图像剪辑性能,共取得12项SOTA(最好进展)。在中语翰墨生成评测ChineseWord与LongText-Bench平分歧最初GPT Image 1、Seedream 3.0等主流模子。
新版块则聚焦图像生成过程中的东谈主物一致性问题,在单东谈主连拍、多东谈主物交融等任务中权贵晋升面部特征与魄力的踏实性,同期集成了多个LoRA子模子,增强了图像剪辑中的几何构造、光照阻挡、材质替换等才智。

智东西也在第一时刻进行了实测。合座来看,Qwen-Image-Edit-2511在东谈主像交融、LoRA光照阻挡、魄力一致性方面进展出色,生成驱逐当然。但在镜头旋转、空间构图与几何推理类操作上仍存在较着舛误。
Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511
魔搭社区:https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511
本事讲解:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
一、新版块聚焦东谈主物一致性与魄力迁徙,拓展多场景图像剪辑才智在此前版块的Qwen-Image中,Qwen团队初次构建了完好意思的图像生成与剪辑框架,通过Qwen2.5-VL+VAE双编码机制配合MMDiT扩散架构,其中“MM”代表的是模子生成图像、文本等多模态内容的才智,“DiT”则代表了这是一个扩散Transformer。
Qwen团队在多个公开基准上对Qwen-Image进行了评估,比较对象为人人头部的开源、闭源图像生成模子。在通用图像生成测试GenEval、DPG和OneIG-Bench,以及图像剪辑测试GEdit、ImgEdit和GSO上,Qwen-lmage突出了Flux.1、BAGEL等开源模子、字节突出的SeedDream 3.0和OpenAI的GPT Image 1(High)。
在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的驱逐标明,Qwen-Image在文本渲染方面进展尤为出色,相配是在中语文本渲染上,大幅最初现存的登程点进模子,包括SeedDream 3.0和GPT Image 1(High)。
这次发布的Qwen-Image-Edit-2511版块,则在图像剪辑阶段进一步增强了东谈主物一致性抒发才智,并引入LoRA模块晋升光照、材质与视角阻挡进展。
Qwen-Image-Edit-2511在保执东谈主物一致性方面作念出了要点升级。针对输入东谈主像生成的多张变体图像,模子在眼力、发型、配饰等细节上的保留愈加踏实,适用于多边幅、多姿态、多魄力等需要变装连贯输出的场景。

除了单东谈主任务,Qwen-Image-Edit-2511还权贵优化了多东谈主图像交融进展。比拟此前版块,它不错更当然地将两张不同东谈主像合成为吞并张合影图像,保留东谈主物原貌的同期,自动颐养姿态与构图,生成驱逐在合座魄力与变装互助性上更为连贯。这为AI情侣照、群像图等利用提供了更高质料的基础。

▲Qwen官决策例
同期,Qwen-Image-Edit-2511初次在基础模子中内置了部分高频使用的LoRA子模子。用户无需加载外部权重,即可平直启用如光照增强、新视角生成、材质替换等功能。
举例,用户可通过LoRA阻挡当然清明所在变化,重现柔光照明后果,也不错在工业蓄意场景中完成木柴纹理或布料魄力的替换操作。
在结构意会方面,该版块还加入了几何构造援救才智,支执在输入图像的基础上添加援救线、蔓延线等几何元素,适用于训导、工程图生成或图像标注任务。
二、实测:东谈主物交融踏实、魄力阻挡可用,但精真金不怕火阻挡仍有畛域在实质体验中,咱们围绕东谈主物一致性、LoRA光照、材质替换、翰墨渲染以及几何推理等才智,对Qwen-Image-Edit-2511进行了多组测试。
合座来看,模子在东谈主物类合成与魄力抒发方面进展踏实,输出驱逐具备较高可用性,但在镜头级阻挡与几何逻辑实施上仍存在一定局限。
案例1:情侣写照合影(东谈主物一致性与互动姿态测试)
4:3,韩系情侣写照魄力,布景为纯色暖调低富余暗绿色磨砂质感墙面,正面柔光打光,东谈主物面部酿成柔软暗影过渡。一双年青东亚情侣,女性东谈主脸参考第一张图,长头发妆容细腻带项链耳饰,米白色露肩上衣;男性东谈主脸参考第二张图,发型不变,玄色短袖。东谈主物姿态互动感强(脸贴脸),边幅灵动俏皮含笑,男生搞怪屈身,女生搞怪可儿笑眯眯,合座甜酷亲昵,胶片魄力带颗粒感柔光暖调,翔实互动细节与衣饰质感。原比例。

▲参考图
生成驱逐中,两位东谈主物的面部特征与细节保执精真金不怕火一致性,互动姿态当然,光影得当写照魄力,合座后果踏实且可用。

▲Qwen-Image-Edit-2511生成后果图
案例2:双东谈主俯拍自拍(高角度合成与东谈主物一致性测试)
请将图1和图2交融成一张双东谈主俯拍自拍照,画面构图紧凑,两位主体靠得很近,头部稍许上仰,眼力直视镜头,营造出热烈的视觉冲击力。左侧东谈主物站得略靠前,参考我图1的主体形象特征造型保执不变,需要保执东谈主脸一样度;右侧东谈主物参考图2的主体形象特征保执造型不变,需要保执东谈主脸一样度,稍许内扣体魄,拍摄角度为高角度俯拍,使头部比例被夸张放大,得当典型的日韩视觉自拍魄力。布景为纯白色,纯粹干净,进一步突显东谈主物主体。画面魄力偏向日系视觉系,合座画面明晰度高,用iphone前置自拍,最终呈现出细腻、前锋、略带的合影后果。条目东谈主物完结无缝融进画面,视觉过渡当然,合座画面清明亮堂且均匀。
合成驱逐中,两位东谈主物在高角度俯拍构图下保执了较高的东谈主脸一样度,自拍魄力设备,布景干净,合座后果进展精真金不怕火。

▲Qwen-Image-Edit-2511生成后果图
案例3:软光LoRA与镜头阻挡(光照重构与视角操作测试)
对上传的室内家居图进行再行打光,加入柔软清明、侧面光照后果,隆起空间质感,合座清明要当然不外曝。

▲参考图
在该任务中,该模子告捷完成柔光再行照明,侧光端倪当然,合座清明阻挡踏实。

▲Qwen-Image-Edit-2511生成后果图
将镜头移至桌面特写
生成驱逐中,镜头如实发生变化,但桌面羊毫数目与竹帛绽开情景与原图存在偏差,结构并不够严格。

▲Qwen-Image-Edit-2511生成后果图
将镜头向左旋转60度
该教唆未能被有用实施,画面视角未出现较着旋振荡化,该模子在精准镜头阻挡方面仍有限度。

▲Qwen-Image-Edit-2511生成后果图
案例4:材质替换(工业蓄意场景测试)
将产品图片中桌面与椅子的木质纹理替换为另一张图中的淡色松木柴质,保执结构不变,仅替换材质贴图。

▲参考图
生成驱逐中,桌椅合座结构保执踏实,木质纹理替换当然贴合,不雅感融合。

▲Qwen-Image-Edit-2511生成后果图
案例5:翰墨渲染与魄力交融(中英文翰墨测试)
生成竖版3:4画面比例的“真东谈主与其对应卡通壁画合影”场景图像:将上传的的确东谈主物像片以原样保留服装、发型、妆容置于画面左侧/前线,颐养东谈主物的动作和拍摄视角,以确保画面妥洽。在真东谈主背后墙面画图1:1对应卡通壁画,厚涂质感且罗致动漫魄力大眼、柔软轮廓五官,完好意思复刻发型、服装及配饰细节如耳饰、项链等,颜色富余度高并带有涂鸦式笔触后果。墙面添加彩色涂鸦爱心、笑貌图案元素,大地点缀飞溅边幅装潢细节,壁画区域融入如“2026新年雀跃”的中翰墨元素,字体魄力契合涂鸦好意思学。确保真东谈主与壁画比例、角度当然连结,光照所在融合得当场景逻辑,保执合座颜色魄力一致呈现活泼、连贯且视觉妥洽后果。

▲参考图
生成驱逐中,真东谈主与卡通壁画在魄力和镜头方进取连结当然,中语翰墨“2026新年雀跃”渲染明晰。

▲Qwen-Image-Edit-2511生成后果图
然后,把翰墨部分换成如“Merry Christmas”的英文元素和“圣诞雀跃”的中翰墨元素中英文搀和的翰墨。
在中英文混面子景下,模子依然冒失正确生成翰墨内容,魄力与画面保执一致,翰墨渲染踏实,未出现较着错字。

▲Qwen-Image-Edit-2511生成后果图
案例6:几何推理(援救构造才智测试)
过A作$DE$的垂线,蔓延$ED$交于G。

▲参考图(左)与Qwen-Image-Edit-2511生成后果图(右)
该任务中模子生成的几何相关存在较着失误,垂线与交点位置不得当条目,其几何推理才智尚不及以复古严谨的数学或工程制图任务。
三、内置LoRA模子增强实用性,障翳光照、视角与工业材质替换在Qwen-Image-Edit-2511中,官方初次将部分社区高频使用的LoRA子模子平直内置于基础模子中,用户无需加载终点权重即可调用对应才智。这一机制权贵缩小了LoRA功能的使用门槛,也晋升了模子在专科利用场景下的实用性。
举例,在图像风作风控任务中,用户可通过光照增强LoRA阻挡当然清明的角度、强度与所在,生成具有的确光影端倪的画面后果。现时版块已可完结“柔光—侧光”等典型照明魄力的生成。

在视角调控方面,用户还可调用新视角LoRA,平直以吞并主体为基准生成不同拍摄角度下的图像,可减少访佛拍摄与东谈主工颐养角度所需本钱。

此外,在工业蓄意任务中,LoRA机制也可被用于批量图像生成、元素点窜与材质替换经过中。这类才智已初步具备在产品草图阶段进行测试的后劲。

详尽来看,内置LoRA的集成蓄意晋升了Qwen-Image-Edit-2511在具体任务中的可用性,尤其在光照阻挡、材质替换、多视角生成等高频需求中展现出更高的商用适配性,为蓄意、营销、内容生成等场景提供了更低本钱的图像处分决策。
结语:国产开源模子朝商用化迈进了一步详尽来看,Qwen-Image-Edit-2511在东谈主物一致性、多东谈主物合成与LoRA魄力阻挡方面展现出踏实进展,实用性比前一版块有较着进步。关于需要连贯变装形象输出、阻挡局部魄力迁徙、进行材质替换等图像生成任务的用户来说,它还是具备一定的落地才智。
不外,在镜头变换、构图颐养、几何推理等波及空间意会与强逻辑实施的任务中,模子仍存在踏实性与精度上的短板,与现时顶尖的多模态生成模子比拟,仍有一定差距。
当作一款面向开源社区的图像剪辑模子,Qwen-Image-Edit-2511正将模子才智朝向可控性与商用型场景聚焦,这也为国内开源阶梯提供了一个新的样本。