开yun体育网让它先生成一张北极熊喝可乐的相片-开云(中国)kaiyun网页版登录入口
一上手就令网友直呼「生图智商」比 GPT-4o 更强?!
就在昨夜,阿里带着全新多模态模子 Qwen-VLo开启炸场模式。
据先容,Qwen-VLo 在阿里原有的多模态领会和生成智商上进行了全面升级,具备三大亮点:
具有增强的细节捕捉智商,能在系数生成经过中保握高度语义一致性;
一个辅导即可已矣图像剪辑,包括作风替换、素材增删、添加笔墨等等;
复古中英等多话语,全球用户使用更便捷。
况兼岂论是输入端如故输出端,Qwen-VLo 王人复古任性辩认率和长宽比,不受固定时势的闭幕。
同期在官方释出的 demo 中,除了那些 GPT-4o 依然有的玩法(如一语气生成、吉卜力作风、添加笔墨),它还复古一些脑洞掀开的 idea。
前者无需多言,它当今也能像"一语气剧"一样生成多样精确适应辅导的图片:
至于后者,比如我们像在超市选购日用品一样,让 Qwen-VLo 生成一张"沉迷用品王人在购物篮里"的图片。
闭幕啪的一下,还真立马完成装货了 ( ⊙ ˍ ⊙ ) :
不是莫得一些小罪戾,但有一说一,其"领会"智商确乎比之前更强。
官方先容,这种领会智商不啻体当今图像生成上,还包括对图像的识别证据。
比如完成生图任务后,再让它先容一下图中小猫小狗的品种(正确识别为虎斑猫和比格):
况兼和以往模子稍显不同的是,Qwen-VLo 还可以对现存信息进行注目(如检测、分割等)。
下图中,它收效劳红色 Mask 分割出了香蕉的旯旮。
……
面前模子东谈主东谈主免费可玩(现时为预览版),具体请认准 Qwen3-235B-A22B,径直在首页输入框提需求就行。
话未几说,我们先通盘来上手实测一波走起。
Qwen-VLo,你到底有多能剪辑?
笔据 Qwen 先容的亮点,即"强细节捕捉"和"一句话剪辑图像",我们防护在测试中覆按了 Qwen-VLo 的多样剪辑智商。
毕竟这点果然很眩惑东谈主啊!
一方面简直通盘的模子生图王人需要抽卡,但前一次的生成效果并非让东谈主齐备不昂然,是以二次 / 屡次剪辑智商绝顶迫切。
另一方面,强剪辑智商,果然给 P 图废材省不少事儿……
开胃小菜先走起!
第一测,让它先生成一张北极熊喝可乐的相片。
这一趟合主打的瑕瑜现实作风。
在此基础上,持续通过对话将可乐换成牛奶。
一次收效,Qwen-VLo 确乎完成了替换。
且布景、北极熊本熊王人简直没被乱改。
但非要挑挑瑕疵的话,如故能不雅察出来,前后两张图中北极熊的眉眼部分和毛发质感略略有那么一丁点不一样。
第二测,先让它帮衬生成一张小鸟的相片。
这一趟合主打的是现实影相作风。
然后无须读霍格沃茨,只需一句"把图中的这只鸟换成鸽子",你就能阐扬魔法:
但我们尝试玩儿个"蒜鸟"的梗,Qwen-VLo 就没 get 到。
(注:"蒜鸟"一词是近期爆梗。短视频画外音中的武汉方言"算了算了,王人退却易",被网友谐音称"算鸟",其后演造成"蒜鸟")
不外,天然没 get 到梗,Qwen-VLo 如故奋发想完成剪辑任务。
看下图效率,在不更正其它元素的基础上,Qwen-VLo 给我们把图中的鸽子换成了别的鸟。
也算是一种换鸟了?
第三测,来个多要津任务,全地点测试 Qwen-VLo "描摹"天下的同期,要点考验下它在图像上的文本剪辑智商。
经过是「让 Qwen-VLo 生成草图——上色——加字——剪辑汉字」。
来,怕动图滑太快,我们连看经过中按序截取的四张图,感受它每一步带来的更正:
天然图里小帅同学的五官在变,但东谈主物主体雄厚,布景没变,一整套下来,剪辑汉字的任务算是搞得可以,
最其后个附加题,剪辑英文——
字剪辑对了,多东谈主物主体位置没变,布景依旧,总体没错。
但如你所见,小帅同学也长得相失色漫风了(手动笑死)。
一样是渐渐展示,但 Qwen-VLo 这背后真有活
这里我们张开补充少许,人人上手玩儿的时代应该王人能翔实到。
那便是 Qwen-VLo 生成图像的经过,是酱婶儿的——
是不是有点老到的滋味?
没错,GPT-4o 亦然从上到下逐块生成图像的:先通晓恶浊概括,再渐渐填充细节。
不外那时港汉文商议逆向工程商议发现,用户看到的逐行渲染效果仅仅 OpenAI 的障眼法,不是果然由上至下逐像素生成。
这样作念的标的,既称心用户对"及时生成"的脸色预期,又幸免了委果逐行渲染的技巧职守。
但 Qwen 这样作念就不是演出 OpenAI 的戏码了。
敲敲黑板——
最初,Qwen 官方示意 Qwen-VLo 的这种渐进式生成样子,不仅是从上到下,如故从左至右渐渐明晰地构建整幅图片。
我们屡次实测,暂时莫得肉眼不雅察到"从左至右"的前端效果。
但从上到下逐渐组成相片的前端效果是保准会有的:
其次,Qwen 引入这个时势,它是真 · 灵验啊:
在生成经过中,模子会对估量的执行不断退换和优化,从而确保最终闭幕愈加融合一致。
这种生成机制不仅普及了视觉效果,生成效率,还独特适用于需要邃密畛域的长段落笔墨生成任务。
举例,在生成带有大批文本的告白打算或漫画分镜时,Qwen-VLo 会渐渐生成,迟缓修改。
这个生成经过,其实有点念念维链"一步一步迟缓想"具像化的根由了!
网友实测脑通达很大,来吧展示
除了以上量子位实测,诸多网友也火速孝顺了一波根由根由玩法…
顺手一张动漫变装草图, Qwen-VLo 便能帮衬一键上色。
让小猫担任宣传员,还能径直生成带有" Qwen Chat "字样的看板。
随机也可以模仿底下网友的作念法,以后用来制作一些梗图(doge)。
趁机一提,连 Qwen 团队成员之一 Binyuan Hui 也出来给人人打样,共享了吉卜力作风的某近日顶流。
好了,更多例子就不逐一展示了,只说一句:
面前模子免费开放,驳斥区可带图,记赢得来共享一波~
在线体验:
https://chat.qwen.ai/
博客:
https://qwenlm.github.io/blog/Qwen-VLoo/
参考一语气:
[ 1 ] https://x.com/Alibaba_Qwen/status/1938604105909600466
[ 2 ] https://x.com/szkane/status/1938614382369575048
[ 3 ] https://x.com/huybery/status/1938639781988286957
一键三连「点赞」「转发」「贯注心」
接待在驳斥区留住你的主义!
— 完 —
� � 量子位 AI 主题磋议正在征聚拢!接待参与专题365 行 AI 落地决策,一千零一个 AI 欺诈,或与我们共享你在寻找的 AI 家具,或发现的AI 新动向。
� � 也接待你加入量子位逐日 AI 调换群,通盘来畅聊 AI 吧~
一键注重 � � 点亮星标
科技前沿发扬逐日见开yun体育网