星空体育app下载:
Sora 2 的与奥特曼对话的音画同步视频生成,还有 Nano Banana Pro 的风格化生图狂欢热潮还没曩昔,多模态 AI 范畴又有重磅更新上场:
阿里的千问 APP 在 12 月初悄然完成了一次要害版别更新,接入国内最强 AI 生视频模型 Wan 2.5,以及全球开源抢先 AI 生图模型的满血版 Qwen-Image 2511,更重要的是,生图功用直接拉满免费不限次,完全下降用户的运用门槛。
在此之前,咱们曾深度测评过 Wan 2.5 的网页版,其时就觉得这模型实用到不像当下 AI 圈的东西:没有追 1 分钟长视频的噱头,也没讲各种用户底子看不懂的参数。就专心一件事:把 10 秒内的音画同步、细节复原做到了极致。
现在它下放到手机端,再配上 Qwen-Image 2511 这张 免主力」一同下放到千问 APP,能够说,这是阿里将 B 端沉积的多模态技能向 C 端场景落地的重要测验。
那么 APP 端视频生成的体会终究是否能像此前网页端相同冷艳?还有,卷了这么多年的图片生成大模型,这次千问+ Qwen-Image 2511 又能带来什么惊喜?
带着两个中心疑问,咱们用一周时刻把这两个功用用到了极致,试图为咱们处理以下问题:
Qwen-Image 2511 是否能实在处理传统 AI 生图的人物崩脸、中文乱码等职业痛点?Wan 2.5 在音画同步、长视频叙事上与世界干流模型的距离是否缩小?免费形式背面,阿里又在构建怎样的 AI 生态闭环?
Wan 2.5背面国产模型的实用主义道路 是谁,信任许多了解过 AI 视频生成的朋友现已对此并不生疏。
暮春午后,石质柱廊弯曲延伸,青灰色石板映着斑斓光影,阶前青草装点,风拂过荀子身着玄色宽袍腰束素带,与身披浅灰亚麻袍、赤足踏石的苏格拉底相对而立。镜头先以全景定格,随即推动至荀子中近景,他广袖一扬,特写中目光如炬,沉凝有力地掷出:「人性本恶!争则乱,乱则穷!」镜头横切至苏格拉底,中近景里他双手天然摊开,指尖轻叩石面,眉宇沉着,温文却带矛头地辩驳:「人性本善,无人有意作恶。」最终镜头从两人面部拉远,回归全景,柱廊光影流通,风拂衣袂,两人敌对的身影在古意场景中定格。
此前在 Wan2.5-Preview 时期,咱们就现已才智到了它在细节复原、气氛打造上的凶猛之处。不过这次,咱们让难度再晋级,从傍晚树林中停止的男生,变成实在杂乱场景中,两个运动中的主角。
先看必答题:女孩的棉麻长裙,袖口卷起的当地有天然的褶皱,不是熨烫平坦的假质感;小鹿的头靠在女孩手臂上时,耳朵会悄悄晃动,不是 焊死在头上;逆光的金色概括光,刚好勾勒在发丝和膀子边际,没有糊成一片。女孩转弯前实在的目光改变,走路时天然飘动的发丝,实在到似乎电影画面。布景虚化后的光斑是圆形斑斓,不是板滞的圆形光斑,这细节现已能吊打不少 老法师了。
这儿的测验,咱们不再选用固定的模版,而是玩了个 脑洞测验:上传一张小猫的相片,让它驮着孙悟空在非洲大草原狂奔。
本来测完视频才能之后,我现已觉得不会有更多超出的惊喜出现了,但万万没想到 Qwen-Image 2511 模型的才能,相同打了我个措手不及。
此外,中文场景下,当时市面上的其他 AI 生图常出现文字乱码、字体错位问题,说白了便是像鬼画符。其间,体现差一点的,完全看不出来文字究竟是什么;体现稍好一点的,也会出现某个字少个偏旁,缺了一横,或许多了一竖。总归,模型对中文语义与排版逻辑的了解一直弱于英文。
产品出现:翻开的狗粮包装袋(通明开窗规划,可见颗粒清楚的狗粮,颗粒呈不规则六边形,色彩为浅棕 + 深棕突变),袋身斜靠在木质托盘上,,标示「无谷配方」「鲜肉含量≥85%」「益生菌增加」中心卖点。辅佐元素为:周围摆放 1 个陶瓷食盆(装粮,少数颗粒散落在食盆边际),1 片新鲜胡萝卜 / 西兰花(照应「天然食材」),1 滴通明鱼油(暗示「美毛护肤」成效)
测验成果为,Qwen-Image 2511 在根底测验中完全规避了文字切断、字体混杂问题,不只完成了海报标题的精准出现,画中画的狗粮包装袋上文字仍然精准出现。此外,画面中胡萝卜的巨细、狗粮的质感,幼犬的形状、狗毛的实在毛绒质感复原也很到位,能够直接用于电子商务平台上架。
此外,更惊喜的是,Qwen-Image 2511 生图时支撑一键调整份额(1:1/2:3/3:4/9:16/4:3/16:9/3:2),无需凭借第三方东西裁剪。此外在后期,Qwen-Image 2511 还支撑部分改字/改色、扩图、修正尺度等等修正,而这对出产级场景来说,很重要:究竟 AI 生图,一次性得到满足成果的概率并不大,往往需求十分精密、杂乱的后期修正。而现在这件工作,已能完全交给 AI,精准修正。