让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

AI画不出的左手, 是因为咱们给了它一个偏科的童年。
你的位置:音程科技有限公司 > 日本三级片免费 > AI画不出的左手, 是因为咱们给了它一个偏科的童年。
AI画不出的左手, 是因为咱们给了它一个偏科的童年。
发布日期:2025-12-14 15:01    点击次数:143

是我热情的一个博主,Howie.Serious发的。

他发了一个很说念理的点,即是即使是寰宇受骗今最过劲的NanoBananaPro,谢寰宇常识如斯屌爆的情况下,AI,照旧莫得目的生成左手写字的图片。

这事非常挑升念念。

我立马用Gemini上的NanoBananPro试了下。

竟然翻车了,而且悲伤常老成的翻车。

我又径直用Lovart跑了十几种张图,只对了2次,其他的,全错。

我又去试了其他的大模子,包括chatgpt、seedream,grok,也在这个小小的领导词上遏渐防萌。

刷刷刷给我生成了一堆右手,让我皆有点杂沓词语了,我那刹那间皆在怀疑是不是我我方分不清傍边了。。。

我又尝试了一些进阶版。

比如,右手拿着苹果左手写字。

这个照旧相称明确了吧,我照旧给他作念截至了。

照旧会生成右手写字左手拿苹果的图。。。

GPT径直给我玩鬼畜了。

甭管是谁,就算是蜘蛛侠来了也没用,也得用右手。。。

相称的倔强。。。

在有趣之下,我又试了一些其他的case。

比如,让一个东说念主左手拿着橘子右手拿着苹果。

翻车。

穿个不同颜料的写字,翻车。。。

左手举起魔法棒,翻车。

左手拎着一只鸡,右手拎着大高达,翻车。

十足翻车,翻了个大车。

至此,照实发现,AI完全分不清傍边手和傍边脚。

然而,若是你让他去地说念的画空间关连,照实是没啥问题。

但只消一触及到左手左脚,就径直原地爆炸。

这个话题太挑升念念了。

我相称有趣的想知说念,到底是为什么?

在DeepReasearch之后,还真找到了一个蛮说念理的可以发挥这个事的论文,叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》,华文名翻译过来是,表象空间的偏差,会约束文生图模子的泛化。

而这个影响的中枢,其实即是偏见。

跟我之前写过的一篇很像。

那篇著作,聊的是视觉模子,介意会的时候,分不清图中的东说念主有几根手指。

而此次,是在生成的时候,分不清傍边。

其实试验的逻辑皆是相似的,即是因为数据集的偏见。

这篇论文,玩忽即是一句话:

AI之是以分不清傍边,不是因为它逻辑不行,而是因为它的教练,也即是咱们投喂给它的海量图片数据,本人就存在雄伟的压倒性的偏见。

他们作念了一个实验。

干的第一件事,是把一张图给拆解成filler和role两种身分,你可以把它们意会为,主体和关连。

拿猫追老鼠的图来例如,主体即是猫和老鼠,而关连即是,谁是追的那一方,谁是被追的那一方。

细则好这两种身分之后,他们找来了几十个小图标。

两两图标分为一组,轨则好它们的主体和关连,用Unicode字符画在 32×32 的小方块里。

所有这个词的画面,只干一件事:

两个东西,高下叠放。

比如,把名为蛋糕和橡皮的小图标放在并吞张图上,上头是蛋糕的图标,底下是橡皮的图标。

然后附上一句话,这张图是一个蛋糕在一个橡皮上头。

依此类推,就有了一堆测试图片加一堆文本。

然后,他们又分了一些数据集。

有些考研集里,每个物体皆当过上头的、也当过底下的。

有些考研集里,猫可能简直长久在上头,狗也可能简直长久不才面。

还有些考研集,更狠少许,某些物体从来没当过上头,只当过底下。

接着,他们把这些图片和笔墨打包成数据集丢给模子去考研,看它学了这些东西之后,能弗成意会高下位置关连。

按照咱们对模子考研的通例意会呢,这件事儿的关节在于,样本量要够大。

只消数据限制够大,智能就会当然长出来,对吧?

然而他们的实验数据发现,其实,完全不是这么的。

决定模子能弗成举一反三的,其实看的不是数据的数目,看的是,数据何如漫衍。

他们有界说了两个斟酌,一个叫Completeness(完竣性),即是每种东西,是否皆至少在每个位置上出现过一次。

举个例子,圆在上、三角不才是一种组合,圆不才、三角在上是另一种组合,这两种情况皆要在数据里出现过,完竣度能力算是合格。

但只消完竣度还不够,还得看另一个斟酌,叫Balance(均衡性),对,即是舞蹈内部的阿谁Balance。

它其实指的即是,不同组合出当今数据中的具体比例。

只消圆在上和三角在上这两种情况,在数据里的漫衍情况大差不差时,均衡度才过关。

反之,若是九张图皆是圆在上,只消一张图是三角在上,对模子来说,即是均衡度极差、寰宇不雅非常歪斜的情况了。

这么一来,模子就会自然的把圆在上这件事当成一个真谛。

只消当一个考研集里,不同的摆设组合皆出现过,况兼每种组合在上不才的情况皆出现得差未几时,模子才会开窍:

原本谁在上谁不才不是恒定的,是可以互攻的。

哦说错了,是可以互换的。。。

那一刻,模子才是真的掌合手了高下的位置关连,而不是死记硬背几种固定搭配。

右边的表格里,两个CPL代表完竣度,也即是圆和三角在上的情况是不是皆出现了,BLC代表均衡度,也即是圆和三角在上的情况漫衍是否均匀。

左边的纵轴是模子测试的准确性。

你会发现,当完竣度和均衡度皆是百分百的时候,模子测试的正确率简直亦然百分百,也即是蓝色的散点。

而当完竣度和均衡度越来越差的时候,模子正确率也会不停下降,到了完竣度和均衡度最低的灰色散点这里,准确率就没上过百分之四十。

论文后半段,他们还作念了一个和现实寰宇更接近的实验,用的是一个叫what’sup的基准数据集,内部皆是当然图片,专门用来描绘两个物体的位置关连。

然后,在这个数据集内部抽取子集。

有的子集完竣度和均衡度皆很高,有的相悖。

接着,他们让模子去生成数据集里莫得的物品傍边关连图片。

获取的效果相称老成:

视觉这边的完竣度和均衡度,一朝掉下去,测试集的准确率就全部随着往下掉,有的组合致使长久破损不了50%。

更经典的是最常见的一类流弊:

两个物体皆画对了,但礼貌反了。

你让它画盘子在罐头左边,它给你的图看起来很配合,但仔细一看,形成了,可乐罐在盘子左边。

这个流弊就相称合适我今天在傍边手的case中测试出来的效果。。。

是以当今可以给AI分不清傍边这件事,初步给一个发挥:

AI不是分不清左边右边,而是在它受过的童年教化里,表象空间本来即是偏的。

就比如写字这个案例,因为现实寰宇里,写字的大部分东说念主即是右撇子。

图像网站的标注里,“writing”“student writing notes”这些tag背后,也简直清一色是右手写字。

当一个模子在海量图像上长大,它看到的写字简直等价于右手写字。

是以当你说左手写字的时候,它脑子里的激活阵势是这么的:

“写字?写字这事我懂啊,写字不即是等于一个东说念主 + 一册簿子 + 一只手拿笔吗,啥玩意?你要左手写字?你有毒吧,这个寰宇还有东说念主用左手写字?我就没见过。”

然后,啪的一下,给你画了个右手写字。

其实有点像一个顶点偏科的学生。

他作念了十万说念“2+3=5”这么的题,然而从来没见过“3+2=5”。

是以,当你你问他“3+2等于几”,他径直就宕机了。

左手写字,即是3+2那一侧的寰宇。

其他的失败的case其实也差未几。

固然,这也不怪AI,因为它的观点即是咱们给的。

若是考研集里,左撇子的思路本来就少,模子学不出来,是不是应该怪模子?

照旧咱们,根蒂就没把这个寰宇里那些少数者的表象,负责地网罗进去?

以前我作念用户盘考的时候,其实最怕的,即是招样本招得不均匀。

比如你明明是个普适性的APP,然而只找一线城市上班族深度访谈,固然得不出老东说念主何如用你的APP的这个效果。

只看IOS用户的数据,固然也看不到千元安卓机上的使用体验。

只作念所谓的可用性测试,伪善地去作念野外调研,就根蒂不可能看到用户在真实场景中的那些小手脚、小跑神、小偷懒。

AI一直在师法的,其实即是咱们我方的偏见。

咱们的大限制图像语料,是畴前几十年的东说念主类影相民俗和文化民俗的快照。

若是这个寰宇90%的东说念主皆是右撇子,影相师拍照的时候又可爱把笔、杯子、说念具放在某个视角更舒适的位置,那模子看到的寰宇,就会是一块雄伟的统计偏差。

若是用一句很正确的话来说。

即是,咱们根蒂没给模子一个公说念的童年。

但反过来,咱们若是看我方呢?

简略,咱们本人,也会被各式各类的考研集规训。

奏效的意见是有房有车财务目田,东说念主生的捷径是考功上岸。

咱们和AI的分离只不外在于,AI是用几百亿张图、几万亿 token,赶快堆叠起来一个模子的造作。

而东说念主类是用几十年的生计和训戒麇集,迟缓走到一条我方不那么想走的歧路上。

东说念主类和AI,当今简略,皆无法看到我方默契除外的东西。

若是说本事的发展会逼着AI公司们,去重新预备阿谁属于AI的考研集,加多它的完竣度和均衡度,让它泛化。

那咱们,是不是也可以,加多一下我方体验的厚度?

当咱们对模子说,你弗成长久只会用右手写字。

你也得试试左手。

那在咱们的生计里,有莫得哪一些左手的可能性,其实一直皆在,但我从来莫得看见过?

我信赖,深信会有的。

以上,既然看到这里了,若是以为可以,顺手点个赞、在看、转发三连吧,若是想第一时候收到推送,也可以给我个星标⭐~谢谢你看我的著作,咱们,下次相遇。

/ 作家:卡兹克、水杉



上一篇:2023长城汽车机灵工场马拉松奖牌、参赛服追究亮相
下一篇:没有了