leyu乐鱼全站-并与 Wav2Vec 2.0 模子进行对比
你的位置:leyu乐鱼全站 > leyu乐鱼全站 > 并与 Wav2Vec 2.0 模子进行对比
并与 Wav2Vec 2.0 模子进行对比
发布日期:2022-06-21 08:14    点击次数:110

并与 Wav2Vec 2.0 模子进行对比

说出来你可能不信,有一只 AI 刚刚被解说,处置语音的格式跟大脑谜之相似。

致使在结构上都能相互对应——

科学家们在 AI 身上平直定位出了"视觉皮层"。

这项来自Meta AI等机构的议论还是 po 出,立马在外交媒体上炸开了锅。一大波神经科学家和 AI 议论者前去围观。

LeCun钦慕这是"出色的职责":自监督 Transformer 分层作为与人类听觉皮层作为之间,如实密切联系。

还有网友顺便玩弄:Sorry 马库斯,但 AGI 简直将近来了。

不外,议论也激勉了一些学者的酷爱。

乐鱼体育平台官网客服QQ:865083652

举例麦吉尔大学神经科学博士 Patrick Mineault 提倡疑问:

咱们发表在 NeurIPS 的一篇论文中,也尝试过将 fMRI 数据和模子策划起来,但那时并不以为这俩有啥关系。

是以,这到底是一项何如的议论,它又是怎样得出"这只 AI 干起活来像大脑"的论断的?

AI 学会像人脑相似职责

简便来说,在这项议论中,议论人员聚焦语音处置问题,将自监督模子Wav2Vec 2.0同412 名志愿者的大脑作为进行了比较。

这 412 名志愿者中,有 351 人说英语,28 人说法语,33 人说中语。议论人员给他们听了粗略 1 个小时的有声书,并在此进程顶用 fMRI 对他们的大脑作为进行了纪录。

模子这边,议论人员则用跨越 600 小时的无标签语音来实践 Wav2Vec 2.0。

对应志愿者的母语,模子也分为英语、法语、中语三款,另外还有一款是用非语音声学场景数据集实践的。

尔后这些模子也听了听志愿者同款有声书。议论人员从中索取出了模子的激活。

联系性的评价方法,校服这个公式:

其中,X 为模子激活,Y 为人类大脑作为,W 为方法编码模子。

从效果来看,自监督学习如实让 Wav2Vec 2.0 产生了访佛大脑的语音表征。

从上图中可以看到,在低级和次级听觉皮层,AI 较着量度到了确凿整个皮层区域的大脑作为。

议论人员还进一步发现了 AI 的"听觉皮层"、"前额叶皮层"到底长在哪一层。

图中披露,听觉皮层与 Transformer 的第一层(蓝色)最吻合,而前额叶皮层则与 Transformer 的最深一层(红色)最吻合。

此外,议论人员量化分析了人类感知母语和非母语音素的才气相反,并与 Wav2Vec 2.0 模子进行对比。

他们发现,AI 也像人类相似,对"母语"有更强的分别才气,比如,法语模子就比英语模子更容易感知来自法语的刺激。

上述效果解说了,600 小时的自监督学习,就足以让 Wav2Vec 2.0 学习到语言的特定表征——这与婴儿在学谈话的进程中交往到的"数据量"至极。

要澄澈,之前 DeepSpeech2 论文认为,至少需要10000 小时的语音数据(还得是标记的那种),才气构建一套可以的语音转笔墨(STT)系统。

再次激勉神经科学和 AI 界商榷

电视剧《开端》中的色狼

关于这项议论,有学者认为,它如实做出了一些新冲突。

举例,来自谷歌大脑的 Jesse Engel 称,这项议论将可视化滤波器提高到了一个新的档次。

当今,不仅能看到它们在"像素空间"里长啥样,连它们在"类脑空间"中的相貌也能模拟出来了:

又举例,前 MILA 和谷歌议论员 Joseph Viviano 认为,这个议论还解说了 fMRI 中的静息态(resting-state)成像数据是有兴味的。

但在一派商榷中,也出现了一些质疑的声息。

举例,神经科学博士 Patrick Mineault 除了指出我方做过相似议论但没得出论断外,也给出了我方的一些质疑。

他认为,这篇议论并莫得信得过解说它测量的是"语音处置"的进程。

比拟于人谈话的速率,fMRI 测量信号的速率其实相等慢,因此贸然得出" Wav2vec 2.0 学习到了大脑的行动"的论断是不科学的。

固然,Patrick Mineault 示意我方并非否定议论的倡导,他我方亦然"作家的粉丝之一",但这项议论应该给出一些更有劝服力的数据。

此外也有网友认为,Wav2vec 和人类大脑的输入也不尽相易,一个是经过处置后的波形,但另一个则是原始波形。

对此,作家之一、Meta AI 议论员 Jean-R é mi King 回想:

模拟人类水平的智能,如实还有很长的路要走。但至少当今来看,咱们约略走在了一条正确的路子上。

你认为呢?

论文地址:

https://arxiv.org/abs/2206.01685

参考连气儿:

[ 1 ] https://twitter.com/patrickmineault/status/1533888345683767297

[ 2 ] https://twitter.com/JeanRemiKing/status/1533720262344073218

[ 3 ] https://www.reddit.com/r/singularity/comments/v6bqx8/toward_a_realistic_model_of_speech_processing_in/

[ 4 ] https://twitter.com/ylecun/status/1533792866232934400乐鱼体育平台