CASE
bob电竞官网登录
成长的旅程中,见证每一刻精彩……
Witness every monent exciting journey of growing……

bob电竞官网登录:美国媒体揭开大模型阴暗面:练习用的数据或许有点脏

发布时间:2023-04-21 02:01:49 来源:BOB体育电竞入口 作者:bob体育官方入口注册

  在机器学习范畴,数据污染并不是一个新名词,但大模型吞吐的数据量之大,令这个问题存在倍增的忧虑。

  财联社4月20日讯(修改 史正丞)在曩昔半年不到的时间里,许多地球上的人类现已接触到AI谈天机器人的魅力和法力。但归根到底,现在并没有AI现已发生像人类相同的自我意识,它们可以仿照人类说话,首要原因是算法“吸收”了很多的文本——大部分是从互联网上抓取的。

  互联网上蕴含着很多有用、有利的经历和常识,但数字年代的网民们也不得不供认,在烟波浩渺的互联网信息丛林中,也蕴含着很多成见、轻视、有害,以及侵略声誉和隐私的内容。种种痕迹显现,这些“人类的忌讳常识”也被大模型照单全收了。

  当地时间周三,《》宣布了与艾伦人工智能研讨院协作进行的查询结果,他们拆解了谷歌的C4数据集,这也是许多出名英语AI大模型的练习资料,例如谷歌的T5和Facebook的LLaMA。我国投资者更重视的OpenAI并没有发布练习ChatGPT所用的数据集,所以这也是现在窥得AI数据黑箱的最便当解决方案。

  值得一提的是,查询人员使用了SimilarWeb的网站分类数据,由于C4数据会集有三分之一的网站现已不存在这个国际上了,所以实践计算的数据大约为1000万个网站。

  依据研讨,包括全球专利信息的谷歌专利网、和订阅制数字图书馆scribd的资料权重位列整个数据集前三。但随着列表往下翻,一系列意想不到的姓名开端呈现。

  此外,《魔兽国际》玩家论坛wowhead也高居第181位,《赫芬顿邮报》创始人阿里安娜·赫芬顿办的行为改变课程网站thriveglobal也位居175位。令人意外的是,有两个美国投票人数据库网站也位列前100位。尽管投票人的数据自身是揭露的,但大模型或许会把这些个人数据用在哪里,又有谁能说清楚呢?

  接下来的数据则显现,AI大模型潜在的侵权问题,或许要比幻想中愈加严峻。商业和职业网站是数据会集比重最大的分类,构思产品众筹网站kickstarter(25位)也呈现在榜单里十分高的方位。这儿就引出了一个新的问题,AI向用户供给的许多构思和市场营销答案,很有或许自身便是现成的著作。

  研讨人员也发现,超越50万的个人博客被录入进C4练习会集,这些作者明显没有因而得到过任何酬劳。

  作为AI练习的“富矿”,每天都很多生产通过审校内容的媒体也是练习集的独爱,、洛杉矶时报、卫报、福布斯和赫芬顿邮报均挤进数据库比重前十。与许多艺术家相同,不少媒体现在也在向AI工业声索维权。由于美国媒体职业的复杂性,所以练习会集也能找到以极右翼、白人至上主义内容为主基调的网站。

  事实上,谷歌在构建数据库的时分,现已意识到网络信息污染的问题,所以除了删去毫无意义和重复的句子外,特意用开源的“脏话过滤器”筛过一遍,但好像有数量十分巨大的漏网之鱼钻了曩昔。研讨人员就在练习会集找到至少7.2万个德国纳粹的标志性符号。

  更令人忧虑的是,练习会集也能找到宣传种族主义、极右翼阴谋论(QAnon)的网页,而以组织网络暴力出名的4Chan匿名谈天网站也呈现在练习会集。

  尽管C4练习集的数据现已十分巨大,但用于练习OpenAI GPT-3的网络爬虫数据集,从一开端就要比C4大40倍,背面的问题天然也会被同步扩大。

  但在GPT-3的论文中,OpenAI也揭露评论了一个细节:在避免测试数据被放进练习数据导致污染的过程中发现了一个BUG,但由于从头练习模型太贵、公司又没钱,所这个问题就放着不去管它了。

  一些业内人士也泄漏,许多科技公司在内部都不会记载练习数据的来历,由于忧虑会发现个人信息数据,以及未经授权的资料或其他数据。

更多 179