美国媒体揭开大模型阴暗面：练习用的数据或许有点脏

bob电竞官网登录:美国媒体揭开大模型阴暗面：练习用的数据或许有点脏

发布时间：2023-04-21 02:01:49 来源：BOB体育电竞入口作者：bob体育官方入口注册

　　在机器学习范畴，数据污染并不是一个新名词，但大模型吞吐的数据量之大，令这个问题存在倍增的忧虑。

　　财联社4月20日讯（修改史正丞）在曩昔半年不到的时间里，许多地球上的人类现已接触到AI谈天机器人的魅力和法力。但归根到底，现在并没有AI现已发生像人类相同的自我意识，它们可以仿照人类说话，首要原因是算法“吸收”了很多的文本——大部分是从互联网上抓取的。

　　互联网上蕴含着很多有用、有利的经历和常识，但数字年代的网民们也不得不供认，在烟波浩渺的互联网信息丛林中，也蕴含着很多成见、轻视、有害，以及侵略声誉和隐私的内容。种种痕迹显现，这些“人类的忌讳常识”也被大模型照单全收了。

　　当地时间周三，《》宣布了与艾伦人工智能研讨院协作进行的查询结果，他们拆解了谷歌的C4数据集，这也是许多出名英语AI大模型的练习资料，例如谷歌的T5和Facebook的LLaMA。我国投资者更重视的OpenAI并没有发布练习ChatGPT所用的数据集，所以这也是现在窥得AI数据黑箱的最便当解决方案。

　　值得一提的是，查询人员使用了SimilarWeb的网站分类数据，由于C4数据会集有三分之一的网站现已不存在这个国际上了，所以实践计算的数据大约为1000万个网站。

　　依据研讨，包括全球专利信息的谷歌专利网、和订阅制数字图书馆scribd的资料权重位列整个数据集前三。但随着列表往下翻，一系列意想不到的姓名开端呈现。

　　此外，《魔兽国际》玩家论坛wowhead也高居第181位，《赫芬顿邮报》创始人阿里安娜·赫芬顿办的行为改变课程网站thriveglobal也位居175位。令人意外的是，有两个美国投票人数据库网站也位列前100位。尽管投票人的数据自身是揭露的，但大模型或许会把这些个人数据用在哪里，又有谁能说清楚呢？

　　接下来的数据则显现，AI大模型潜在的侵权问题，或许要比幻想中愈加严峻。商业和职业网站是数据会集比重最大的分类，构思产品众筹网站kickstarter（25位）也呈现在榜单里十分高的方位。这儿就引出了一个新的问题，AI向用户供给的许多构思和市场营销答案，很有或许自身便是现成的著作。

　　研讨人员也发现，超越50万的个人博客被录入进C4练习会集，这些作者明显没有因而得到过任何酬劳。

　　作为AI练习的“富矿”，每天都很多生产通过审校内容的媒体也是练习集的独爱，、洛杉矶时报、卫报、福布斯和赫芬顿邮报均挤进数据库比重前十。与许多艺术家相同，不少媒体现在也在向AI工业声索维权。由于美国媒体职业的复杂性，所以练习会集也能找到以极右翼、白人至上主义内容为主基调的网站。

　　事实上，谷歌在构建数据库的时分，现已意识到网络信息污染的问题，所以除了删去毫无意义和重复的句子外，特意用开源的“脏话过滤器”筛过一遍，但好像有数量十分巨大的漏网之鱼钻了曩昔。研讨人员就在练习会集找到至少7.2万个德国纳粹的标志性符号。

　　更令人忧虑的是，练习会集也能找到宣传种族主义、极右翼阴谋论（QAnon）的网页，而以组织网络暴力出名的4Chan匿名谈天网站也呈现在练习会集。

　　尽管C4练习集的数据现已十分巨大，但用于练习OpenAI GPT-3的网络爬虫数据集，从一开端就要比C4大40倍，背面的问题天然也会被同步扩大。

　　但在GPT-3的论文中，OpenAI也揭露评论了一个细节：在避免测试数据被放进练习数据导致污染的过程中发现了一个BUG，但由于从头练习模型太贵、公司又没钱，所这个问题就放着不去管它了。

　　一些业内人士也泄漏，许多科技公司在内部都不会记载练习数据的来历，由于忧虑会发现个人信息数据，以及未经授权的资料或其他数据。

上一篇:前瞻工业研究院
下一篇:外贸数据亮眼但并不能阐明赋闲状况就得到减缓工作压力仍然巨大

更多 179

网站首页

关于我们

新闻中心

合作案例

联系我们

网站地图

bob电竞官网登录:美国媒体揭开大模型阴暗面：练习用的数据或许有点脏