大量AI应用正在共享你的数据
发布时间:2023-07-03 14:16:31 所属栏目:动态 来源:
导读:如今距离OpenAI第一次将ChatGPT带给大众用户已经过去了半年之久,但毕竟再好的东西都有“保质期”,所以随着时间的推移,大众围绕AI大模型的狂热也逐渐褪去、其暗面也开始被大量讨论。且不提早已被摆在台面
如今距离OpenAI第一次将ChatGPT带给大众用户已经过去了半年之久,但毕竟再好的东西都有“保质期”,所以随着时间的推移,大众围绕AI大模型的狂热也逐渐褪去、其暗面也开始被大量讨论。且不提早已被摆在台面上的AI大模型生成内容可能存在版权风险,以及AI的伦理道德等过于虚无缥缈的话题,仅仅就其窃取用户隐私这个问题,就足以让外界对大模型提起十二万分的注意了。 除此之外,Google Assistant与第三方共享了超过35.71%的用户数据,语言教育应用Duolingo、图像生成应用AI Arta和DaVinci,以及AI医疗应用K Health则分别与第三方共享了多达28.57%的用户数据。根据Home Security Heroes方面的说法,从整体来看,有54%的AI应用会跟踪用户数据。 毫无疑问,这样的一组数字是相当惊人的,毕竟App Store应该是目前对应用审核最为严格的应用商店,而苹果也是当下对用户隐私保护力度最强的消费电子企业。因此也可想而知,在Android生态中,AI应用窃取用户数据的情况大概率只会更加严重。 传统搭建AI模型的方法主要是聚焦迭代模型,数据也相对固定,通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。但这一模式的缺陷也非常突出,准确率高的模型只能确保“拟合”数据,并不一定意味着实际应用中会有很好的表现,如今也已经被边缘化,目前用更大规模和更高质量的数据来训练AI,则成为了主流。 以OpenAI的GPT模型为例,从GPT-1到ChatGPT、再到GPT-4,所用的训练数据大体经历了以下变化,小数据规模数据——大规模数据——更大规模、更高质量的数据——大规模的人类标注的高质量数据。毕竟所谓语言模型的训练和学习,就是从大量的数据中学习复杂的上下文联系。 出于对数据的渴求,以及数据本身的价格原因,AI应用的开发者自然就有了强烈的从应用内收集用户数据、并分享给第三方的动力。对于当下的绝大多数AI应用而言,变卖数据或许是它们现阶段所能找到、最具可行性的挣钱方式。而且当前会去下载 AI APP的用户,基本都是那些对 AI感兴趣的人群,如何让这个群体的价值变得更大,很显然开发者就没有理由不去动脑筋。 事实上,肆意挖掘用户隐私现象的泛滥,对于尚且稚嫩的AI生态本身而言有着极大的伤害,因此有识之士也纷纷站出来疾呼。谷歌DeepMind的首席商务官Colin Murdoch就表示,督促AI开发者专注于构建一个“强大而负责任”的社群。只不过要遏制AI应用开发者违规挖掘用户资料,还得需要AppStore加强审核。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐