大量AI应用正在共享你的数据

发布时间：2023-07-03 14:16:31 所属栏目：动态来源：

导读：如今距离OpenAI第一次将ChatGPT带给大众用户已经过去了半年之久，但毕竟再好的东西都有“保质期”，所以随着时间的推移，大众围绕AI大模型的狂热也逐渐褪去、其暗面也开始被大量讨论。且不提早已被摆在台面

如今距离OpenAI第一次将ChatGPT带给大众用户已经过去了半年之久，但毕竟再好的东西都有“保质期”，所以随着时间的推移，大众围绕AI大模型的狂热也逐渐褪去、其暗面也开始被大量讨论。且不提早已被摆在台面上的AI大模型生成内容可能存在版权风险，以及AI的伦理道德等过于虚无缥缈的话题，仅仅就其窃取用户隐私这个问题，就足以让外界对大模型提起十二万分的注意了。

除此之外，Google Assistant与第三方共享了超过35.71%的用户数据，语言教育应用Duolingo、图像生成应用AI Arta和DaVinci，以及AI医疗应用K Health则分别与第三方共享了多达28.57%的用户数据。根据Home Security Heroes方面的说法，从整体来看，有54%的AI应用会跟踪用户数据。

毫无疑问，这样的一组数字是相当惊人的，毕竟App Store应该是目前对应用审核最为严格的应用商店，而苹果也是当下对用户隐私保护力度最强的消费电子企业。因此也可想而知，在Android生态中，AI应用窃取用户数据的情况大概率只会更加严重。

传统搭建AI模型的方法主要是聚焦迭代模型，数据也相对固定，通常会聚焦于几个基准数据集，然后设计各式各样的模型去提高预测准确率。但这一模式的缺陷也非常突出，准确率高的模型只能确保“拟合”数据，并不一定意味着实际应用中会有很好的表现，如今也已经被边缘化，目前用更大规模和更高质量的数据来训练AI，则成为了主流。

以OpenAI的GPT模型为例，从GPT-1到ChatGPT、再到GPT-4，所用的训练数据大体经历了以下变化，小数据规模数据——大规模数据——更大规模、更高质量的数据——大规模的人类标注的高质量数据。毕竟所谓语言模型的训练和学习，就是从大量的数据中学习复杂的上下文联系。

出于对数据的渴求，以及数据本身的价格原因，AI应用的开发者自然就有了强烈的从应用内收集用户数据、并分享给第三方的动力。对于当下的绝大多数AI应用而言，变卖数据或许是它们现阶段所能找到、最具可行性的挣钱方式。而且当前会去下载 AI APP的用户,基本都是那些对 AI感兴趣的人群,如何让这个群体的价值变得更大,很显然开发者就没有理由不去动脑筋。

事实上，肆意挖掘用户隐私现象的泛滥，对于尚且稚嫩的AI生态本身而言有着极大的伤害，因此有识之士也纷纷站出来疾呼。谷歌DeepMind的首席商务官Colin Murdoch就表示，督促AI开发者专注于构建一个“强大而负责任”的社群。只不过要遏制AI应用开发者违规挖掘用户资料,还得需要AppStore加强审核。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!