肖飒团队 | 当用户隐私成为大模型训练的工具……

7月21日消息,有网友在社交平台发文称“WPS改版了用我们的文章喂给 AI 了”“WPS 疑似把我的审签内容喂给抖音豆包 AI”。对此WPS回应称,严格排查及用户沟通后,发现用户反馈WPS AI相关问题完全失实。对于用户反馈的具体问题,WPS AI与豆包在AI层面目前并未开展任何形式的合作,不存在文档被用作AI训练的情况。

某办公软件私自将用户编写的文档内容作为AI大模型的训练数据?这个“魔幻”的新闻最近火了。起因是近期有多名用户在社交平台上发帖称某办公软件疑似将用户编写的文档共享给国内著名AIGC平台“某包”用于训练大模型,部分用户称他们利用该办公软件“码字”撰写网络小说,编写的内容尚未在网文平台上发布,但是在“某包”AIGC平台上提问相关网络小说的内容,却可以完整呈现出作者仅保存在自己的电脑中的尚未发布的情节。

就在前天(7月21日),涉事的该办公软件公司在微博上发布辟谣公告,公告称该公司旗下产品严格遵守个人信息保护的相关法律法规,采取严格的安全保护措施,防止用户遭到未经授权的泄露。该涉事公司还强调所有用户的文档不会被任何第三方用于AI训练,且涉事公司旗下的办公软件也未和“某包”大模型平台开展任何形式的合作,不存在文档被用作AI训练的情况。

事情至此变得扑朔迷离,一方面用户称“某包”大模型平台输出了用户严格保密的只保存在自己电脑中的文档内容,另一方面涉事用户所用某办公软件发布公告其从未与“某包”大模型平台展开任何形式的合作,也不会将用户输入的内容用于AI训练。那么该种情况下究竟是哪个环节出了问题?泄露用户内容者又会承担怎样的责任?

泄露用户内容出事环节在哪里?

分析“出事”的环节势必要基于两种假设:第一,“某包”大模型平台的确输出了用户编写的文档的内容而非仅仅是输出的内容的情节与用户保存的文档内容类似。就目前透露的信息看,在网络爆料的用户目前主要是网络小说作家,其给出的证据亦是“某包”大模型平台输出了大量的他们还未上传到网络上的内容。由于目前透露的信息有限,我们不能排除实际上“某包”大模型反馈的内容仅是情节类似而非内容文字一模一样。如果仅是情节类似,那么网络上爆出的大模型输出了用户尚未上传到网络上的内容显然有失偏颇。如果是输出的内容有着大量的雷同,大段的文字都一模一样,那么便有很大概率认定该涉事大模型平台确实将用户尚未上传到网络的内容作为训练数据加以吸收。第二,涉事办公软件平台并未主动将用户文档泄露给“某包”大模型平台。

如果以上两个假设均成立,那么问题就很可能出在输入法或云端服务器。

01输入法的问题

第一个可能的“出事”环节很可能在输入法上。目前绝大部分主流输入法在其隐私协议中就写明在特定条件下会收集用户输入的文本内容信息。如“某狗输入法”的《个人信息保护政策》中明确写明:“在您使用快捷翻译功能、云输入及联想功能、智能回复功能、搜索候选功能时,您需要向我们提供您输入的部分文本信息,以便我们为您提供更方便、快捷的输入服务。②当您使用剪贴板功能时,我们会在本地读取您的剪贴板内容,以便将您复制的内容快速粘贴上屏,提高您的输入效率。剪贴板内容不会上传到云端。”

除“某狗”输入法外,某度输入法也有类似的条款,其规定选择参与用户体验计划即表示授权某度输入法收集用户使用某度收入法的过程中的操作日志信息。某Q输入法表示用户体验改进计划“会对使用某Q输入法期间提供的数据进行分析,用于功能界面设计等的优化改进,勾选即授权搜集使用某Q输入法期间的相关数据。”

换言之,输入法很可能将用户输入的内容上传至云端,而大模型平台则通过某种方式将输入法收集的用户输入的内容作为训练数据加以训练。

02云端服务器的问题

第二个可能“出事”的环节则在云端部署的安全策略上。涉事的某办公软件允许用户编写的文档保存在云端。这种机制是方便用户在各种不同的设备上编辑文档,但云端保存文档有可能存在信息泄露的风险,如果云端部署的安全策略存在问题,那么很可能保存在其中的用户文档内容就会被抓取进而成为训练数据。

未经用户同意投喂可能出现什么问题?

这里包含了两个问题,其一是大模型平台未经权利人同意,直接利用权利人的相关信息(如权利人的文学作品/用户在大模型平台中输入的内容)作为训练数据的法律风险,其二是信息收集方通过合法手段收集的信息(如输入法在其隐私协议中披露的收集用户输入的内容)转让给第三方(在此情景下是大模型平台)的法律风险。

01输出端的法律风险

我们先讨论第一种风险,对于AIGC技术而言,其必须以数据作为基础和“养料”,输入的数据量越多、数据类型越丰富,其所训练出的模型就越强大越可靠。因此,为了得到这样更强大更可靠的模型,企业往往不得不抓取大量的数据用于训练,这种行为就极其容易侵犯他人著作权。此外,在最后的作品生成阶段,其生成的作品还可能直接涉嫌侵犯著作权,典型的情况便是通过输入某些知名IP生成相关作品,其在企业没有获得授权的情况下,当然属于侵权行为。在目前我国的著作权法框架之下,未经权利人同意,直接利用权利人的相关信息作为训练数据也不能认定构成合理使用。简言之,第一种情况很有可能构成著作权侵权。

02输入端的法律风险

在涉及第二种情况时问题就变得复杂了起来。首先,如果信息收集方收集的信息中包含个人信息,信息收集方就需要在其隐私协议中完整列明如何共享、转让以及披露个人信息,并按照隐私协议的相关内容转让个人信息。如“某狗输入法”在其隐私政策中就写明了“原则上,我们不会将您的个人信息控制权向第三方转让,但本政策第1.5条约定的情形除外。请您知悉:如具备上述事由确需转让,我们将在转让前向您告知转让信息的目的、类型、信息受让方,并在征得您同意后再转让,但法律法规另有规定的除外。”

如果信息收集方未按照隐私协议中的规定将个人信息转让给第三方,那么就是典型的侵害个人信息的行为。

其次,如果信息收集方收集的内容不包括个人信息、隐私信息等内容,那么信息收集方可以通过合法的形式将其转换为商业语料并转让给大模型平台。在这个过程中,目前尚处在征求意见阶段的《生成式人工智能服务 安全基本要求》中规定了使用自采预料应具有采集记录,不应采集他人已明确声明不可采集的语料,换言之如果他人在事前已经明确要求不可采集的语料(包括Robots协议中的不可采集声明)。换言之,如果被采集人未声明不可采集其语料,那么信息收集方完全可以收集相应的语料资源并转让给大模型平台。大模型平台在交易方能够提供语料合法性证明的前提下,就可以签署交易合同、合作协议购买该语料。

写在最后

毫无疑问对于AIGC技术而言,其必须以数据作为基础和“养料”,输入的数据量越多、数据类型越丰富,其所训练出的模型就越强大越可靠。目前我国AIGC发展的一大困难点位就在于缺乏训练精良完备的大语言模型。也正因如此,部分AIGC从业者为了尽可能多的获得训练数据可谓上天入地无所不能,飒姐团队在此也要提醒各位从业者在获取训练语料时务必注意合规。

来源:肖飒Lawyer

编辑:Sharon