快讯 | AI滥用版权内容,英国呼吁放弃版权豁免计划;OpenAI否认ChatGPT侵犯作家版权;

#9.4 AI快讯3则
1.AI滥用版权内容,英国呼吁放弃版权豁免计划
近日,一群英国国会议员日前呼吁政府对人工智能系统执行更明确和更严格的规则,以免一些版权内容被非法利用。
英国文化、媒体和体育委员会(CMSC)8月30日在一份报告中称,为了尽快吸引人工智能企业和技术进入英国,政府提出了一项新的版权法豁免建议。如果该提议被通过,那么受版权保护的艺术和文化内容就将轻易沦落为生成式人工智能的培训资料。
图源 Pexels
CMSC指出,英国政府在监管人工智能的方法上存在明显的漏洞,这项全面豁免提议表明,政府对英国创意产业的需求缺乏了解。
CMSC此时发出这一警告,正值好莱坞遭遇了自1960年以来的首次编剧和演员同时罢工。编剧和演员们认为,人工智能将威胁到他们的就业。
这一警告也凸显了英国政府在迎合人工智能方面所面临的挑战。英国政府希望成为全球人工智能产业和监管方面的中心,并计划在今年11月举办全球首届人工智能峰会。
CMSC在其报告中称,如果政府不能围绕知识产权保护而引入明确的法规,英国可能会失去其在创意产业方面的诚信。当前,英国版权法对版权提供有限的豁免,仅允许文本和数据挖掘用于非商业研究用途。
去年,英国政府提出了建立一个新的概念,允许出于任何目的而进行文本和数据挖掘。这将允许人工智能开发人员在没有获得许可的情况下,使用受版权保护的内容培训其人工智能模型。
自那以后,英国政府官员一直在努力缓解人们的担忧,表示他们将与所有行业进行磋商,以完善监管。
而CMSC建议政府放弃豁免计划,转而通过与创意行业贸易团体达成互惠的协议,来帮助规模较小的人工智能开发商获得许可。
艺术家们已经越来越担心,开发人员正在使用未获得许可的受保护内容来培训其人工智能模型。今年7月,一个代表英国音乐行业的行业组织呼吁建立一个记录保存系统,允许追踪用于培训人工智能应用程序的所有音乐。
YouTube和环球音乐集团(UMG)最近宣布,他们将共同确保艺术家在被生成式人工智能工具使用时,获得公平的补偿。
最后,CMSC还敦促英国政府,在今年年底之前公布如何管理人工智能对创意产业影响的最新情况。(来源:IT之家)
2.OpenAI否认ChatGPT侵犯作家版权,要求法院驳回部分指控
8月31日消息,广受欢迎的人工智能聊天机器人ChatGPT的开发商OpenAI已要求旧金山联邦法院驳回包括喜剧演员莎拉・西尔弗曼(Sarah Silverman)在内的作家提起的两起诉讼的部分指控,后者指控该公司侵犯了他们的版权。
OpenAI对法庭表示,ChatGPT生成的文本并没有侵犯作家们的书籍的权利。OpenAI也否认了作家们的核心指控,即使用他们的书籍来训练ChatGPT侵犯了他们的版权,但周一该公司没有要求法院驳回这些指控。
此前报道,今年夏天,两个不同的作家团体对OpenAI提出了集体诉讼,指控OpenAI非法将他们的书籍纳入用于训练ChatGPT的数据集中。西尔弗曼一组还对 Meta Platforms提起了相关诉讼,其他人也对谷歌、微软和Stability AI等公司提起了类似的诉讼。
OpenAI周一对作家的指控作出回应,该指控称ChatGPT生成的文本构成其书籍的“衍生作品”,间接侵犯了他们的版权。OpenAI称,作者未能证明ChatGPT的输出与他们的作品足够相似,无法证明侵犯版权,OpenAI还要求法院驳回作家们基于州法和数字千年版权法提出的相关指控。(来源:IT之家)
3.坐拥数据金矿!马斯克将用X数据训练AI强调“仅限公开内容”
马斯克旗下社交平台X(前身为推特)最近更新了隐私条款,X将使用收集到的数据来训练AI模型。
X最新的隐私条款中明确表示,“我们可能会使用收集到的信息以及公开信息,来训练我们的机器学习算法、AI模型等。”
对于此事,马斯克也直接承认,并补充称“只会使用公开数据,不会使用用户私信或任何私人数据”。
值得一提的是,4月马斯克曾指责微软非法使用推特数据,来训练AI,并威胁将提起诉讼。同月马斯克提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文。
为了收集数据训练AI而更改隐私条款,X并不是第一家这么做的公司。
谷歌也已在7月更新隐私条款,其中明确,谷歌有权收集任何公开可用的数据,并将其用于其AI模型训练。
换言之,只要是谷歌能从公开渠道获得的内容,都可以拿来训练自家的Bard模型或未来所有AI模型。而在这种情况下,用户只要继续使用谷歌服务,便是默认相关信息可以被用来训练谷歌AI模型。
本周,百度、商汤、百川智能等多家公司/机构的大模型产品上线开放公众服务。
而AI三大核心要素包括算力、算法和数据,其中数据是AI算法模型的“饲料”,AI技术的训练需要巨大数据量的大规模数据集投喂。如今,我国生成式AI监管,特别是数据使用规则也逐渐清晰。
国家政策层面上,国家网信办等七部委已发布《生成式人工智能服务管理暂行办法》已于8月15日起施行。该文件对生成式人工智能研发、落地、训练语料使用等提出规范。券商认为,前期研发积累的AI应用有望从Q3开始进入上线周期,训练语料价值或迎重估。同时,其将训练数据的来源纳入监管,有望加速数据版权在AI模型领域的变现。
地方政策层面上,北京的《北京市公共数据专区授权运营管理办法(征求意见稿)》“鼓励公共数据专区探索市场自主定价模式,探索产业发展及行业发展相关应用场景按需有条件有偿使用”;《广州市数据条例(征求意见稿)》则“推动数据要素纳入国民经济和社会发展的统计核算体系”,“鼓励企业将数据资源纳入企业财务报表”。
兴业证券指出,AI大模型有望成为数据要素变现第一场景。受制于算力成本、商业模式等原因,国内市场针对2B垂直领域、基于大模型精调之后的小模型有望率先商业化落地。只有掌握核心行业数据,才能训练出适用于行业的垂直行业大模型。AI投资除了算力和算法,更要重视数据。(来源:创科板日报)
编辑:Sharon



