郑友德 | 未来十年的人工智能——在监管风险的同时把握发展机遇
· 引言
一、机遇与风险
(一)医疗保健应用
(二)准确信息与错误信息魚龙混杂
(三)管理任务和自动化决策
(四)数据问题
二、应对策略
(一)公众使用AI的认知与公共教育
(二)透明度和审计
(三)消费者权益保护
(四)管控与监督
三、发展现状和尚待探讨的领域
引言
生成式人工智能(以下简称“生成式AI”)正在迅速改变人工智能的格局。与处理数据以执行分类等任务的AI模型不同,生成式AI会创建全新的内容——文本、图像、音频和视频。这项技术可以通过多种方式帮助人们,从完成日常管理任务到协助医疗发展。虽然生成式AI带来了许多发展机遇,但使用它也存在一些风险。及时应对这些风险至关重要。
2024年4月12日,纽约州总检察长署(OAG)主办了“生成式AI的未来十年:在监管风险的同时把握发展机遇“的活动。这场非公开研讨会汇集了美国领先的学者、政策制定者、倡导者和行业代表踊跃参与,他们探讨了AI技术,尤其是生成式AI带来的主要机遇和风险。其目的是帮助OAG制定战略来应对这些风险,同时确保纽约州能保持创新前沿的活力。尽管生成式AI是一个特别的聚焦点,但演讲者也谈到了更传统的AI技术,例如自动决策技术。
本报告概述了研讨会的主要成果,旨在与其他政策制定者和政府机构分享见解,并为促进制定AI技术的法律和政策方法进行公开对话。
一、机遇与风险
演讲者在会议中确定了AI技术(包括生成式AI)可能为公众带来的利弊。
(一)医疗保健应用
AI技术有可能改善医疗保健。与会者讨论了如何将 AI 用于早期疾病检测、药物发现、公共卫生趋势监测、缓解医生行政工作压力以及精准医疗等话题,这些均涉及根据遗传和临床概况等信息创建个性化治疗计划。
AI工具已经用于协助医学成像,使扫描更快、更便宜。这些工具可以帮助临床医生通过筛选医学图像来进行分类,以确定潜在的紧急问题,供医生优先审查。AI模型现在经过训练,可以进一步帮助检测疾病。一位演讲者讨论了可以审查乳房X光照片并识别可能在患癌症前五年预示乳腺癌风险的异常情况、从而允许医生早期干预的AI工具。发言者一致认为,此类AI工具应该用于提高临床医生的工作效率,而不是取代它。
在医疗行政管理方面,AI现在用于帮助减轻临床医生的负担,例如转录患者对话。一位医生讨论了使用生成式 AI 技术总结患者病史的尝试,以帮助确保临床医生及时看到相关信息,否则这些信息可能会在大量笔记中丢失。这位演讲者指出,生成式 AI 工具还可以通过聊天回答患者的简单问题,并提供翻译服务。他观察到,随着技术的发展,AI工具可以在医院环境中持续运行。例如,录音工具可用于转录患者对话,监控工具可以持续观察患者房间内的生命体征。此类AI工具可能会用于患者家中,例如通过视频监控患者活动。
然而,这些发展也带来了风险。其中医疗保健数据尤为敏感。患者可能不了解正在收集哪些数据或AI工具如何使用这些数据,尤其是当这些工具在他们的病房甚至家中持续运行时。除了这些隐私问题之外,还存在对不平等访问的严重担忧。在用于创建个性化治疗计划的临床数据中,少数群体的代表性不足,而AI转录服务目前没有涵盖广泛的语言或口音。发言者指出,为了在如此敏感的环境中有效地使用AI工具,必须有一个明确的负责人参与其中,且该负责人应具备判断何时信任AI工具、何时对其结果提出质疑的能力。
(二)准确信息与错误信息魚龙混杂
AI工具,包括由生成式AI提供支持的聊天机器人,可以帮助人们轻松查找信息。例如,它们已经被用于补充一些电话线,例如311市民紧急服务热线和企业客户热线。这种对聊天机器人的使用可以让电话接线员腾出时间专注于提供特定服务、解决复杂的问题。此外,生成式AI工具可以自动翻译,使政府和企业能够更好地用他们的母语与人们交流,并提供更好的信息获取途径。
然而,正如多位演讲者所指出的那样,该技术远非完美。众所周知,生成式AI容易得出错误的结论或“幻觉”,并提供错误的答案。因此,生成式AI聊天机器人可以与人们分享不准确的信息,使它们成为向公众提供错误信息的工具。这些聊天机器人还可以随意编造关于人的故事,这可能会损害人的情感和声誉。
此外,不法分子可以使用生成式AI故意创建错误信息材料,例如深度伪造。尽管美国法律对诽谤和欺诈行为提供了某些追索权,但这并不能解决全部问题,尤其是在深度伪造变得越来越现实且更难检测的情况下。发言者指出,在总统大选前的未来几个月里,在错误信息中使用生成式AI将是一个主要问题,因为不法分子可能会制造大量无法及时核查的错误信息。他们列举了音频和视频深度伪造的例子,如果人们相信它们是真实的,就可能会产生严重负面影响,例如模仿总统候选人的机器人呼叫,鼓励人们不要在初选中投票。在一幅明显修改过的画面中,美国前总统特朗普看起来正拥抱着其“眼中钉”安东尼·福奇博士(美国负责传染病事务前最高官员),而福奇报以满面笑容。在另一幅画面中,特朗普正在亲吻福奇的鼻子。这些画面表明,2024年共和党白宫角逐者已将唇枪舌剑上升到AI驱动的社交媒体竞技场,在事实中掺杂着杜撰。
(三)管理任务和自动化决策
AI工具可能有助于简化许多管理任务,尤其是对于政府机构而言。例如,一位政府官员概述了使用生成式AI计算纳税义务、生成公共教育材料和编写计算机代码的机会。
AI技术的一个常见用例是协助审查应用程序,这可以显著简化这些流程。例如,通过使用AI工具自动识别有资格获得服务或福利的人,政府机构可以更快、更高效地将这些服务和福利分配给选民。
当然,使用AI工具预先筛选应用程序也存在风险。许多公司使用AI筛选工具进行招聘,这可能会引入算法偏见。一位研究人员指出,一些公司可能已经开始在招聘中使用AI工具,目的是解决人工审核中固有的不公平和隐性偏见。然而,发言者引用了大量证据表明,AI工具通常会放大而不是纠正偏见。例如,根据过去招聘数据训练的算法可以放大过去招聘决策中反映的人为偏见,并巩固现有规范。AI算法的黑盒性质使得人们难以理解AI工具是否以及如何工作,从而难以确保决策的公平性。事实上,一位演讲者认为,最好假设AI工具默认存在歧视。
(四)数据问题
由于生成式AI模型是在海量的庞大数据集上进行训练的,因此训练数据的质量、数量和合理使用引发了若干问题。首先是数据的版权保护,因为公司在其模型中使用从互联网上收集的受版权保护的文章、图像和视频,而没有为创作者的作品支付报酬。版权问题受到了公众的广泛关注,目前正在提起若干诉讼。上一节讨论了医疗保健的背景下另一个关键问题是少数群体在训练数据中的代表性不足。因此,生成式AI工具可能会创建仅使某些群体受益的输出。
另外一些数据问题也没有引起太多关注,例如用于训练AI模型的数据的可用性。生成式AI模型需要大量数据进行训练。因此,多年来一直靠抓取网络数据的公司比AI市场的新准入者具有更大的竞争优势。现在,平台和内容提供商开始锁定他们的数据并签订独家许可协议,这引起人们的担忧,即数据市场将被少数参与者垄断,导致AI技术尚处于起步阶段时抑制自由竞争和可持续创新。
“数据民主化”或鼓励数据自由流动会带来更大的创新空间。当然,任何此类举措都应该与保护隐私相平衡,尤其是关于敏感数据的保护。随着公司寻求额外的数据进行训练,AI模型越来越多地使用自己的输出、即通过AI合成数据(synthetic data)进行训练。而当生成式模型(如GPT)使用合成数据来训练或微调时,可能会产生一些不良后果,尤其是“幻觉”(hallucination)问题,即模型生成的内容并非基于事实。随着模型对合成数据的依赖增加,可能会出现“模型崩溃”(model collapse)。这意味着模型在训练过程中逐渐失去对真实信息的准确性,生成内容的错误率会越来越高,导致其对数据的理解偏离原本的真实世界。在这种情况下,合成数据可能带来的问题包括:一是错误传播:模型使用自己生成的合成数据进行再训练,错误可能会在数据中不断重复,从而放大误差。二是偏差累积:合成数据可能包含某些偏见或错误的模式,这些模式会被模型误认为是正常的,从而在输出中不断重复这些偏见。三是幻觉增加:模型会变得越来越容易产生与现实不符的输出,因为它无法区分哪些信息来自真实世界,哪些仅仅是合成的“模仿”。四是模型泛化能力下降:模型在合成数据上“过拟合”,会导致在处理真实数据时表现变差,泛化能力降低。
还有人担心生成式AI工具输出的内容是虚假的、有偏见的或有其他有问题,因为该模型是在本身有缺陷的数据上进行训练的。这通常被称为“垃圾输入,垃圾输出”。由于AI模型的运行方式几乎没有透明度,一位发言者指出,对可能基于不准确数据(例如滑稽文章)、不适当数据(例如,种族或性别等受保护类别)或秘密数据(例如商业秘密)进行训练的输出表示担忧。另一位发言者警告说,如果对训练数据缺乏足够的隐私保护,可能会导致生成式AI工具泄露个人数据,或者会使模型在生成输出时无意中包含某些去识别化(de-identified)信息,从而有可能重新识别出原始数据,造成隐私泄露。因为在生成式AI的训练过程中,模型会学习大量的输入数据模式,包括文字、图片、代码等。即便数据经过去识别化处理(例如去掉了姓名、地址等个人信息),如果保护措施不足,模型在生成新的内容时可能仍会“回忆”出这些信息,致使输出内容中包含原始数据特征,使得数据重新识别的风险增加。
二、应对策略
演讲者在会上提出了许多应对AI风险的策略,以有效利用生成式AI,同时降低与该技术相关的风险。
(一)公众使用AI的认知与公共教育
许多人过于自信AI工具可以解决许多问题,但同时又对这些相同的工具持怀疑态度,这阻碍了AI在许多领域的应用。然而,AI工具,尤其是生成式AI工具,就其性质而言,需要经使用、核验、测试等步骤才能得以逐步改进。公众在采纳或使用AI的过程中,会自然而然地获得相关知识和技能,即在实践中学习。例如,当人们开始使用生成式AI工具时,他们在使用过程中会逐渐了解其功能、优缺点以及使用技巧,从而不断加深对该技术的理解。AI帮助人们了解AI技术的工作原理,包括其用途和限制,并有助于消除常见的神话。几位发言者警告说,对于AI技术在高风险场景使用,“人工参与”非常重要,这意味着使用者必须亲自动手参与AI模型的设置、测试和调整。
一位前政策制定者指出,由于生成式AI是一种用途尚不明确的通用技术,因此消费者必须了解该技术和不断发展的应用程序,以确保他们不易受到网络钓鱼诈骗等滥用的影响。演讲者还讨论了公众参与的重要性,以及为公众提供表达观点和提供有关AI用例反馈的途径,包括用于招聘和政府使用。
加强对生成式AI的公共教育对于减轻潜在滥用的影响至关重要。如前所述,许多人预计生成式AI工具将在美国总统选举前传播错误信息方面发挥重要影响。发言者强调,在选举等重大事件发生之前,应将识别AI生成内容的公共教育放在首位。
(二)透明度和审计
演讲者一再呼吁提高AI使用的透明度。最重要的是,消费者应该知道他们何时与生成式AI工具互动以及何时遇到AI生成的内容。为此,演讲者建议以多种方式向消费者增加明确的AI信息披露:通俗易懂的数据使用政策,解释正在收集哪些数据以及为什么收集数据、如何保护这些数据以及如何使用之,与聊天机器人通信时的注意事项等等,这在美国某些州已经立法。此外,应在AI生成内容上加注显眼标签或水印。虽然有些人认为水印可能很容易被老练的不法分子操纵,但一位发言者指出,它在大多数情况下仍然是有效的,至少会减缓恶意行为人故意试图欺骗人们的速度。因此,多位发言者呼吁建立一个强大的水印框架。
目前,AI模型的审计方式几乎没有透明度。AI算法本质上是不透明的。因此,对传统 AI 工具的审计通常侧重于评估为识别偏见等问题而创建的输出。然而,发言者指出,审计大多为临时进行,公司和研究人员可能不会解释他们如何进行审计。为了解决这个问题,发言者呼吁就审计模型制定明确的审计标准和程序。
这类审计标准在美国已有先例,例如《纽约市行政法规》(New York City Local Law)第144及其实施细则,其中概述了使用自动决策技术进行招聘时必须遵循的偏见审计最低要求。同样,金融机构已经制定了强大的公平贷款合规计划,以评估和监管算法承保框架中的偏见。此外,一位发言者指出,审计应针对具体情况。例如,在审计选举错误信息的模型时,选举专员应就哪些信息准确与否提供专家指导。第二位发言者建议为算法审计师创建专业认证,以增加对该过程的信任。最后,第三位发言者呼吁为外部研究人员提供更多机会来审计AI模型。
(三)消费者权益保护
消费者使用AI工具时通常会感到自己被赋予了权利。一位前政府官员引用了美国白宫的 《AI权利法案蓝图(Blueprint for an AI Bill of Rights)》作为努力建立明确的消费者权利的良好起点。该蓝图概述了在安全、歧视和数据隐私等五个领域应保护消费者免受AI工具侵害。此外,蓝图还解决了透明度的重要性,并赋予用户选择退出使用“自动化决策技术(Automated Decision Making Technology,简称ADMT)”以支持人类决策者的权利。
加利福尼亚州目前正在其ADMT规则制定中采用类似的原则。加利福尼亚州的一位官员深入讨论了规则制定过程,包括让消费者能够选择退出使用ADMT进行重大决策的能力,或者至少能够向合格的人类决策者上诉此类决定的重要性。
(四)管控与监督
虽然AI技术变化迅速,但相应的法律似乎进展缓慢,演讲者为此讨论了许多适用于AI技术的现有法律。围绕歧视、公民自由、隐私、数据安全、诽谤、欺诈、欺骗和竞争的法律可用于管控与AI技术相关的一些潜在危害。
发言者普遍认为,政府必须对AI技术进行更广泛的监督,即使对该技术还没有完全吃透。政府可以监管机构对AI工具的使用,并将采购用作监管杠杆,例如通过《关于安全、可靠和值得信赖的AI开发和使用的白宫行政令》以及加利福尼亚州关于使用生成式AI的行政令规范之。
然而,发言者对如何对AI技术进行更广泛的监管持有不同看法。一些人赞成通过一项全面的法律,例如《欧盟AI法(EU AI Act)》(该法创建了一个基于AI风险的广泛监管)建立了一个集中机构来监督AI技术。其他发言者认为,这种模式在美国并不合适,他们主张按部门监管,并由不同的机构处理之。例如,这意味着卫生与公众服务部可以成为医疗保健AI技术问题的主要监管机构。
后者指出,分散的监管权力将使不同机构能够更灵活地使法规适应不断变化的AI技术,并允许更多的竞争和创新。全面监管制度的支持者反驳称,针对特定行业的法规以及州和地方的法律可以作为全面监管法律框架的补充。值得注意的是,一个倡导组织的领导人警告称,我们不必在审慎采用AI与促进创新之间做出抉择,因为政府的责任是最大限度地发挥两者的作用。
三、发展现状和尚待探讨的领域
自研讨会以来,AI技术监管取得了重大进展。纽约颁布了之前讨论过的《儿童安全法案》,这是保护儿童免受在线算法伤害的重要基石。
近几个月来,美国司法管辖区也一直很活跃。2024年5月,科罗拉多州颁布了《科罗拉多AI法案》,该法案与《欧盟AI法》非常相似,根据对消费者造成伤害的风险对AI工具的使用施加法定义务。同月,美国参议院发布了AI政策路线图,呼吁为AI创新和立法提供320亿美元的资金,以补充完善适用于AI技术的现有法律。2024年7月,美国联邦贸易委员会(FTC)、美国司法部以及欧盟和英国竞争机构发表了一份联合声明,概述了保护AI生态系统中法的竞争原则。
然而,随着纽约准备应对AI技术,尤其是生成式AI的风险,存在诸多尚需要进一步研究的问题。例如,多位发言者呼吁制定算法审计标准,但对于适当的标准以及如何采用用于传统AI工具的审计方法来审计生成式AI模型,尚未达成共识。同样,对于如何为AI生成的内容开发强大的水印框架,也没有达成一致意见。由于这类问题需要技术专业知识,因此如何确保适当的人员参与制定此类标准和框架仍然存在问题。
此外,如前所述,对于监管AI技术的适当法律框架(包括适当的集中化水平)存在分歧。OAG正在积极监测不同监管框架(如《欧盟AI法》)的有效性,以便为未来的AI和监管提案提供信息。
作者:郑友德
编辑:Sharon