圆桌讨论 | 开源治理与企业合规
12月12日上午的圆桌讨论,由大成(上海)律师事务所合伙人赵云虎律师主持,上海白玉兰开源开放研究院法务总监陈凯、中国计算机学会开源发展技术委员会执委、开源社执行长&理事梁尧和开放原子开源基金会法务与知识产权部部长王荷舒共同参与,就“开源治理与企业合规”这一议题展开深度对话。
一、开源理念在AI时代的重塑与挑战
(一)大模型与传统开源的关系
陈凯首先指出,开源始于软件,而人工智能领域的发展自始就与开源生态紧密交织,尤其在高校与科研社区中更为显著。各种模型的性能参数快速更新,开源似乎已与人工智能深度绑定。尽管在其他领域开源软件的普及率未必如此之高,但至少在人工智能领域,开源已成为不可忽视的推动力量,并将在可预见的未来持续其影响力。
(二)“开源”范畴的扩展
梁尧进一步指出,以DeepSeek为代表的开源大模型快速普及了开源理念,其社会影响甚至在一定程度上超越了“十四五”规划将开源列入国家战略的宏观举措。这种来自市场与技术成功的驱动力,促进了各界对开源治理的关注。
人工智能正重塑“开源”范畴。传统开源主要指开放“源代码”,而AI大模型的开源除了代码,还涉及模型参数、训练数据及过程文档等,导致概念边界模糊,引发业界广泛争论。国际开放源代码促进会(OSI)曾通过定义“开源许可证”来判断项目是否属于开源。但人工智能的兴起打破了这一框架。为此,各类组织已展开探索:
- 国际:Linux基金会推出了“模型开放框架”MOF,根据不同元素的开放程度进行分级界定。
- 国内:中国信通院、中国电子标准院等机构也在制定关于AI开放等级的相关标准。
- 标准演进:OSI自身也针对人工智能发布了新的开源AI定义OSAID。
治理的挑战同样体现在开源许可证的演变上。梁尧观察到,在Hugging Face等主流AI模型托管平台上,出现了大量不同于传统软件开源许可证的新型许可证。
这些新型许可证可能包含对商业使用的特定限制,这与OSI早期定义中强调的“无歧视”(包括“对商业用途友好”)的原则存在差异。这导致企业必须额外评估模型用户规模、使用场景等新维度,大幅增加了合规复杂性。
梁尧认为,人工智能不仅扩展了“开源”概念的范畴,更因其技术特性带来了治理逻辑的根本性复杂化。如何定义、许可与合规,都成为开发者、企业及治理机构要面对的新课题。
(三)开源理念的新阶段与“开源漂白”(Open-Washing)风险
王荷舒指出,“开源”理念源于二十世纪的自由软件运动,是在当时的社区共识基础上形成的概念。随着软件成为数字社会的核心基础设施,业界有识之士意识到应将其作为数字公共品,允许任何人无歧视地获取、使用、修改与贡献。因此当时提出的“开源定义”中包含了通常提供完整的源代码、技术中立,无歧视地允许所有用户在任何领域(包含商用)中自由使用等要求。然而她强调,对软件而言,提供源代码即可实现原软件的复现和修改;但对大模型而言,仅提供模型相关的源代码、权重、参数等并不足以实现同等效果,模型的可复现性还高度依赖于训练方法、调优过程、数据集等信息的公开。这正是OSI等组织要提出新的AI开源定义/标准的原因——避免社区将软件开源的概念和要求简单移植到人工智能领域而产生误解。王荷舒特别警示了因当前相关共识尚在混沌发展之中而存在的“开源漂白(open-washing)”风险。
梁尧补充指出,针对“开源洗白”风险,业内已编制出专门针对AI模型的综合性新许可证,旨在多维度明确授权。然而新型许可证的推广面临现实挑战。
例如某企业尽管知晓存在专门针对大模型的许可证,但仍选择采用传统的、更常见的Apache或MIT等软件许可证。其核心考量在于:广为人知的传统许可证能有效降低社区用户的认知与使用门槛,更有利于项目快速推广。该企业认为,虽然从严格的法律授权角度看,传统许可证对AI模型关键元素(如参数、数据)的授权可能并不充分,但企业自身并无意据此起诉下游用户。
在梁尧看来,这背后存在一种“社区潜规则”或默示授权的逻辑:即企业默认给予比书面授权更宽松的实际许可,以换取更快的商业化采纳和社区增长。但这种“潜规则”授权模式本身存在显著的法律风险。由此,他提出了两点启示:
1.许可证选择需平衡商业策略与合规:企业在选择开源许可证时,商业化推广、社区接受度等市场因素与纯粹的法律合规同等重要,甚至可能优先。
2.需加强新型许可证的社区推广:必须通过多种方式加速社区开发者和企业对这些新型许可证的认知与理解,才能顺利推动从传统软件许可证向AI时代专用许可证的过渡。
赵云虎总结,传统开源围绕“软件”(代码与文档),而AI模型的价值核心已扩展到参数、权重等非代码元素。DeepSeek等“开源”模型,本质是公开权重与参数,实现本地化部署,这是对开源概念的借鉴。
但他指出,从法律层面看,著作权法可能不适用于参数和权重,因其不属于传统“表达”。AI开源虽是理念演进,但法律基础已然不同。这一点体现在RAIL等新型许可证中,它们明确将“数据”排除在许可范围之外。
二、数据为何被排除在大模型许可证之外
(一)数据权利结构复杂
陈凯对此提出了另一视角:数据开放本身也需要规则和许可证,只是其规则体系必然与软件开源不同。他介绍了在2021年世界人工智能大会上发布的我国第一个数据开放协议——“木兰-白玉兰数据开放协议”,这是国内在该领域的早期探索。他解释道,大模型许可证将数据排除在外是合理且现实的。原因在于数据的权利结构极为复杂:
- 权利来源复杂:数据可能涉及个人隐私、商业秘密、知识产权、国家安全等多重权益,其获取与使用的合法性本身就可能存在瑕疵。
- 授权链条不清:模型开发者通常并非原始数据权利人,无权对下游进行数据再授权。
- 法律规制严格:尤其是中国在个人信息保护、数据安全、数据跨境等方面的法律法规日益完善且严格,极大地限制了数据的自由开放与流通。
以上海数据交易所的实践为例,当前数据交易仍主要局限于政府与国企之间,公共数据或国企数据向民营企业的流通存在显著法律与政策障碍。
陈凯认为,数据是AI发展的基础性资源,但严格的法律环境对其开放构成了多重限制。当前业界大部分尝试面临着通用性与针对性难以兼顾的挑战。未来的方向可能是在特定应用领域进行更有针对性的规则探索,以期在合规前提下,找到数据价值释放的可行商业路径。但这仍需各方持续努力。
(二)直接原因:主体分离
王荷舒认为“大模型许可证不处理数据”的直接原因是主体分离:大模型训练方通常并非原始数据权利方,因此往往无权在模型许可证中就数据进行授权。尽管国内已有不少公共数据开放及数据许可协议的探索,但尚未形成具有影响力的标杆实践案例、或者说可大规模复制的清晰商业逻辑。她提出一个关键观点:许可证的本质是服务经济活动、厘清权责。当前应鼓励市场主体广泛尝试探索不同的数据资源利用的商业闭环路径,在数据变现的商业逻辑成熟前避免过早进行统一规制。她预测,高质量的专有数据将成为大模型竞争的下一个关键战场。
王荷舒以DeepSeek大模型开源后的全球爆火为例指出,在全球互联的时代,开源能让一个高性能模型/产品在极短时间内,以远低于传统商业营销的成本获得巨大商誉回报和技术影响力的“阳谋”。对于企业而言,核心问题不再仅仅是“我方自己要不要开源”“开源对我方有什么用”,而是必须充分意识到开源也是一种有降维打击效果竞争模式,还应该考虑“竞争对手会不会开源”“对手开源对我有什么影响”。在市场中的企业如可能选择开源,就大概率能在定价、生态、开发者吸引和市场渗透上形成压倒优势,甚至重塑行业竞争格局。
因此,王荷舒总结,无论企业自身是否计划开源,其商业与技术战略都最好将可能存在的开源竞争方作为关键变量纳入考量。企业在开源与商业之间形成可持续的协同发展固然理想;但更多更现实的情况是,不开源的企业成为被开源所颠覆的对象。认识到这种可能性并结合具体情况做好预判和预案,是现代企业战略不可或缺的一环。
(三)知识产权演进视角
梁尧从知识产权制度的演进视角切入进一步指出,如同计算机软件从无到有被纳入著作权保护范围一样,数据的产权问题也随着其产业价值的凸显而成为焦点。此前,关于“数据知识产权”或“数据产权”的概念在学界仍存争议,但数据交易所的兴起与国家数据局的成立,标志着数据要素化与市场化已进入实践层面。
此前,数据的合规共享实践早有探索,如斯坦福大学提出的“知识共享许可协议(Creative Commons,简称CC)”,早在AI大模型浪潮之前,针对文本、图像、音视频等数字作品属性的数据的标准化许可框架已经存在。然而在大模型时代,数据的角色和许可需求变得更加多维和场景化:
1.分级许可的兴起:如Linux基金会等组织提出的框架表明,数据开放可以设定不同等级,从完全封闭到有条件开放,形成梯度。
2.下游需求的差异:对于许多模型使用者而言,核心需求是获得可直接部署或微调的模型(参数/代码),而非重新训练所需的原始数据。
3.特定领域的显性价值:在机器人等高速发展的垂直领域,专门采集的高质量数据本身就是极具价值的核心资产和竞争壁垒。此时,数据作为受保护客体的产权意识显著增强,对其许可条款的关注也更为细致和严格。
梁尧总结认为,必须根据具体应用场景动态设计数据的许可与商业化策略。同一数据集,作为通用语料与专用训练数据,其开放程度和盈利模式可能截然不同。理解这种场景依赖性,是构建有效数据治理、释放商业价值的关键。
三、企业开源治理与合规实操建议
(一)重视开源合规是商业化的必需策略
陈凯结合自身接触大量人工智能初创企业的经验,指出了当前一个普遍且严峻的问题:初创企业开源合规的优先级极低。他指出,这类企业的创始人多来自高校或科研机构,在校期间使用开源软件的习惯往往不够规范。创业后,其资源分配的优先级通常是:核心产品研发与市场生存 > 申请专利 > 数据合规及其他知识产权风险。
相比之下,开源软件合规审查常被置于末位。普遍存在“大家都在用,暂时没事”的心态,但在法律视角下,这无异于在技术地基中埋藏隐患。随着企业成长与融资推进,相关风险可能在未来集中爆发。
陈凯坦言,尽管理解创业者的现实困境,但作为律师,他仍然需要提示各位创业者注意规避法律风险。他建议:
1.将开源合规纳入战略日程:企业必须认识到此问题的严重性与必然性,即使当前不处理,也必须制定明确的合规计划,并将其作为融资或发展特定阶段必须完成的“规定动作”。
2.利用自动化工具进行摸底:建议企业利用日益成熟的代码扫描工具,对自身代码库进行早期排查,识别许可证冲突、安全漏洞等潜在问题,做到“心中有数”。
3.划拨投资款用于合规整改:投资机构在投资人工智能企业时,可考虑将一定比例的投资款专门用于支持被投企业进行开源合规整改。这既是风险管控,也为企业未来更稳健的资本化道路扫清障碍。
赵云虎结合律师与程序员的双重视角补充,程序员过去使用开源软件时普遍存在“拿来就用”的心态,很少关注许可证细节。这反映了开源文化的宽容,也形成了“差不多就行”的默契。但他强调,这种默契在商业环境中并不可靠。尽管企业常将开源合规视为次要风险,但这种认知正在快速改变。近年来,在高科技、汽车、芯片等寻求出海、上市或规范化运营的行业,开源合规日益受重视。严格的供应链审查、上市要求及国际竞争压力,迫使企业必须将开源治理纳入正规体系。
因此,他建议:企业可根据发展阶段为开源合规设定合理优先级,但绝不能置之不理。早期看似微小的疏漏,会随着企业成长与资本化进程被急剧放大风险。尽早规划和管理,是规避未来更大麻烦与成本的明智之举。
(二)体系化建设:三层治理框架
梁尧结合在汽车与机器人领域的观察指出,当前汽车主机厂正从开源的使用方转变为贡献方和发布方。此前开源多由软件供应商推动,而如今理想、东风等车企已主动开源其核心软件乃至数据,表明开源已成为行业构建生态、加速协作的战略工具。基于此,梁尧为企业系统化开展开源治理与合规工作,提炼出三层框架。
第一层:建立综合性的制度与意识体系
梁尧指出,开源治理是技术、法律与商业的交叉领域。企业首先需要建立跨部门的统筹机制。领先企业通常会设立“开源委员会”或“开源战略办公室”,横跨研发、法务、运营等部门,以实体或虚拟组织形式进行统筹决策。其次,必须配备自动化工具链,用于代码扫描、许可证分析与合规检测。最后,需兼顾高层战略重视与开发者合规教育,自上而下推动治理意识。
第二层:融合运用标准、最佳实践与抓手
开源治理应超越被动合规,主动构建融合标准、最佳实践与工具的多维体系:
1. 融入国内外标准
- 国际实践:参考Linux基金会TODO Group推出的 “开源办公室(OSPO)”指南,同时关注已成为ISO国际标准的 “OpenChain”规范 。
- 国内标准:依托信通院和电子标准院等机构制定的开源治理标准体系,如去年已发布的两项开源领域的国家标准,分别聚焦“开源代码安全”与“开源许可证框架”,为企业提供了明确的规范指引。
2. 落实抓手,将标准落地
- 设立OSPO:作为统筹内部开源策略、合规与协作的核心枢纽。
- 建立软件物料清单(SBOM):对软件中所有开源组件及其依赖关系进行全生命周期追踪。并及时跟进AI物料清单等正在兴起的新形态。
- 形成综合管理体系:结合标准与最佳实践,构建一个体系化、流程化的综合开源治理框架,从而超越单一的知识产权合规,实现开源资产的战略性管理与风险的系统性防控。
第三层:探索“专利开源”等开源新模式
“专利开源”这一概念在2023年国务院办公厅发布的《专利转化运用专项行动方案(2023-2025年)》中被正式提出,旨在借助开源机制促进专利技术的转化与商业化。此后,国家知识产权局等部门在多项文件中持续推进相关探索。目前,相关研究机构已在芯片、人工智能、汽车等重点领域开展课题研究与实践研讨。
该概念受特斯拉宣布“开源专利”的启发,特斯拉模式附带了严格的条件限制,如禁止被许可方对其专利提起无效或诉讼,实质上是一种有条件的、战略性的专利许可,而非无保留的开放。
国内探讨的“专利开源”同样强调有条件授权,目前其定义、框架与路径仍较模糊,与现有“专利开放许可”制度存在区别,实践挑战有待厘清。
(三)价值、责任与风控
王荷舒基于对社区治理与风险的观察,为企业提出了三点清晰务实的建议。
第一,开源合规“值得做”,且成本可控。
她指出,开源社区本身是友好开放的,绝大多数主流开源许可证设定的合规义务其实非常基础(如保留署名、注明修改),因为开源的初衷就是极大降低知识产权流转的门槛。虽然著佐权(copyleft)类型的严格许可证的合规和分析会相对复杂,但并不会比闭源的商业许可更难理解或做到,企业和开发者不必抱有过度畏难情绪。做好基本合规培训、用好免费的开源扫描工具、执行好完善的开发流程就能实现低成本的开源合规,还能显著提升企业在社区和行业中的影响力与好感度,是一项高性价比的投入。
第二,开源合规“必须做”,是商业主体的必然责任。
王荷舒指出,开源许可证为上游无偿贡献开源代码的贡献者进行了完全免责,但企业将包含开源代码的产品或服务投入市场时,必须依法为产品或服务的整体质量、安全与合规性向其客户承担相关的担保责任。因此,企业在产品或服务发布前进行开源合规审查,是必要的风险管理动作。
她分析,开源合规审查工作的主要挑战不在于许可证条款的理解等法律问题,而是在于软件所依赖的开源代码的巨大数量,这更多地是一个工程化的问题。因此需要采用自动化的代码扫描工具进行分析。且专业的扫描工具和服务商通常是同步进行许可证篡改和合规扫描、安全漏洞与技术风险,实现“一轮审查排除多种风险”。这种工具化治理方式的合规成本往往低于潜在的法律纠纷或商誉损失,是性价比很高的必要投入。
第三,警惕新型实务风险,做出“知情决策”。
尽管开源社区秉持开放协作精神,但实践中也出现了两类值得企业警惕的异化情形:
1.“伪开源”商业陷阱:有些企业将商业软件包装为“免费”或“开源”进行宣传和公开发布,吸引开发者使用后,再依据商业许可条款发起侵权索赔,属于利用的“钓鱼式”维权。
2.“双许可”模式下的激进维权(权利滥用):有些采用“开源版+商业版”模式的企业,也出现了在无合理侵权证据的情况下向用户企业及其高管、客户、监管方进行高频次投诉以施压购买商业许可的行为。
王荷舒指出,类似风险的频发也说明不少企业和公众对于开源的理念和实践细节的认知不足,形成了利用信息差施压的空间。对于产品或服务涉及软件的企业而言,在对所使用的开源组件及其许可条款缺乏细致了解的情况下做出决策往往会引入不可知的风险。她强调,企业在充分知情基础上做出决策才是审慎的做法。
最后她提到,近期教育部已将“开源技术与应用”纳入计算机类职业教育相关课程,呼吁行业组织与专家同步关注开源教育,从人才培养的源头提升开源贡献与规则意识,为开源的长期繁荣发展共同努力。
四、总结
赵云虎律师对本次圆桌讨论进行了总结。经过各位专家的深入探讨,开源在当代企业运营中的双重属性已非常清晰:从高处着眼,它是一种重要的生态与竞争战略;从实处着手,它是一项必须落实的基础合规工作。他指出,当前的法律风险环境正在“内卷化”,以往可能被忽视的、相对细微的开源合规问题,如今已随着行业竞争与监管的深化而变得不容小觑。
编辑:Sharon



