IFIF 2026 卢宝锋 | 监督式机器学习模型驱动的标准必要专利挖掘


2026311日至13日,由中国领先的知识产权会议策划及知识产权媒体“知产前沿”举办的第四届知产前沿信息通信论坛(IFIF 2026在深圳前海华侨城瑞吉酒店隆重举行。作为亚太地区最具影响力的标准必要专利(SEP)专业盛会之一,本届论坛以"破局·立势:全球SEP许可的博弈与前瞻"为主题,汇聚75余位来自法院、领先企业及律所的发言嘉宾,与现场近400余位产业界知识产权负责人共同探寻公平、高效的SEP治理新范式。


标准必要专利的挖掘与分析,是SEP许可谈判与诉讼的基础性工作。然而,面对数以百万计的存量专利、Blanket方式的声明以及格式混乱的原始数据,如何精准定位与特定技术标准相关的专利群,已成为业界普遍面临的现实挑战。在这一背景下,AI技术的引入为SEP挖掘提供了新的方法论工具。312日上午,在大会第一天的“SEP司法新态势”专题环节,律商联讯(LexisNexis)知识产权解决方案大中华区资深顾问卢宝锋发表了题为《监督式机器学习模型驱动的标准必要专利挖掘》的主题演讲。卢宝锋结合产业实践中的现实痛点,系统阐释了如何利用监督式机器学习提升标准必要专利(SEP)挖掘的精准度,并对当前专利池声明的数据局限性、AI工具的选择逻辑以及Blanket方式声明的标准必要专利范畴圈定的技术路径作出了专业分析。



一、SEP挖掘的产业困境:从“blanket declaration”说起

卢宝锋在发言伊始即指出,标准必要专利的分析工作始终面临两大基础性难题:其一,如何在数以百万计的存量专利中定位与特定技术标准相关的专利群;其二,如何在这一基础上进一步判断其必要性。

他以VVCH.266)技术为例说明,面对相关技术领域几百万族专利,依赖传统的关键词检索或人工筛查已不现实。更关键的是,ITU-TIECISO接受“blanket declaration”(一揽子声明)的披露方式,使得权利人可以选择仅声明“拥有可能必要的专利”,而无需列明具体专利号。

针对业界提出的“通过专利池清单反向筛选”的思路,卢宝锋认为其同样存在局限。有些专利池的成员构成与VVC提案机构的排名存在错位——在VVC提案数量排名前十的机构中,有六家未加入专利池。这一现象提示,专利池清单虽具参考价值,但难以完整反映某一技术领域的整体专利版图。


二、数据清洗的技术前提:从原始声明到可用数据

卢宝锋进一步指出,即便获取了专利池或ETSI披露的原始专利号,直接用于检索分析仍面临显著的技术障碍。例如有的专利池发布的专利清单虽长达百余页,但包含大量格式不统一的专利号:横杠、空格、斜杠混用,且普遍缺少国家代码与公开号(Kind Code)字段。这一问题对企业的直接影响是:若直接使用专利池发布的原始清单进行检索,相当比例的专利将无法匹配,可能导致对权利人专利实力的误判。卢宝锋援引LexisNexis的内部统计指出,若直接以原始专利号在数据库中匹配,约30%的专利将因格式问题无法成功映射。

针对Blanket方式声明的标准必要专利的范畴确定,恰是AI工具介入的重要切入点。卢宝锋介绍,LexisNexis20233月收购了英国专利分析公司Cipher。该公司成立于2013年,其核心技术即通过机器学习对专利进行自动化分类,且已经达到了业界可接受的较高的准确率。该技术现已被整合为LexisNexis Classification模块,其核心逻辑并非依赖通用大模型,而是采用“监督式学习”(supervised learning)路径,通过将分析范围限定于专利领域,实现对模型“泛化”边界的有效控制。所谓“监督式学习”,是指通过人类专家提供标注好的“正向示例”(相关专利)和“负向示例”(不相关专利)对模型进行训练,使模型学会识别同类特征的技术路径。与通用大模型(如GPT或国内类似产品)相比,监督式学习的优势在于“限定领域、精准可控”——大模型的最大优势在于可泛化,但这也可能成为隐患,而监督式学习可以避免模型产生偏离分析目标的输出。


三、监督式学习的方法论:人机互动的多轮迭代

为直观呈现监督式学习的运作流程,卢宝锋以LexisNexis20262月新推出的Wi-Fi 7专利挖掘模块为例,拆解了其技术路径。他指出,Wi-Fi 7同样面临与VVC相似的“blanket declaration”问题。以松下与诺基亚为例:松下在声明中提供了较为完整的专利列表,而诺基亚则未列明具体专利。若仅以明确声明为检索依据,截至202636日,松下仅有三十三族专利,诺基亚仅为五族——这一数据显然无法支撑任何实质性的许可谈判。

为填补“明确声明”与“实际相关专利”之间的缺口,LexisNexis引入了监督式学习模型进行未声明专利的挖掘。该流程分为多个步骤:

初始训练:由人类专家向模型输入“正向示例”(与Wi-Fi 7高度相关的专利)与“负向示例”(如易混淆的Cellular领域专利),划定分析边界。例如,在Wi-Fi技术专利与Cellular专利之间,如果仅通过关键词检索,会产生大量噪音。

多轮互动:模型输出初步挖掘结果后,交由Wi-Fi领域的资深专家进行复核。专家反馈“误判”(模型标记相关但实际不相关的专利)与“遗漏”(模型未标记但实际相关的专利),并将反馈注入训练集。

经过多轮迭代,在Wi-Fi 7项目中经人工抽样验证的准确率达到90%以上。卢宝锋强调,这一流程中,人机互动的质量直接决定最终结果的可靠性。模型输出并非终点,而是供人类专家批判与修正的“半成品”。经过多轮迭代后,将明确声明与挖掘出的未声明专利合并计算,松下增至127族专利,诺基亚增至50族,挖掘出的Wi-Fi 7相关专利族总数达到8977族——这一数字远高于基于明确声明的统计结果。

在这一过程中,团队还会通过“贡献者稳定性和技术分布”进行交叉验证。一方面,将挖掘出的专利权人排名与Wi-Fi 7提案机构的客观数据进行比对——若发现某提案数量较多的机构未出现在挖掘排名中,则反向检视数据是否存在偏差,必要时启动新一轮训练。另一方面,分析挖掘结果的IPC分类分布,若出现明显偏离主题的分类,则作为噪音信号触发人工干预,可能进行第27轮、第28轮的迭代优化。


四、必要性判断的多元路径:权利要求和标准文本的语义匹配

在完成专利范围的初步圈定后,如何判断其是否构成“标准必要”,则是另一个层面的挑战。卢宝锋坦诚指出,当前AI挖掘所实现的,仍是在海量数据中“圈定可能相关的专利范围”,而非直接判定其是否为标准必要专利。从8000余族Wi-Fi 7相关专利中确定每篇专利的必要性,仍需借助其他方法。除了人工的权利要求与标准文本的对照方式外,卢宝锋也介绍了IPlyticsc采用的语义匹配技术来判断SEP的必要性。语义匹配则试图通过算法计算权利要求与标准文本的相似度,作为必要性的参考指标。


五、跨技术领域的AI挖掘布局与数据动态性

在发言后半段,卢宝锋简要介绍了LexisNexis在更广泛技术领域的AI挖掘进展。除Wi-Fi系列外,公司已完成对VVCHEVC、无线充电、蜂窝物联网(NB-IoTLTE-M)等领域的专利分类工作。其方法论一以贯之:以监督式学习为核心,通过人机互动实现高精度分类,再辅以数据清洗解决格式混乱问题。

NB-IoT为例,LexisNexis的技术路径是先通过3GPP规范定位相关技术特性,再结合AI分类与专家验证,将专利映射至NB-IoTLTE-M等具体标准。

卢宝锋最后提及LexisNexis每年发布的5G专利报告。他指出,报告数据截至20251031日,以有效授权专利为统计基础。若以当前(202636日)数据更新口径(包含有效申请),排名前十的权利人顺序已发生动态变化——例如中国移动由报告中的第14位上升至第10位。这一变化恰恰说明,SEP领域的数据具有高度动态性,静态报告只能反映特定时点的状况,而持续的AI挖掘与数据更新方能帮助产业界实时跟踪格局演变。


六、从“圈定范围”到“确定必要”的探索之路

卢宝锋在最后总结道,当前IPlytics标准必要专利数据库利用AI技术所实现的,是在海量数据中“圈定相关的专利范围”。AI的价值不在于替代人类判断,而在于以更系统、更高效的方式缩小讨论范围、降低人工审查的基数。

在这一过程中,监督式学习以其“人机协同、持续迭代”的特性,正在成为SEP挖掘领域不可忽视的方法论工具。对于企业知识产权团队而言,这意味着在SEP分析中,单纯依赖声明信息或专利池清单已难以满足现实需求,将AI工具与传统分析方法相结合,或将成为未来SEP挖掘的主流路径。随着数据清洗技术的完善与AI算法的演进,业界距离“让SEP分析更加清晰”的目标或许正逐步接近。

*注:本文所有内容仅为个人基于交流目的的言论分享,仅代表个人当下的观点输出,不代表本人固定立场,同时也不涉及、不代表任何公司或团队的官方立场与态度。

编辑:Sharon


分享到微博
分享到微信
    分享到领英

相关文章