IFIF 2026 卢宝锋 | 监督式机器学习模型驱动的标准必要专利挖掘-活动

IFIF 2026 卢宝锋 | 监督式机器学习模型驱动的标准必要专利挖掘

2026年3月11日至13日，由中国领先的知识产权会议策划及知识产权媒体“知产前沿”举办的第四届知产前沿信息通信论坛（IFIF 2026）在深圳前海华侨城瑞吉酒店隆重举行。作为亚太地区最具影响力的标准必要专利（SEP）专业盛会之一，本届论坛以"破局·立势：全球SEP许可的博弈与前瞻"为主题，汇聚75余位来自法院、领先企业及律所的发言嘉宾，与现场近400余位产业界知识产权负责人共同探寻公平、高效的SEP治理新范式。

标准必要专利的挖掘与分析，是SEP许可谈判与诉讼的基础性工作。然而，面对数以百万计的存量专利、Blanket方式的声明以及格式混乱的原始数据，如何精准定位与特定技术标准相关的专利群，已成为业界普遍面临的现实挑战。在这一背景下，AI技术的引入为SEP挖掘提供了新的方法论工具。3月12日上午，在大会第一天的“SEP司法新态势”专题环节，律商联讯（LexisNexis）知识产权解决方案大中华区资深顾问卢宝锋发表了题为《监督式机器学习模型驱动的标准必要专利挖掘》的主题演讲。卢宝锋结合产业实践中的现实痛点，系统阐释了如何利用监督式机器学习提升标准必要专利（SEP）挖掘的精准度，并对当前专利池声明的数据局限性、AI工具的选择逻辑以及Blanket方式声明的标准必要专利范畴圈定的技术路径作出了专业分析。

一、SEP挖掘的产业困境：从“blanket declaration”说起

卢宝锋在发言伊始即指出，标准必要专利的分析工作始终面临两大基础性难题：其一，如何在数以百万计的存量专利中定位与特定技术标准相关的专利群；其二，如何在这一基础上进一步判断其必要性。

他以VVC（H.266）技术为例说明，面对相关技术领域几百万族专利，依赖传统的关键词检索或人工筛查已不现实。更关键的是，ITU-T、IEC、ISO接受“blanket declaration”（一揽子声明）的披露方式，使得权利人可以选择仅声明“拥有可能必要的专利”，而无需列明具体专利号。

针对业界提出的“通过专利池清单反向筛选”的思路，卢宝锋认为其同样存在局限。有些专利池的成员构成与VVC提案机构的排名存在错位——在VVC提案数量排名前十的机构中，有六家未加入专利池。这一现象提示，专利池清单虽具参考价值，但难以完整反映某一技术领域的整体专利版图。

二、数据清洗的技术前提：从原始声明到可用数据

卢宝锋进一步指出，即便获取了专利池或ETSI披露的原始专利号，直接用于检索分析仍面临显著的技术障碍。例如有的专利池发布的专利清单虽长达百余页，但包含大量格式不统一的专利号：横杠、空格、斜杠混用，且普遍缺少国家代码与公开号（Kind Code）字段。这一问题对企业的直接影响是：若直接使用专利池发布的原始清单进行检索，相当比例的专利将无法匹配，可能导致对权利人专利实力的误判。卢宝锋援引LexisNexis的内部统计指出，若直接以原始专利号在数据库中匹配，约30%的专利将因格式问题无法成功映射。

针对Blanket方式声明的标准必要专利的范畴确定，恰是AI工具介入的重要切入点。卢宝锋介绍，LexisNexis于2023年3月收购了英国专利分析公司Cipher。该公司成立于2013年，其核心技术即通过机器学习对专利进行自动化分类，且已经达到了业界可接受的较高的准确率。该技术现已被整合为LexisNexis Classification模块，其核心逻辑并非依赖通用大模型，而是采用“监督式学习”（supervised learning）路径，通过将分析范围限定于专利领域，实现对模型“泛化”边界的有效控制。所谓“监督式学习”，是指通过人类专家提供标注好的“正向示例”（相关专利）和“负向示例”（不相关专利）对模型进行训练，使模型学会识别同类特征的技术路径。与通用大模型（如GPT或国内类似产品）相比，监督式学习的优势在于“限定领域、精准可控”——大模型的最大优势在于可泛化，但这也可能成为隐患，而监督式学习可以避免模型产生偏离分析目标的输出。

三、监督式学习的方法论：人机互动的多轮迭代

为直观呈现监督式学习的运作流程，卢宝锋以LexisNexis于2026年2月新推出的Wi-Fi 7专利挖掘模块为例，拆解了其技术路径。他指出，Wi-Fi 7同样面临与VVC相似的“blanket declaration”问题。以松下与诺基亚为例：松下在声明中提供了较为完整的专利列表，而诺基亚则未列明具体专利。若仅以明确声明为检索依据，截至2026年3月6日，松下仅有三十三族专利，诺基亚仅为五族——这一数据显然无法支撑任何实质性的许可谈判。

为填补“明确声明”与“实际相关专利”之间的缺口，LexisNexis引入了监督式学习模型进行未声明专利的挖掘。该流程分为多个步骤：

初始训练：由人类专家向模型输入“正向示例”（与Wi-Fi 7高度相关的专利）与“负向示例”（如易混淆的Cellular领域专利），划定分析边界。例如，在Wi-Fi技术专利与Cellular专利之间，如果仅通过关键词检索，会产生大量噪音。

多轮互动：模型输出初步挖掘结果后，交由Wi-Fi领域的资深专家进行复核。专家反馈“误判”（模型标记相关但实际不相关的专利）与“遗漏”（模型未标记但实际相关的专利），并将反馈注入训练集。

经过多轮迭代，在Wi-Fi 7项目中经人工抽样验证的准确率达到90%以上。卢宝锋强调，这一流程中，人机互动的质量直接决定最终结果的可靠性。模型输出并非终点，而是供人类专家批判与修正的“半成品”。经过多轮迭代后，将明确声明与挖掘出的未声明专利合并计算，松下增至127族专利，诺基亚增至50族，挖掘出的Wi-Fi 7相关专利族总数达到8977族——这一数字远高于基于明确声明的统计结果。

在这一过程中，团队还会通过“贡献者稳定性和技术分布”进行交叉验证。一方面，将挖掘出的专利权人排名与Wi-Fi 7提案机构的客观数据进行比对——若发现某提案数量较多的机构未出现在挖掘排名中，则反向检视数据是否存在偏差，必要时启动新一轮训练。另一方面，分析挖掘结果的IPC分类分布，若出现明显偏离主题的分类，则作为噪音信号触发人工干预，可能进行第27轮、第28轮的迭代优化。

四、必要性判断的多元路径：权利要求和标准文本的语义匹配

在完成专利范围的初步圈定后，如何判断其是否构成“标准必要”，则是另一个层面的挑战。卢宝锋坦诚指出，当前AI挖掘所实现的，仍是在海量数据中“圈定可能相关的专利范围”，而非直接判定其是否为标准必要专利。从8000余族Wi-Fi 7相关专利中确定每篇专利的必要性，仍需借助其他方法。除了人工的权利要求与标准文本的对照方式外，卢宝锋也介绍了IPlyticsc采用的语义匹配技术来判断SEP的必要性。语义匹配则试图通过算法计算权利要求与标准文本的相似度，作为必要性的参考指标。

五、跨技术领域的AI挖掘布局与数据动态性

在发言后半段，卢宝锋简要介绍了LexisNexis在更广泛技术领域的AI挖掘进展。除Wi-Fi系列外，公司已完成对VVC、HEVC、无线充电、蜂窝物联网（NB-IoT、LTE-M）等领域的专利分类工作。其方法论一以贯之：以监督式学习为核心，通过人机互动实现高精度分类，再辅以数据清洗解决格式混乱问题。

以NB-IoT为例，LexisNexis的技术路径是先通过3GPP规范定位相关技术特性，再结合AI分类与专家验证，将专利映射至NB-IoT、LTE-M等具体标准。

卢宝锋最后提及LexisNexis每年发布的5G专利报告。他指出，报告数据截至2025年10月31日，以有效授权专利为统计基础。若以当前（2026年3月6日）数据更新口径（包含有效申请），排名前十的权利人顺序已发生动态变化——例如中国移动由报告中的第14位上升至第10位。这一变化恰恰说明，SEP领域的数据具有高度动态性，静态报告只能反映特定时点的状况，而持续的AI挖掘与数据更新方能帮助产业界实时跟踪格局演变。

六、从“圈定范围”到“确定必要”的探索之路

卢宝锋在最后总结道，当前IPlytics标准必要专利数据库利用AI技术所实现的，是在海量数据中“圈定相关的专利范围”。AI的价值不在于替代人类判断，而在于以更系统、更高效的方式缩小讨论范围、降低人工审查的基数。

在这一过程中，监督式学习以其“人机协同、持续迭代”的特性，正在成为SEP挖掘领域不可忽视的方法论工具。对于企业知识产权团队而言，这意味着在SEP分析中，单纯依赖声明信息或专利池清单已难以满足现实需求，将AI工具与传统分析方法相结合，或将成为未来SEP挖掘的主流路径。随着数据清洗技术的完善与AI算法的演进，业界距离“让SEP分析更加清晰”的目标或许正逐步接近。

*注：本文所有内容仅为个人基于交流目的的言论分享，仅代表个人当下的观点输出，不代表本人固定立场，同时也不涉及、不代表任何公司或团队的官方立场与态度。

编辑：Sharon

分享到微博

分享到微信

分享到领英