未被无效掉的语义检索的“核弹级”专利能否‘核平’整个专利数据界
最近专利数据库圈出了一个大瓜,Patentics核心专利被人提无效了,结果维持专利权有效。然后就有文章《一个无效宣告拳打过去,却发现是“核弹级”专利》说Patentics“手里真的有一颗核弹,绝对能把整个专利数据界都‘核平’了”,甚至说连“国知局内部的系统恐怕也在‘如来佛的手掌中’”。那么我们今天也来分析一下这件“核弹”专利,看看是否威力确实有那么大!
根据Patentics的说法,未被无效掉的核心专利保护的是“B and R(布尔检索表达式和语义检索表达式)”的技术,如果真是这样的话,那么当前几乎所有使用语义排序的检索系统都会侵权,不仅是商用专利检索工具,甚至包括百度、谷歌等可以对检索结果作排序的系统都存在侵权风险。
所以,技术的分析必然没有那么简单,根据前文《专利检索中先布尔再语义还是先语义后布尔,这是一个问题》分析,CN200810105725.1(对搜索结果重新排序的方法和系统),在授权时经历了一次复审,最终授权版本的权利要求1如下:
了解Patentics的应该对以下“B and R(布尔检索表达式和语义检索表达式)”检索式很熟悉:
B/手机 AND R/屏幕
其中“B/手机”就是一种布尔检索表达式(权利要求中的搜索表达式),“R/屏幕”就是语义检索表达式(权利要求中的重排序表达式)。根据步骤一先用“B/手机”检索出一批专利,然后根据步骤二对步骤一检索出来的专利按与“屏幕”意思的相关性进行重新排序,然后按步骤三显示排序后的所有专利。
后审过程中的权利要求修改对这件专利的保护范围起到了非常大的限制作用,授权的权利要求1中主要改变了两个特征,一是增加了“其中重排序表达式与搜索表达式同时输入”,二是删除了对部分文档进行排序和显示部分文档的技术方案(根据重排序表达式,对部分文档进行重排序,以所述排序来显示所述搜索结果中的部分文档),只保留了对所有文档进行排序并显示所有文档的技术方案。
复审时,Patentics对修改也作了具体的说明,将发明点明确在了显示全部搜索结果,不对搜索结果进行取舍,从而实现在搜索结果不变少的情况下,让用户看到他期望优先看到的内容。
也就是说,其他系统如果也想使用“B and R(布尔检索表达式和语义检索表达式)”,只要不是同时输入布尔检索表达式和语义检索表达式或者检索结果不显示所有文档就可以避免侵权。因此也就有了很多数据库采用的先布尔后语义和先语义后布尔的检索模式,以及只显示前N个语义检索结果而不显示完整语义检索结果的设置。
从这个角度来看,Patentics这件专利严格意义上不能说是“B and R(布尔检索表达式和语义检索表达式)”的原创专利或基石专利,只能说是同时输入“B and R”并且显示所有检索结果,这一专门针对具有查全要求的专利检索使用场景的应用专利,技术创新谈不上,更像是将专利审查员给Patentics提出的一个使用需求去申请了专利。
回到正题,无效虽然没有成功,但无效决定中的证据1却比复审的对比文件更近了一步。
可见证据1公开的查询示例中,包括了布尔查询和重排序内容,并且先根据布尔查询获得文档子集,再通过计算子文档集中的文档与重排序内容的余弦距离来生成结果的排序列表。结果示例中,每个结果有一个得分,也就是语义检索结果给的相关度。与Patentics这不是一样的吗?
在文章《一个无效宣告拳打过去,却发现是“核弹级”专利》中写道:“非常客观的讲,这是当前所有检索系统里最好的表达方式,因为首先其没有损失布尔的信息,其次它给了检索者在阅读检索结果时非常大的帮助,即检索者此时可以用上算法赋予的加成,在概率上极大的减少自己额外阅读不相关文献的数量,更加多快好省地获得自己想要的结果。单纯就Patentics这个功能上而言,对比目前业内的其他厂商,应该说有相似,但是能做到这个解决方案的还是少,绝大部分厂商的解决方案是基于一个语义/智能检索推送的有限集合,比如500篇,800篇,然后在这个有限集合内进行二次布尔干预。这样在实际检索结果上大打折扣了。”这件专利显然不是先做了语义检索然后再用布尔做限定,而是先做了布尔检索然后用语义排序。
看看无效决定,认为证据1“表示其显示需求的重排序内容并不是以重排序表达式的方式与搜索表达式同时输入,进而实现搜索与显示的”,与复审决定不一样的是,区别特征中不再提“显示全部结果”,区别特征为:“重排序表达式包括重排序内容,其中重排序表达式与搜索表达式同时输入”,实际解决的技术问题中仍有“显示全部结果”的内容:“在搜索结果不减少的情况下,如何提高用户对搜索结果的浏览效率,使用户能够更快更准确地获得需要的信息”。
由此看来,似乎“同时输入”是最大的发明点,那么对其他数据商来说,既然证据1已经公开了先做布尔检索然后用语义排序的方案,那只要避免“同时输入”这个形式上的问题,就可以做现有技术抗辩,不涉及侵权。
但放到证据1中,“同时输入”好像仅仅只是输入方式形式上的区别,而计算机实质上的运行步骤和结果并没有区别。同时,从证据1公开信息来看,其将“我是一名c ++程序员,在面向对象的分析和设计方面经验丰富,正在寻求高级开发职位”,要求的条件为“ oop”,字段的要求为“ Salary> $ 60,000”作为一个查询(Query),应该不难认定“重排序表达式包括重排序内容”和“同时输入”,因为将一个查询分步骤两次输入,确实没有比“同时输入”符合常理。
证据1查询内容原文
而证据1在第22栏第22行附近也公开了:查询由两个不同的部分组成:布尔查询和匹配的伪文档向量(也就是重排序内容)。
对于“显示全部结果”,证据1里公布了:首先布尔查询返回符合条件的文档子集,接下来,通过计算伪文档之间的余弦距离来生成结果的排序列表。无效决定里也认定了是返回所有文档。
有意思的是,两件专利除了使用的搜索步骤非常相似以外,连文中使用的语义算法都一样是潜在语义索引(LSI),都是将专利通过LSI转化为向量后计算向量的余弦距离,生成排序结果。甚至连说明书附图也极其相似。
Patentics专利附图
无效决定对比文件1专利附图
正如文章《一个无效宣告拳打过去,却发现是“核弹级”专利》所说,“2008年5月4日的申请日。要知道iPhone是2007年发布的,微信是2011年上线的,这篇专利的申请日与这些我们熟悉的日常内容一样,即熟悉到你感觉用了它一辈子,其实在科技层面上它们都是‘上古时代’了!”但不同国家不同技术的发展时代并不相同,对中国来说是‘上古时代’的技术,对于美国可能并不是。
如果对证据1在美国专利库中进行语义检索或关键词搜索“Boolean and semantic”(布尔 and 语义),可以发现同期美国有非常多将潜在语义索引应用在信息搜索中的专利,类似的原理解释也都如出一辙,还有对其的不同改进。有意思的是,证据1的延续案,2009.01.27公开的US7483892B1,更是把证据1中的这类搜索方法用到了专利搜索中,写进了权利要求19。
Patentics的老板是美籍华人,从年龄看,是国内第一批计算机程序员,当时有能力去美国发展肯定是最优的选择,能最先接触到硅谷最先进的算法也是很正常的事情,而Patentics在国内兴起的时候,国内的计算机软件和算法发展还非常落后,随便带一个技术来中国发展都大有可为。
从证据1及其同一时期的相关专利来看,语义检索在当时的美国已经是非常通用的技术,Patentics这件专利更像是专门针对具有查全要求的专利检索使用场景的应用专利。算法上都是传统的潜在语义索引,与其他美国专利如出一辙。复审时将这件专利保护的布尔+语义的应用,限定到了仅保护同时输入两种指令,并且输出所有检索结果的范围;本次无效决定中又认定了证据1也可以实现“返回所有检索结果”,而“同时输入”的认定也存在一定的裁定空间,并且仅仅“同时输入”这一特征能不能支撑发明中和无效决定中所说的“搜索结果不减少的情况下,提高用户对搜索结果的浏览效率,使用户能够更快更准确地获得需要的信息”这一技术效果,撑起发明专利创造性的高度。
虽然这次无效没有成功,但从证据看来也只是暂时没被无效掉,同时复审和无效也明确了许多侵权的必备要件,判定侵权也不是那么容易的,是不是“商机”由大家自己去判断。但在该专利仍然处于有效的情况下,国内各家专利数据库最好在实现“B and R(布尔检索表达式和语义检索表达式)”时,尽量避免“布尔检索表达式和语义检索表达式同时输入”和“返回所有检索结果”两个特征,实际检索效果也不会有太大区别。除此之外,就只能看请求人对此专利会不会有进一步的请求了。、
来源:IPR learn
编辑:梵高先生