米乐中国 m6平台官网米乐中国 m6平台官网上次我们讨论了AI对专利检索的影响,专利检索是一项非常专业的任务。这项工作的门槛似乎不高,但要精通却非常困难。检索人员需要能够迅速理解技术,具备敏锐的嗅觉和联想能力,并且对专利法有深入的理解。检索的主要步骤大致包括:理解技术;总结关键点(criteria);编辑检索式;对比文件筛选;专利比对(包括权利要求的比对);撰写分析。上篇文章分析了AI在理解技术和总结关键点方面的优势,这是做好专利检索分析的第一步。
关于编辑检索式,不同的检索类型对编辑检索式的要求程度不同。对于查新/新颖性检索,一般不要求编写完备严密的检索式,这类检索对查全率没有高要求,只要找到能够挑战相关方案新颖性和创造性的对比文件即可。而对于FTO、Landscaping的检索,通常需要编写较为严密的检索式,检索式之间讲究逻辑,因此这类检索通常需要编写一整套环环相扣的检索式,从多个角度布置一张网,确保查全率和查准率。编辑检索式是一项专业工作,要想编写一个好的检索式,不仅需要检索人员熟悉相关技术领域,还需要掌握良好的检索技巧,并且具备一定的联想和想象力。这种联想和想象力就是检索人员的嗅觉,优秀的检索人员总能发现好的“梯子”,爬到想要的位置。许多人认为,检索可以通过“暴力”来解决。如果一个检索人员检索不到,就找十个人同时背对背检索,总能穷尽。但实践中,这并不总是有效。对于“梯子”相对容易找到的文献,多花些时间,多投入些人力,通常可以解决问题。然而,对于那些看似不同,但仔细研究却发现非常相似的文献,仅靠人海战术是难以奏效的。如果人海战术能够完全应对搜索任务,这项工作就可以被AI替代。
目前,AI已经能够编写初步的检索式,例如在检索时需要扩展同义词,这是AI完全可以做到的。此外,AI能够从不同角度模仿人类编写检索式,例如Maxipat可以做到这一点。输入一段话,系统自动将这段话转换成多套检索式。
输入一段话:一种自动滤渣的豆浆机,包括豆浆机的刀片座、滤网及豆浆机杯。所述豆浆机的刀片座可以电动旋转,所述滤网能够通过卡口固定到豆浆机的刀片座上,使得滤网可以跟随刀片座一起转动,滤网和刀片座都设置在豆浆机杯内。本实用新型的有益效果在于提供了一种自动滤渣的豆浆机,豆浆机的刀片座设置成可电动旋转的,并且滤网能够与刀片座联动,实现过滤豆渣的功能。
这种做法并不难,只要将各国审查员在审查专利时编写的检索式收集起来,并将它们与相关专利的权利要求对应起来,训练一个能够编写检索式的模型的难度不大。但是,AI编写的检索式与审查员编写的仍有差距。好在模型可以根据反馈结果不断调整检索式,只要给予足够的时间和算力,AI还是能够编写出不错的检索式。
在讨论AI搜索时,我们必须提及语义搜索。语义搜索的历史相对较长,其核心是将相关语料转换为数学上的向量,建立一个向量数据库。对于专利来说,就是将专利文本转换为向量,存入向量数据库。用户进行语义搜索时,系统会将用户输入的问题也转换为向量,然后计算两个向米乐m6官网 mile米乐m6量的相似度。这种搜索的准确性取决于将文字转换为向量的模型,即“embedding”。为了准确地进行转换,需要投入大量精力去训练embedding。向量搜索存在固有的缺陷,总是会有误差,研究人员采用了各种方法来减少这些误差。
在专利或论文的语义搜索中,还存在一个天然的悖论:向量搜索在搜索行为非常接近或密集的情况下比较有效。例如,在双11期间,许多人同时在搜索“衣服”、“袜子”,这些近似的搜索基本上都可以缓存、模糊处理并推荐给用户。不同的搜索之间差异较大,例如搜索“袜子”和“电饭煲”,这两个搜索行为之间的差异较大,很容易进行识别。在专利或论文搜索中,不同用户搜索的文献可能非常接近,搜索行为却极为稀疏。例如,关于豆米乐m6官网 mile米乐m6浆机刀片的专利可能有几千篇,不同的检索人员都在检索豆浆机的刀片,但他们总是在寻找豆浆机刀片的不同技术方案。几百篇专利都在讨论豆浆机刀片,这些文献在转换为向量时非常接近,而不同人员在检索时输入的检索目标不同,转换为向量时也非常接近。向量搜索在专利和论文搜索时会遇到很大的困难。
为了减少向量搜索的近似误差,在论文或专利搜索领域,通常会建立分词表,收集专利中的一些专业词汇,建立分词表,这样可以大大提高语义搜索的准确率。Maxipat曾经通过模型建立了包含7000万词的中英文分词表。此外,无论是语义搜索还是关键词搜索,都存在排序问题,也有不同的排序方法。
随着AI技术的发展,我们发现一种新的模型特别适合专利和论文的搜索,那就是Graph Transformer。这种模型可以完美地避免传统语义搜索的缺点,将所有专利文献直接转换为图形结构,直接以图形数据进行匹配。效果相对传统的语义搜索,在检索性能上提高很多。
Maxipat致力于作为成为科技创新和知识产权工作的AI加速器,主要包括辅助创新:提高研发的科技创新效率,通过problem-solution算法深层关联到的真实技术方案,能够跨领域进行技术方案的深层挖掘和关联;智能搜索与分析:将专利搜索和制作借助AI实现智能化,包括智能查新、无效、FTO、Landscaping。目前开放注册中。