テキストに表現された内容を単語単位、文節単位、文単位で集計し、それぞれの頻度と文書間の違いを明確にして類似関係を抽出します。この技術によって、文書の検索、文書間関係の可視化など、さまざまな局面で有効なデータ活用が可能になります。
数百万件におよぶ過去の特許データに対して、統計的機械学習による自然言語処理を用いて引用の抽出を行うことにより、各種研究や分析に有用なデータを作成することができます。2002年の特許法改正により、特許文献や非特許文献の引用開示が義務化されるなど、特許引用情報の重要性はより高まっています。
最近の人工知能ブームは、この方法で画期的な性能が期待できることから、多くの応用が開発されています。根本的な機械学習の自律性を可能にした技術は、今後、人間の精度を越える可能性を示しています。