SearchPatentWithLLMは、ユーザのアイデアと近い特許が無いか簡単に調べることができる web アプリケーションである。
このアプリは、従来の特許調査サイトを使う知識の無い全ての発明家のために作られた。
ユーザは「どんな問題に対するアイデアか」、「アイデア名」、「アイデアに使う技術」、「どうやって問題を解決するか」を入力するだけで、自分のアイデアに近い特許が無いか調べることができる。
このソフトウェアは、特許検索のための新しいアプローチを提供します。主な特徴は以下の通りです:
-
アイデアベースの入力
- ユーザーはキーワードではなく、自分のアイデアの概要、技術、問題解決方法、解決する問題の 4 つの側面から入力します。
-
LLM による自動キーワード抽出
- Large Language Model (LLM) を使用して、特許文書とあなたのアイデアから 10 個のキーワードを自動的に抽出します。
-
embedding と階層的クラスタリングを使用した前処理
- キーワードを embedding に変換し、階層的クラスタリングを使用して、意味的に近いキーワードを同じクラスに分類します。
-
セマンティック検索手法
- embedding されたキーワードから最も近いワードを特定し、そのワードのクラスに属する全てのワードを使用して、ワード一致数が多いトップ 10 の特許を特定します。
- LLM、特許検索、AI の組み合わせ
- これらの技術を組み合わせることで、従来のキーワードベースの検索とは異なる、新しい特許検索手法を提供します。
demo.mp4
In Progress
なぜユーザが使える状態にないのか
以下の内容を案内する文章/コードを書くのがめんどうなため1. 特許庁からバルクデータとAPIを取得するため、前処理をユーザが行うのに、特許庁への登録申請が必要であり、これはQuick Startといえるほど楽に行えない。
2. デモビデオのために使用した特許15,000件と、そのキーワード82,000件のデータは700MB程度あり、これをユーザのmongoDBに簡単に入れてもらうための案内、またはコードを書くのがめんどう。
- gemini-pro
- text-embedding-3-small
- numpy,fastcluster,scilit-learn,scipy
- matplotlib
- flask,flask_socketio
- mongoDB,redis,pinecone
- Mupdf
- concurrent.futures
- Daniel Müllner, "fastcluster: Fast hierarchical clustering routines for R and Python", https://danifold.net/fastcluster.html