AI エージェントとの過去ログを横断検索できるようにしたら、タスク管理とスキル改善がだいぶ楽になった話

*この記事はAIと協力して作成しました

Claude Code や Codex を使っていて、「この前やってたやつの続きから再開したい」と思ったことありませんか？

セッションをまたいで継続したい（コンパクトはしたくない）
日をまたいでタスクの続きをやりたい

みたいなケースが頻繁にあって、「どこまでやったっけ」「どこから再開しよう」を探さないといけなくて、毎回手間でした。一応タスク管理はしていたんですが、結構面倒だったので、いい方法ないかなと思って以下記事

https://zenn.dev/noprogllama/articles/7c24b2c2410213

を見つけて、これをベースにツールを作るとうまく解決できるかも？と思って作成したら思ったより便利だったので、まとめました。

会話を終えると「どこまでやったっけ」を自分で探さないといけなかった

普段、タスクを管理するためには自作のタスク管理ツールを使っています。大きめのタスクはこの管理ツールを使ってドキュメントにまとめたり、進捗を書いて管理することが多いです。

小さめのタスクに関しては、セッションIDだけを控えて次回同じセッションで再開したりするケースもありましたが、特に記録もせず、過去の生ログから該当セッションIDを探してもらって再開したり、worktreeから差分を見て再開したりと、特に管理という管理をしていないケースも多かったです。

ただ、当然管理していないので、うまく見つからなかったり、探すのにちょっと時間がかかるケースもあって、何気に少し手間でした。

過去ログを検索して、「ここから再開して」と伝えるだけで済むようになった

こうした面倒が、過去ログ検索ツールのおかげでだいぶ楽になりました。

「確か昨日こんな感じでやってたやつの続きをやりたいから、ちょっと調べて」

とか、

「この〜のやつ、確か前にやってたはずなんだけど、どんな感じだったっけ？」

みたいに聞いてみると、結構な精度で対応するログを見つけてくれます。そして、ログから文脈も把握してくれるので、基本的に認識と大きくずれた再開にはならず、なんならコンパクトよりも要約されていない分、記憶がそのまま引き継がれた気がします。おかげでスムーズに作業を再開できるようになりました。

もともとはさっき書いたようなセッションIDの探索を効率的にしたり、過去のやりとりの確認を楽にできたらいいなと思っていたレベルなんですが、これを使って都度過去の文脈を辿ってもらうことで、一定レベルのタスクだったらタスク管理が入らなくなりました。なので、

「タスク管理が便利になった」

というよりも、

「ある程度のレベル以下のタスクについては管理しなくてもいいケースが増えた」

という認識をしています。

スキルの「ここ微妙」を直すのも楽になった

スキルの改善もかなり取り組みやすくなりました。

スキルの作成や改善の際に、よくClaude CodeやCodexの生のログを読んでもらっていたんですが、毎回あまり整備されていないログから探索してもらうと時間がかかるので、duckdbで扱いやすくするツールを作って、いい感じに使えないか試していました。ただ、スキル改善のためだけのツールを想定していて、定期的なログ取り込みをサボりがちで、結局使わなくなりました。

一方、過去ログ検索ツールは毎回のやり取りの際に使ってもらうことが多く、その度に最新のログを取り込んでから使ってもらうような運用にしているので、使わないということが発生しません。そのおかげで、

「スキルを使っているところで〜みたいなところがあって、これを改善したい」

みたいな感じで伝えると、すぐに確認してくれて、スキル改善作業を開始できるようになりました。あまり意識せずに使えるような仕組みになっていたのが良かったのかなと思います。

検索しやすい状態で文脈の鮮度が維持されるので、精度の高い改善案が出る

また、過去ログ検索ツールを通すと、AIが文脈を理解しやすくなっている気がしています。おそらく、生のログよりも目的の情報を見つけやすくなったから？なので、改善案もより実態に即したものが出てきやすくなっていると思います。

もちろん微妙な改善案もあるので、その辺りの判断に関しては人間の介入は必要ですが。

新しいスキルの探索にも使えそう

スキルを新しく作る用途としても、色々活用できそうな気がしています。

普段からスキルを作るメタスキルを使ってスキル運用をしているのですが、これと過去ログ検索ツールを組み合わせることで、自発的にアイデア出し -> スキル作成をやっていきたいなと思っています。

ざっくりスキルにした方がいいやり取りの判断基準を定めた探索スキルをつくって試したんですが、いくつか悪くないアイデアがでてきたので、いけるかもしれない？

今運用し始めているHermesAgentみたいな自律エージェントにこの辺り自動でやってもらえるか試してみたいなと思って検討中です。質の高いスキルを作ってもらうのはなかなか難しいとは思っていますが。

VPSとローカルを同期してやり取りを共有できるように改修中

ローカルとVPSのコンテキストが共有できたら、やり取りを行き来できるようになって便利になりそうなので、現在改修中です。やり取りの行き来もそうですし、サボりがちな人間に変わって、ログをみて能動的にメタスキル駆動でスキルの改善アイデアを出してもらったりできたらいいかなと。

使っているのはRust と SQLite

言語はRust、DBはSQLiteです。Rustはただ速さを求めたのと、書いてもらいたかっただけで、全くコードは見ていません。

CLIで使えるようにしていて、Claude Code と Codex のログに加えて、自作の管理ツールから出てくるエージェントのログを、ingestコマンドで全部同じように整形してデータベースに取り込めるようにしています。

あとは、調べやすくする機能、深く検索したいときに直接 SQL を叩けるコマンドや、会話ログからツールコールを除外する／含めるを切り替えられるコマンドなど。

あまり多機能ではないです。また、ベクトル検索も一旦入れていません。以前使っていたツールで入れていたんですが、なくても困らないなと思っていたので。ただ、入れるだけで精度は上がるかもしれないのと、ログが増えてくると必要になってくるかもしれないかな？

運用フローとスキルを作ってCLAUDE.md / AGENTS.md に記載して使ってもらう

どのAIでも常に意識して使って欲しいので、Claude Code と Codex の両方で使えるようにしています。また、自律エージェントのシステムプロンプトにも同じように組み込んでいます。書いているのはこんな感じ。

## 過去の会話を参照する（tool-name）

今のセッションにない過去の文脈が必要な時は `tool-name` CLIで過去のセッションを検索する。
例：ユーザーが「前に話した〇〇」と言った時、過去の設計判断の経緯を確認したい時、同じ問題の解決履歴を探したい時。

### 検索前に必ず tool-name ingest を実行する
tool-nameのインデックスは自動更新されない。検索前に `tool-name ingest` を実行して最新のセッションログを取り込んでから検索する。

使い方は `using-tool-name` スキルを参照。

詳細な使い方を知ってもらうために、helpコマンドの整備に加えて、スキルも作成しているので、あまりツールの使い方でハマるようなケースはなく、問題なく使ってくれています。

DBへの取り込みも、会話のたびにやってくれてたまることがほとんどないため、そんなに時間がかかりません。だから、運用時に時間がかかってこまるということもなく運用できています。

まとめ

Zennの記事をみて便利だなと思って導入したら、思ったところとは違う面でいろいろ便利になったので、今のところ作って良かったかなと思っています。ちょうどOpenAIがメモリ管理でChronicleというのを出してきたのでいらなくなるかもしれませんが。

https://developers.openai.com/codex/memories/chronicle

ただ、AIを横断して使えるようなメモリ機能ではないので、どうしようかは精度も含めて悩みどころになりそう。多分本家はどこも出してくれないので、できれば出して欲しい。

おわり

🐻