cd ../
🎓 研究・学術
Requires OpenClaw v2026.2+|RAG + Zotero

OpenClawが博士課程の文献レビューを救った話

著者: u/BioPhDSurvivorFebruary 25, 2026 312 comments

計算生物学博士3年目。15ジャーナルの400+論文分析が必要な文献レビュー。Zoteroでの手動メモ取りで限界。OpenClawが4ヶ月の悪夢を3週間のスプリントに変換。

論文の山

400本の論文。15ジャーナル。方法間の関連特定、ギャップ発見、引用ネットワーク追跡。手動メモ取りでは不可能。

400+
レビュー論文
15
ジャーナル数
4ヶ月
推定時間
約12件
日次手動メモ

アーキテクチャ概要

研究室のUbuntuワークステーション(32GB RAM、RTX 4070)でOpenClaw稼働。Zotero API経由で文献ライブラリに接続、RAGパイプライン(sentence-transformers + ChromaDB)で全PDFをローカルインデックス。

┌─────────────┐    API      ┌──────────────┐
│   Zotero    │◄────────────│   OpenClaw    │
│   ライブラリ│────────────►│   エージェント│
│  (400+ PDF)│             └──────┬───────┘
└─────────────┘        ┌─────────┼─────────┐
                       ▼         ▼         ▼
                ┌──────────┐┌────────┐┌────────┐
                │ ChromaDB ││ Ollama ││Obsidian│
                │ ベクトルDB││Mixtral ││ ノート │
                └──────────┘└────────┘└────────┘

OpenClaw設定

IDENTITY.md
# IDENTITY.md — リサーチアシスタント

計算生物学博士課程のリサーチアシスタント。
文献レビュー、論文分析、統合を支援。

## 検索動作
- セマンティック検索を使用(キーワードマッチングではない)
- 常に含める:論文タイトル、著者、年、ジャーナル、DOI
- 撤回論文を必ずフラグ

## 統合ルール
- 引用の捏造禁止 — インデックス済み論文のみ参照
- 「論文が主張」と「論文が証明」を区別
- APA第7版引用形式を使用
setup.sh
# セットアップ:論文インデックスRAGパイプライン

pip install chromadb sentence-transformers pymupdf

python index_papers.py --zotero-dir ~/Zotero/storage \
  --model all-MiniLM-L6-v2 \
  --chunk-size 512 --overlap 64

# インデックス統計:
# 論文: 412 | チャンク: 47,832 | サイズ: 2.3 GB

1. 自然言語論文検索

ブール検索の代わりに自然言語で質問。セマンティック類似度で検索し、ランク付き結果と関連抜粋を返却。

クエリ: "タンパク質折り畳みにtransformerを使い、
AlphaFold 2を引用しRosettaを引用しない論文"

結果 (0.3秒):
│ 1 │ Lin et al. "ESMFold"        │ 2023 │ 0.94 │
│ 2 │ Wu et al. "構造予測"         │ 2024 │ 0.91 │
│ 3 │ Ahdritz et al. "OpenFold"   │ 2024 │ 0.89 │

⚠️ 矛盾検出:異なるGDT-TSスコア報告。要確認。

2. 自動論文統合

バッチで論文を読み、構造化比較表を生成。方法論の違い、矛盾、ギャップを特定。

比較表生成:
│ 論文      │ 方法       │ GDT-TS │ 限界         │
│ Lin 2023  │ ESMFold    │ 0.71   │ MSA入力なし  │
│ Wu 2024   │ RFdiffuse  │ 0.83   │ 高計算コスト │

📊 ギャップ発見:膜タンパク質の評価が欠如。
→ 論文貢献の可能性。

3. 引用付きドラフト作成

関連論文と主張を提供し、APA引用付き段落をドラフト。約40%を編集するが構造と引用は的確。

ドラフト出力:
"最近のtransformerアーキテクチャの進歩は、タンパク質
構造予測に顕著な可能性を示している。Lin et al. (2023)
はESMFoldを導入し...Ahdritz et al. (2024)はOpenFold
フレームワークを通じて方法論を検証..."

引用自動生成:
[1] Lin, Z., et al. (2023). Science, 379(6637).

4. 引用ネットワークマッピング

論文の引用関係を追跡し、高被引基礎論文を特定。分野横断的な意外な接続を発見。

引用グラフ:
Jumper 2021 (AlphaFold 2) ── 847引用
  ├── Lin 2023 (ESMFold)
  ├── Baek 2023 (RoseTTAFold)
  └── Wu 2024 (RFdiffusion)

🔗 意外な接続:
Chen 2024 (創薬) がAlphaFold 2と
Krishnamurthy 2019 (計算生態学) を共に引用。
→ 論文の「学際応用」セクションに追加

成果

文献レビュー3週間完成 — 定量比較:

指標手動プロセスOpenClaw使用変化
完了時間約4ヶ月3週間↓ 81%
分析論文数約150本(断念)412本↑ 175%
矛盾発見2件7件↑ 250%
分野横断接続03件新発見
「指導教員にマイナージャーナルの2019年論文をどう見つけたか聞かれた。『徹底的に検索しました』とだけ。AIインターンのことは言わなかった。」— u/BioPhDSurvivor

コスト分析

項目費用備考
研究室WS$0既存共有機器
Ollama + Mixtral$0セルフホスト
ChromaDB$0OSS、ローカル
合計$0/月vs 商用ツール$200+/月

追加コストゼロ。既存ラボ機器を活用。同等商用ツール(Elicit等)は月$200+。

学術倫理とプライバシー

全論文ローカル処理 — クラウドへのアップロードなし
新データ生成・結果捏造は絶対禁止
全引用が検証可能
ドラフトは出発点、最終提出物ではない
指導教員はツール使用を認識

⚠️ AI支援執筆は大学方針に従い開示が必要。出力はドラフト — 実質的な編集・検証が必須。

よくある質問

Q1. これは不正行為?

大学のAI支援ポリシーに準拠。40%を編集し、全引用を検証し、分析・解釈はオリジナル。指導教員に開示済み。

Q2. 推奨モデルは?

Mixtral-8x7Bが最適。Llama-3-8Bは統合比較が不十分。GPT-4は優秀だが未発表研究がOpenAIサーバーに送信される。

Q3. 引用精度は?

99.5% — インデックス済み論文のみ参照するため。0.5%のエラーは論文内の章節の誤帰属。

得られた教訓

チャンクサイズが重要

512トークン+64オーバーラップが最適。この調整で検索精度が25%向上。

AI引用を盲信しない

制約付きインデックスでも全引用をスポットチェック。412論文中2件の誤帰属を発見。

検索と構造化に使い、分析には使わない

論文発見と整理に優秀。深い分析は自分で。

Obsidianにノートをエクスポート

全統合表と接続マップをObsidian Markdownにエクスポート。ポータブルな永続的研究ノート。