計算生物学博士3年目。15ジャーナルの400+論文分析が必要な文献レビュー。Zoteroでの手動メモ取りで限界。OpenClawが4ヶ月の悪夢を3週間のスプリントに変換。
論文の山
400本の論文。15ジャーナル。方法間の関連特定、ギャップ発見、引用ネットワーク追跡。手動メモ取りでは不可能。
アーキテクチャ概要
研究室のUbuntuワークステーション(32GB RAM、RTX 4070)でOpenClaw稼働。Zotero API経由で文献ライブラリに接続、RAGパイプライン(sentence-transformers + ChromaDB)で全PDFをローカルインデックス。
┌─────────────┐ API ┌──────────────┐
│ Zotero │◄────────────│ OpenClaw │
│ ライブラリ│────────────►│ エージェント│
│ (400+ PDF)│ └──────┬───────┘
└─────────────┘ ┌─────────┼─────────┐
▼ ▼ ▼
┌──────────┐┌────────┐┌────────┐
│ ChromaDB ││ Ollama ││Obsidian│
│ ベクトルDB││Mixtral ││ ノート │
└──────────┘└────────┘└────────┘OpenClaw設定
# IDENTITY.md — リサーチアシスタント 計算生物学博士課程のリサーチアシスタント。 文献レビュー、論文分析、統合を支援。 ## 検索動作 - セマンティック検索を使用(キーワードマッチングではない) - 常に含める:論文タイトル、著者、年、ジャーナル、DOI - 撤回論文を必ずフラグ ## 統合ルール - 引用の捏造禁止 — インデックス済み論文のみ参照 - 「論文が主張」と「論文が証明」を区別 - APA第7版引用形式を使用
# セットアップ:論文インデックスRAGパイプライン pip install chromadb sentence-transformers pymupdf python index_papers.py --zotero-dir ~/Zotero/storage \ --model all-MiniLM-L6-v2 \ --chunk-size 512 --overlap 64 # インデックス統計: # 論文: 412 | チャンク: 47,832 | サイズ: 2.3 GB
1. 自然言語論文検索
ブール検索の代わりに自然言語で質問。セマンティック類似度で検索し、ランク付き結果と関連抜粋を返却。
クエリ: "タンパク質折り畳みにtransformerを使い、 AlphaFold 2を引用しRosettaを引用しない論文" 結果 (0.3秒): │ 1 │ Lin et al. "ESMFold" │ 2023 │ 0.94 │ │ 2 │ Wu et al. "構造予測" │ 2024 │ 0.91 │ │ 3 │ Ahdritz et al. "OpenFold" │ 2024 │ 0.89 │ ⚠️ 矛盾検出:異なるGDT-TSスコア報告。要確認。
2. 自動論文統合
バッチで論文を読み、構造化比較表を生成。方法論の違い、矛盾、ギャップを特定。
比較表生成: │ 論文 │ 方法 │ GDT-TS │ 限界 │ │ Lin 2023 │ ESMFold │ 0.71 │ MSA入力なし │ │ Wu 2024 │ RFdiffuse │ 0.83 │ 高計算コスト │ 📊 ギャップ発見:膜タンパク質の評価が欠如。 → 論文貢献の可能性。
3. 引用付きドラフト作成
関連論文と主張を提供し、APA引用付き段落をドラフト。約40%を編集するが構造と引用は的確。
ドラフト出力: "最近のtransformerアーキテクチャの進歩は、タンパク質 構造予測に顕著な可能性を示している。Lin et al. (2023) はESMFoldを導入し...Ahdritz et al. (2024)はOpenFold フレームワークを通じて方法論を検証..." 引用自動生成: [1] Lin, Z., et al. (2023). Science, 379(6637).
4. 引用ネットワークマッピング
論文の引用関係を追跡し、高被引基礎論文を特定。分野横断的な意外な接続を発見。
引用グラフ: Jumper 2021 (AlphaFold 2) ── 847引用 ├── Lin 2023 (ESMFold) ├── Baek 2023 (RoseTTAFold) └── Wu 2024 (RFdiffusion) 🔗 意外な接続: Chen 2024 (創薬) がAlphaFold 2と Krishnamurthy 2019 (計算生態学) を共に引用。 → 論文の「学際応用」セクションに追加
成果
文献レビュー3週間完成 — 定量比較:
| 指標 | 手動プロセス | OpenClaw使用 | 変化 |
|---|---|---|---|
| 完了時間 | 約4ヶ月 | 3週間 | ↓ 81% |
| 分析論文数 | 約150本(断念) | 412本 | ↑ 175% |
| 矛盾発見 | 2件 | 7件 | ↑ 250% |
| 分野横断接続 | 0 | 3件 | 新発見 |
「指導教員にマイナージャーナルの2019年論文をどう見つけたか聞かれた。『徹底的に検索しました』とだけ。AIインターンのことは言わなかった。」— u/BioPhDSurvivor
コスト分析
| 項目 | 費用 | 備考 |
|---|---|---|
| 研究室WS | $0 | 既存共有機器 |
| Ollama + Mixtral | $0 | セルフホスト |
| ChromaDB | $0 | OSS、ローカル |
| 合計 | $0/月 | vs 商用ツール$200+/月 |
追加コストゼロ。既存ラボ機器を活用。同等商用ツール(Elicit等)は月$200+。
学術倫理とプライバシー
⚠️ AI支援執筆は大学方針に従い開示が必要。出力はドラフト — 実質的な編集・検証が必須。
よくある質問
Q1. これは不正行為?
Q2. 推奨モデルは?
Q3. 引用精度は?
得られた教訓
チャンクサイズが重要
512トークン+64オーバーラップが最適。この調整で検索精度が25%向上。
AI引用を盲信しない
制約付きインデックスでも全引用をスポットチェック。412論文中2件の誤帰属を発見。
検索と構造化に使い、分析には使わない
論文発見と整理に優秀。深い分析は自分で。
Obsidianにノートをエクスポート
全統合表と接続マップをObsidian Markdownにエクスポート。ポータブルな永続的研究ノート。