學術寫作不該是一個人的事

一套開源 AI 協作工具如何改變研究者的工作流

Edward Wu

Mar 08, 2026

📌 2026-04-19 更新摘要

這篇文章原發佈於 2026-03-08，當時 ARS 停在 v2.8 / v2.9 交界。過去一個多月，suite 從 v2.9 一路更新到 v3.3.6，主要新增五波能力：

v3.0（4/3） 反諂媚機制、意圖偵測、跨模型獨立驗證、AI 自我反思報告
v3.1（4/6） Anti-Context-Rot 檔案切分、16 個認知分析框架、Lean Size 瘦身
v3.2（4/9） Lu 2026 整合：七模 AI 研究失敗清單、Reviewer Calibration Mode、Venue Disclosure Mode、Fidelity-Originality 模式光譜、Early-Stopping
v3.3（4/9） PaperOrchestra 整合：Semantic Scholar API 程式化驗證、Anti-Leakage 知識隔離、VLM 圖表驗證、Score Trajectory
v3.3.2–3.3.6（4/14–4/15） 透明度基礎建設：三層 data_access_level、task_type 聲明、benchmark report schema、repro_lock、ARCHITECTURE.md 單一真相來源

以下原文保留，相關段落補上對應版本標註；文末附完整版本演進時間軸。

充滿荊棘的研究之路

如果你做過學術研究，你一定經歷過這些：

文獻回顧的無底洞：花三天搜文獻，讀了 40 篇，整理出來的筆記卻無法收斂成論點
寫到一半失去方向：第三章寫完才發現跟第一章的研究問題對不上
引用焦慮：投稿前反覆檢查每一篇參考文獻有沒有寫錯年份、拼錯作者名
沒有人幫你審：同事太忙、指導教授沒空，你的論文在投稿前從未被認真審查過
格式地獄：內容寫完了，但 APA 格式、LaTeX 排版又吃掉一整天

這些痛點的共同根源是：學術寫作的流程太長、太碎、太孤獨。

你需要的不是一個「幫你寫論文」的 AI，而是一個能陪你走完全程的研究夥伴，從研究問題到最終的 PDF。

Academic Research Skills (ARS)：一套開源的 AI 學術協作工具

我做了一套 Claude Code skills，把學術寫作拆成可管理的階段，每個階段都有專門的 AI agent 團隊負責：

GitHub: github.com/Imbad0202/academic-research-skills

授權: CC-BY-NC 4.0（非商業可自由使用）

「輸入題目→輸出論文」不再是黑盒子。它是一個 10 階段的結構化工作流，你在每個階段都保有控制權。

ARS 能幫你做什麼？

1. 研究階段：不只搜文獻，幫你收斂問題

deep-research skill 有 13 個 AI agent 協作，支援 7 種模式：

蘇格拉底模式 — 你有模糊的想法，需要被引導釐清研究問題
完整研究模式 — 你要一份完整的文獻綜述 + 研究設計
快速模式 — 你只需要一份 research brief
文獻回顧模式 — 你要系統性文獻回顧
事實查核模式 — 你需要驗證特定主張
論文審查模式 — 你想在寫之前先審查已有文獻的品質
系統性文獻回顧模式 — 你要做 PRISMA 規範的系統性回顧，含偏誤風險評估和 meta-analysis

系統性文獻回顧模式內建 PRISMA 2020 報告模板、RoB 2 偏誤風險評估 agent、以及 meta-analysis agent（計算效果量、異質性、產出森林圖數據）。如果你在做系統性回顧，不再需要手動套用 PRISMA checklist——流程自動引導你完成 27 個報告項目。

重點不是「給你 50 篇文獻清單」，而是幫你從文獻中萃取可用的論點，並在過程中不斷追問：你的研究問題夠精確嗎？你的方法論撐得住嗎？

蘇格拉底模式內建收斂準則，能偵測 5 種訊號（問題穩定、方法收斂、文獻飽和、使用者信心、自我校準準確度），自動判斷何時從引導對話轉入正式研究。不再需要你自己決定「想得差不多了」。

v2.8：SCR 反思機制（State-Challenge-Reflect）

蘇格拉底模式整合了 SCR 反思機制，讓引導式對話更有深度。

為什麼要做這個？ 原本的蘇格拉底對話在引導使用者思考方面已經有效，但缺少一個關鍵環節：讓使用者先表態、再被挑戰、最後自我反思。當你先做出預測再看到結果，預測與現實的落差會迫使你重新審視自己的假設——效果比直接被告知答案好得多。

怎麼運作？

表態（State）：在給你看文獻或資料之前，先問你的預測——「你覺得你的研究方法最大的弱點是什麼？」「如果你是審稿人，第一個會挑戰什麼？」
挑戰（Challenge）：展示可能與你預測不同的資訊，但不直接說「你錯了」，而是自然地引入反面觀點
反思（Reflect）：引導你自己解釋預測與現實之間的落差——「你之前預期 X，但我們發現 Y，你怎麼看這個差異？」

好處是什麼？

你會更了解自己的盲點——哪些地方容易高估、哪些容易低估
論文修訂方向更精準——因為你已經知道自己的判斷偏差在哪
隨著對話進行，你的自我評估會越來越準確——這本身就是研究能力的成長

不喜歡？可以隨時關掉。 說「跳過預測」或「直接討論」就會關閉 SCR，蘇格拉底式提問照常進行，只是不會再問你預測。說「恢復預測」就重新開啟。整個過程你不會看到任何技術術語。

啟動方式也很自然：蘇格拉底模式用意圖偵測（intent-based activation），不需要輸入特定觸發詞。系統偵測的是你的意圖，不是特定字串——用任何語言表達「我有個模糊想法，不確定怎麼開始」都能觸發。架構上是雙層設計：Layer 1（skill 啟動）用雙語關鍵字確保匹配信心，Layer 2（mode 路由）用語言無關的意圖信號。當意圖模糊時，預設偏好蘇格拉底模式——先引導比較安全，你隨時可以切換到完整研究模式。

v3.1：Anti-Context-Rot + 認知分析框架

蘇格拉底模式長時間對話有個隱性問題：agent 檔案太肥，context window 塞到後面幾輪品質會掉。v3.1 把 agent 定義拆出去放到 references/，主檔只留骨架，agent 平均瘦身 33%，同一份 context 可以撐更多輪。

同時新增 16 個認知分析框架（Kahneman 的 System 1/2、Shannon 資訊理論、Marr 三層分析等），Socratic Agent 會視問題類型挑合適的框架去拆解，不再用同一把鎚子敲每顆釘子。

2. 撰寫階段：逐章引導，不是一次生成

academic-paper skill 有 12 個 agent，最有價值的是 plan 模式：

不直接開始寫，先用蘇格拉底式對話幫你規劃每一章的內容、結構、論證邏輯（同樣使用意圖偵測——表達「不知道怎麼開始」「幫我規劃」等意圖即可觸發，不限語言）
等你確認大綱後，再逐章撰寫
支援 IMRaD、文獻回顧、理論分析、案例研究、政策簡報、研討會論文等結構
自動產出中英雙語摘要

v2.9：Style Calibration + Writing Quality Check

每個用 AI 寫作工具的研究者都會問：「要怎麼讓 AI 寫出來的文章更像我的風格？」

Style Calibration（風格校準，選用）：提供 3 篇以上你過去的論文，pipeline 就能學習你的寫作風格——句子節奏、慣用詞彙、引用融入方式、hedging 習慣、修飾語密度、語域轉換。這份風格描述檔會作為草稿撰寫的軟性指引。學科規範永遠優先：如果你的個人風格與期刊慣例衝突，期刊規範贏。風格描述檔會隨素材護照（Material Passport）在 pipeline 各階段傳遞，每個環節都尊重它。

Writing Quality Check（寫作品質檢查）：撰寫過程中自動套用的自我審查清單，標記 25 個 AI 慣用詞（如 “delve”、”tapestry”、”multifaceted”）、過度使用破折號（全篇 ≤3 個）、throat-clearing 開頭（「在當今快速變遷的...」）、結構模式問題（段落長度一致、同義詞輪替、三段式過度使用），以及句長變異度不足。這些本來就是好的寫作規則，不論作者是你還是 AI，遵守這些規則都能讓文章更好。

這兩個功能都不是 humanizer。它們不是在幫你隱藏使用 AI 的事實，而是幫你寫得更好。（更多關於這個區別的討論，見下方「Copilot 哲學」段落。）

v3.3：Anti-Leakage Protocol（知識隔離指令）

AI 寫作有個常被忽略的失敗模式：你給它 30 篇該引用的文獻，它寫到某段發現缺一句話，就從訓練記憶裡順手補一句「研究也指出...」，掛上一個沒人核對過的 citation。這不是完全捏造，是 AI 自己沒意識到在補。

受 PaperOrchestra（Song et al., 2026）啟發，v3.3 新增 Anti-Leakage Protocol：draft writer 寫事實性內容時只能用 session 提供的素材，模型記憶只能用在句法、節奏、轉折這種風格層面。素材不足時 agent 直接標 [MATERIAL GAP] 把缺口亮出來，不讓它偷偷補。這讓「AI 記得什麼」跟「你給它什麼」分得很清楚，前者潤稿、後者才能引用。

另外兩個實用的 agent：

Visualization Agent：你的論文需要圖表嗎？這個 agent 能幫你選擇適合的圖表類型（9 種，從散佈圖到森林圖），產出 matplotlib 或 ggplot2 程式碼，並確保符合 APA 7.0 的圖表格式要求。它還包含色盲友善的色彩配置。

v3.3 補充：VLM 圖表驗證（選用）。圖表畫出來之後，Visualization Agent 可以呼叫一個有視覺能力的 LLM 對渲染結果跑 10 點檢查：軸標、數值、色盲配色、APA 7.0 格式、legend 是否完整。最多兩輪迭代修正。這是專門抓「程式碼沒錯但圖出來軸標被截掉」那種用眼睛才看得到的問題。

Revision Coach Agent：收到審稿意見但看不懂審稿人在說什麼？這個 agent 能解析非結構化的審稿意見（那種混在一封 email 裡的長篇大論），自動分類為 major/minor、判斷影響範圍、建議回應優先順序。

Citation Compliance Agent 支援 APA ↔︎ Chicago ↔︎ MLA ↔︎ IEEE ↔︎ Vancouver 的雙向轉換，不需要手動改每一條引用。

3. 誠信驗證：你的引用真的正確嗎？

這是很多 AI 寫作工具不做的事。pipeline 中有兩道強制誠信檢查：

Stage 2.5（送審前）：五個驗證面向——
- Phase A：100% 參考文獻存在性 + 書目正確性
- Phase B：引用脈絡抽查（≥30%）
- Phase C：統計數據驗證
- Phase D：原創性查核（比對段落是否與來源過度相似）
- Phase E：宣稱驗證——抽查論文中的事實性宣稱，逐一比對原始來源，判定「已驗證/輕微失真/嚴重失真/無法驗證」
Stage 4.5（定稿前）：100% 全項驗證，零問題才放行

不可跳過。這是底線。

看實際效果： 在展示論文中，Stage 2.5 抓出了 15 個虛構引用和 3 個統計錯誤。查看實際報告：審稿前誠信報告 (Stage 2.5) · 複驗報告 · 最終誠信報告 (Stage 4.5)

Phase E 為什麼重要？因為很多學術寫作的錯誤不是引用不存在，而是引用存在但說法失真。例如原文說「24% 的工具滿意度提升」，但你的論文寫成了「34% 的整體滿意度提升」，因為數字來自同一張表格的不同欄位。Phase E 就是專門抓這類「看起來沒錯但實際上偷換了概念」的問題。

AI 生成內容最大的風險就是「看起來像真的」的虛構引用。這套工具把驗證內建在流程裡，不是事後想到才檢查。但這個驗證機制本身夠可靠嗎？

我做了壓力測試。 展示論文跑完整個 pipeline 後，我手動對全部 68 篇引用逐一 WebSearch 驗證。結果令人警醒：21 篇（31%）有問題，而且全部通過了三輪誠信審查。

4 篇完全捏造（根本不存在這個出版品）
6 篇作者名單錯誤（論文存在，但作者被從其他論文混入）
7 篇書目細節錯誤（年份、期刊、DOI 有誤——有些 DOI 連結到完全無關的論文）
4 篇格式膨脹（部落格文章被引為技術報告）

最陰險的 pattern 是 GPTZero 研究者稱之為的**「氛圍引用（vibe citing）」**：AI 把 2-3 篇真實論文的元素混合成一個看起來很真的假引用。某條引用結合了論文 A 的真實作者、論文 B 的副標題、論文 C 的書名——每個片段都是真的，但這個組合從未存在過。它通過了三輪審查，因為「看起來很合理」。

根因很根本：用 AI 驗證 AI 生成的引用，等於讓考生改自己的考卷。 誠信審查 agent 把模糊的引用歸類為「difficult to verify」而非標記為錯誤——這個灰色地帶讓錯誤全數漏網。

這直接催生了誠信驗證 agent 的全面改版（v2.0）：

Anti-Hallucination Mandate：每篇引用必須 WebSearch 驗證，禁止靠 AI 記憶
消除灰色地帶：只有 VERIFIED、NOT_FOUND、MISMATCH 三種狀態，「difficult to verify」不再是可接受的分類
已知幻覺 pattern 資料庫：來自 NeurIPS 2025 研究的 5 類分類法，主動掃描 mashup fabrication、author spoofing、DOI misdirection 等已知 pattern
Stage 4.5 獨立全面驗證：最終審查必須從頭獨立驗證每一篇引用，不能只重新確認前次的修正

v3.3：Semantic Scholar API 程式化驗證（Tier 0）

光靠 WebSearch 驗證還是有弱點：搜尋引擎結果非結構化、品質參差。v3.3 在 WebSearch 前面加了一道 Semantic Scholar API 查詢（Tier 0），用標題做 Levenshtein ≥ 0.70 的模糊比對，直接拿 S2 返回的權威後設資料核對作者、年份、venue、DOI。命中率高、速度快，S2 掛掉時自動退回 WebSearch。

S2 API 還會抓到一類 WebSearch 難抓的錯誤：DOI 不匹配——DOI 本身是真的，但指向另一篇論文（這就是 Compound Deception Pattern #5）。另外每條 reference 掛上 semantic_scholar_id 之後，書目去重變成純 ID 比對，不再被作者名的不同寫法或標題大小寫搞亂。

v3.2：七模 AI 研究失敗清單（Lu 2026 整合）

Lu 等人（2026, Nature 651:914–919）是第一個通過盲審同儕審查的端對端自主 AI 研究系統。他們在論文中公開列出七種 AI 跑研究流程時特有的失敗模式，不是通用幻覺，是 pipeline 層級的結構性錯誤：

Implementation-bug blindness：程式有 bug 但 agent 沒察覺
Hallucinated experimental results：沒跑實驗就編結果
Shortcut reliance：用統計近似取代該做的推導
Bug-as-insight：把實作錯誤當成研究發現
Methodology fabrication：方法論描述跟實際做法對不上
Frame-lock：整條 pipeline 鎖在錯誤前提下卻沒人質疑
Citation fabrication：前面談過的引用幻覺

ARS 把這 7 模列為 Stage 2.5 和 Stage 4.5 的強制封鎖項，通過才放行。Stage 6 的 AI 自我反思報告（Self-Reflection Report） 會記錄本次 pipeline 有沒有觸發任何一模。這份報告是 v3.0 新增，就是要讓 AI 在流程結束時對自己這次的判斷做結構化檢討，而不是丟一句「完成了」。

v3.3：Score Trajectory（分數軌跡追蹤）

修訂是最容易偷偷退步的環節。你改 A 維度的問題，常會不小心壞掉 B 維度原本的優勢。v3.3 給 Integrity Report 加了 score_trajectory 欄位，逐輪記錄每個維度分數的變化。任一維度 delta < -3（退步超過 3 分），pipeline 強制停下來觸發 checkpoint，不讓你帶著回歸默默進下一階段。這把 v3.2 的整體 early-stopping 細化到維度層級。

4. 模擬同儕審查：投稿前先被挑戰

academic-paper-reviewer skill 模擬 5 位獨立審稿人，搭配 0-100 量化評分量表：

主編（EIC）：期刊適配性、新穎性、整體決策
R1 方法論：研究設計、統計方法、可重現性
R2 領域專家：文獻涵蓋率、理論框架
R3 跨領域：跨域觀點、實務影響
魔鬼代言人：專門攻擊你的核心論點，找邏輯漏洞和最強反論

核心機制是品質量表（Quality Rubrics）：每位審稿人在 5 個維度上給 0-100 分，每個分數都有明確的行為指標（「72 分」不只是一個數字，它對應到具體的「文獻涵蓋率達 80% 以上但缺少近 2 年的關鍵研究」這樣的描述）。最終分數對應決策：≥80 接受、65-79 小修、50-64 大修、<50 退稿。

這讓審查結果從「我覺得需要大修」變成可量化、可追蹤的評估——修訂後可以看到分數從 62.4 升到 78.0，每個維度的進步都有具體原因。

審查後還有蘇格拉底式修訂指導，不是直接幫你改，而是引導你理解審稿人在說什麼、你應該怎麼回應。

v3.0：跨模型獨立驗證（Cross-Model Verification）

用同一個模型審查它自己寫的東西，審稿人跟作者會共享偏誤——這是自查做不深的根本原因。v3.0 引入跨模型驗證：Stage 2.5 誠信抽查和 Devil’s Advocate 批判這兩個高風險節點，設定 ARS_CROSS_MODEL=1 可以指定另一家廠商的模型獨立跑一次。目的不是讓兩個模型投票取共識，是讓第二個模型專門抓第一個模型的盲點。結構性偏誤本來就是單機自查最抓不到的那塊。

v3.2：Reviewer Calibration Mode（選用）

模擬審稿人到底準不準？v3.2 新增 calibration mode，由使用者提供 5–20 篇已知結論的黃金標準集（accept / reject / 期刊實際決定），系統跑 5 次 ensemble（每次 fresh context）測量 FNR、FPR、balanced accuracy、AUC。跑完會告訴你：「本次審稿人的假陰性率是 18%」。模擬審查從「信不信由你」變成「有誤差範圍可以看」。要強調的是：這是 session 內的測量，不是 suite 內建的固定保證；換批黃金樣本可能拿到不同分數，就是正常的。

5. 格式化：從 Markdown 到出版級 PDF

最後一步支援 APA 7.0、Chicago、IEEE 等格式，用 LaTeX 編譯出 PDF。中文用思源宋體 + XeCJK，英文用 Times New Roman。不是 Word 轉 PDF，是 LaTeX 等級的排版品質。

v3.2：Venue Disclosure Mode

越來越多期刊要求投稿時附上 AI 使用聲明，但每家格式和立場不一樣。v3.2 加了 disclosure mode，內建 ICLR、NeurIPS、Nature、Science、ACL、EMNLP 的政策資料庫，直接產出符合該 venue 要求的聲明草稿。資料庫沒收錄的 venue，pipeline 會停下來請你貼政策條文再處理，不會用泛用模板硬套。

完整 Pipeline：10 個階段，一條龍

如果你要從零到出版，完整 pipeline 長這樣：

研究 → 撰寫 → 誠信審查 → 模擬審查（5人）→ 蘇格拉底指導

→ 修訂 → 驗收審查 → 再修訂 → 最終誠信審查 → 定稿

→ 過程紀錄 + 協作品質評估

每個階段之間有 checkpoint——你確認了才會繼續。你隨時可以暫停、調整方向、跳過不需要的階段。

Checkpoint 採用自適應三級制。第一次用的新使用者看到完整的 checkpoint（列出產出物、下一步說明、選項清單）；回頭使用者看到精簡版（一行狀態 + 自動繼續）；誠信審查的 checkpoint 永遠是強制版（不可跳過）。不再是千篇一律的「要繼續嗎？」

v3.2：Early-Stopping + 預算透明化

過去修訂 loop 要跑幾輪靠感覺。v3.2 加入收斂偵測：整體分數變化 < 3 分、且沒有 P0 問題時，pipeline 會建議停手，不要再花 token 買不到多少進步。Pipeline 開跑前會先給你一份預算估算（本次完整跑完大概要多少 input tokens、費用區間），讓你決定要不要繼續。

v3.2：Fidelity-Originality 模式光譜

ARS 的每個模式其實落在不同的「忠實度—原創性」光譜上（Lu 2026 Fig 1c 的概念）。系統性文獻回顧偏忠實（要完整、可重現），政策論點寫作偏原創（要觀點、要框架），plan 模式在中間。所有模式的快速選擇指南都加上 Spectrum 欄位，幫你避開用錯模式的問題——高忠實度需求的系統性回顧用到偏原創的模式，產出會變得太鬆。

你也可以只用其中一部分：只做文獻回顧、只跑審查、只轉格式，不需要走完整個 pipeline。

如果你有一篇已經寫好的論文想從中途進入 pipeline，**素材護照（Material Passport）**會評估你的現有素材的來源、新鮮度、完整度，自動判斷哪些階段可以跳過、哪些必須補做。不再需要你自己解釋「我已經做過文獻回顧了」。

一個實際案例

我用這套工具完成了一篇關於代理型 AI 如何重新定義學生學習成效測量的論文（15,000 字，62 篇參考文獻，APA 7.0 格式）。整個過程大約 5-6 小時，走了兩輪完整 pipeline。

幾個具體的觀察：

研究階段省下的時間最多。 過去做一份文獻回顧可能需要一個月。deep-research 在第一階段就幫忙收斂了研究問題、建構了方法論框架、整理了初始書目。我的角色從「大海撈針」變成「方向指引」。

模擬審查真的有用。 第一輪 5 位審稿人給了 Minor Revision，指出了 5 個被忽略的問題。魔鬼代言人則扮演關鍵角色，它直接挑戰核心前提，逼你補強論證。

誠信驗證抓到了錯誤。 62 篇參考文獻全部逐一驗證，確實發現了幾個引用細節的問題。這在手動校對時很容易漏掉。

最有價值的時刻來自人類。 我在讀完初稿後問了一個問題：「學習的定義本身會不會也在變？」這催生了論文最具原創性的章節。AI 在兩輪 pipeline 中都沒有自發提出這個視角：它需要人類的直覺來突破框架。但一旦問題被提出，AI 在幾分鐘內就連接了 8 篇相關文獻，建構出完整的理論論述。

這就是人機協作的理想分工：人類提供方向和深度，AI 提供廣度和執行力。

完整論文、審查報告和製作過程紀錄可以在 repo 的 examples/showcase/ 目錄取得：

論文：

審查與誠信報告：

誠信報告——審稿前 (Stage 2.5) — 抓出 15 個虛構引用 + 3 個統計錯誤
誠信複驗報告 (Stage 2.5) — 22 個問題全數修正
誠信報告——最終 (Stage 4.5) — 零回歸
同儕審查第一輪 — 主編 + 3 審查者 + 魔鬼代言人
複審報告 — 修訂後驗證審查
同儕審查第二輪
回覆審查意見 — 逐點回覆
出版後引用稽核報告 — 手動 WebSearch 驗證發現並修正 21 個額外問題

過程紀錄：

誰適合用？

碩博士生 → 用 plan 模式逐章規劃論文，用蘇格拉底模式釐清研究問題
需要投稿的研究者 → 跑完整 pipeline，投稿前有模擬審查和誠信驗證
審稿人/指導教授 → 單獨使用 reviewer skill，0-100 品質量表讓審查意見更具體
做系統性回顧的研究者 → 用 deep-research 的 systematic-review 模式，PRISMA 流程 + RoB 2 + meta-analysis
只需要文獻回顧 → 單獨使用 deep-research，不需要進入 pipeline
有初稿要改善 → 從 Stage 2.5 中途進入，素材護照自動評估你需要補做什麼
收到審稿意見不知所措 → 用 revision-coach 模式，幫你解析非結構化的審稿意見

安裝方式

四種方式，依你的使用情境選擇：

方式一：Claude Code 專案技能（推薦）

cd /path/to/your/project
mkdir -p .claude/skills
git clone https://github.com/Imbad0202/academic-research-skills.git \
  .claude/skills/academic-research-skills

方式二：Claude Desktop Cowork

Clone 到本地 → 開啟 Claude Desktop → Cowork 標籤 → 選擇資料夾 → 開始對話。

方式三：上傳到 claude.ai（不需安裝）

到 claude.ai 建立 Project → 上傳 4 個 SKILL.md 到 Project Knowledge → 開始對話。

方式四：獨立使用

git clone https://github.com/Imbad0202/academic-research-skills.git
cd academic-research-skills
claude

模型建議：Claude Opus 4.7 + Max plan。完整 pipeline 一次約需 200K+ input tokens。單獨用個別 skill 消耗少得多。

建議設定

為獲得最佳使用體驗，建議啟用以下 Claude Code 功能：

Agent Team（選用）：產生子代理平行執行研究、撰寫、審查。啟用方式：設定環境變數 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
Skip Permissions：跳過每次工具使用的確認提示，實現全 pipeline 不中斷的自主執行。啟用方式：啟動時加上 claude --dangerously-skip-permissions
ARS_CROSS_MODEL=1（選用）：啟用跨模型獨立驗證，在誠信抽查和 DA 批判時用第二家廠商模型獨立跑一次

⚠️ Skip Permissions 注意事項：此旗標會停用所有工具使用的確認對話框。請自行斟酌使用——在可信任的長時間 pipeline 中非常方便，但會移除手動審核的安全機制。僅在你確定接受 Claude 自動執行檔案讀寫、shell 指令等操作時才啟用。

收到真人審稿意見後怎麼辦？

這套工具不只是「從零寫論文」。一個非常實際的場景是：你投稿後收到了期刊審稿人的回饋，要怎麼處理修訂？

你只要告訴 pipeline：「我收到審稿意見了，幫我修改。」它會自動從 Stage 4（修訂）開始，不需要重跑前面的階段。

具體流程

你貼上真人審稿意見

↓

Stage 4 蘇格拉底修訂指導

EIC 先引導你理解每條審稿意見：

· 「這條意見的核心訴求是什麼？」

· 「你同意嗎？為什麼？」

· 「你打算怎麼回應——接受修改、部分接受、還是有理由拒絕？」

（最多 8 輪對話，你也可以說「直接幫我改」跳過）

↓

Stage 4 逐條修訂 + 產出 Response to Reviewers

· 每條審稿意見對應一個回覆

· 格式：原始意見 → 你的回應 → 修改位置

· 自動追蹤哪些已處理、哪些待處理

↓

Stage 3’ 自我驗收審查

AI 審稿人檢核你的修訂是否真的回應了每條意見

· 修訂回應對照表（逐條比對）

· 殘留問題清單

· 新的 Editorial Decision

↓

Stage 4.5 最終誠信審查

修訂過程中新增的引用也要驗證

↓

Stage 5 定稿

產出修訂版 PDF + Response to Reviewers 信件

關鍵是什麼？

修訂是最容易出錯的階段。 你以為回應了審稿人的所有意見，但實際上漏了一條、改了 A 卻破壞了 B、或者新增的引用有誤。

這套工具的價值在於：

蘇格拉底指導幫你想清楚怎麼回應：不是每條審稿意見都必須照單全收。有些你應該拒絕，但你需要好的理由。AI 引導你思考每條意見的本質，而不是機械性地「改就對了」
Response to Reviewers 自動生成：寫回覆信是苦差事。pipeline 幫你把每條回應結構化，確保格式一致、不漏項
自我驗收審查抓漏洞：你改完之後，AI 會以審稿人的視角重新檢查——「Reviewer 2 說要補文獻，你真的補了嗎？補的那篇是對的嗎？」
新增引用也要過誠信驗證：修訂時常常會新增參考文獻。Stage 4.5 會確保這些新引用也是正確的

限制：AI 驗收 ≠ 真人審稿人滿意

要說清楚一件事：Stage 3’ 的驗收審查是 AI 做的，它能檢查「每條意見都有回應嗎？修改前後一致嗎？新增的引用正確嗎？」但它不能預測真正的審稿人會不會接受你的回應。

真人審稿人可能有未明說的期待、學派偏好、或對特定方法論的堅持，這些 AI 無法模擬。這套工具能確保你的修訂「完整且一致」，但「有說服力」這件事，最終還是取決於你的學術判斷。

你也可以只用其中一部分

不想走完整流程也沒關係：

只要蘇格拉底指導：幫你理解審稿意見、規劃修訂策略
只要 Response to Reviewers：把審稿意見貼進去，幫你生成結構化回覆
只要自我驗收：改完之後讓 AI 檢查有沒有漏改的

適用範圍與限制

坦白說，這套工具不是萬能的。你應該知道它的邊界在哪：

最適合的領域

社會科學（教育、公共政策、管理）★★★★★ — 文獻充足、論證以文字為主、AI 文獻搜尋效果最好
人文學科（哲學、文化研究、歷史）★★★★☆ — 論述式寫作是 AI 的強項，但高度依賴特定原典的解讀需人類把關
跨領域研究（STS、數位人文、AI 倫理）★★★★☆ — 跨領域綜述正是 AI 擅長的——人類很難同時掌握多個領域的文獻
法律、商管 ★★★★☆ — 政策分析、案例分析類論文效果好；但法律見解需專業判斷

有限制但仍可用的領域

自然科學（物理、化學、生物）★★★☆☆ — AI 能處理文獻回顧和理論框架，但無法做實驗、跑模擬、分析原始數據
醫學/公衛 ★★★★☆ — 內建 PRISMA 系統性回顧模式 + RoB 2 偏誤風險評估 + meta-analysis agent，對醫學文獻回顧支援度高。但臨床數據解讀仍需專業
工程/資訊 ★★★☆☆ — 能幫寫 related work 和 discussion，但不會產生程式碼、演算法、或實驗結果

目前不適合的場景

需要原始數據分析的實證研究：這套工具處理的是文字，不是數據。統計分析、實驗結果需要自己做，pipeline 能幫你包裝和呈現
高度依賴特定語料庫的研究：古典文獻考證、語料庫語言學等需要存取特定資料庫的工作，AI 的搜尋能力有限
數學密集型論文：定理證明、公式推導不是這套工具的設計目標
非英文/非中文的學術寫作：目前優化針對英文和繁體中文，其他語言的學術語感和引用慣例尚未調校

ARS 的能力邊界

還有幾個必須知道的限制：

文獻的時效性取決於 AI 模型的訓練數據：Claude 的知識有截止日期。最新發表的論文可能搜不到。你仍然需要自己查最新的期刊
參考文獻驗證不等於全文閱讀：誠信驗證確認文獻存在、書目正確、引用脈絡合理，但不代表 AI 讀過每篇論文的全文
模擬審查不等於真正的同儕審查：5 位 AI 審稿人能發現結構性問題，但無法替代領域頂尖學者的深度洞察
Token 消耗大：完整 pipeline 一次約需 200K-300K tokens，費用取決於你的 API 方案。建議用 Max plan 或自行估算預算
品質上限取決於你的介入深度：如果你只是一路按「繼續」，產出的品質會顯著低於你積極介入方向、挑戰論點、注入專業知識的情況

v3.3.2–3.3.6：透明度基礎建設

過去一週 ARS 的更新不是加新功能，是把既有能力的邊界明文寫進程式和 metadata，讓使用者看得見、CI 擋得住漂移。這一塊很容易被忽略，但它是「工具夠不夠誠實」的關鍵：

三層 data_access_level（v3.3.2）：每個 skill 的 SKILL.md 明示它會吃什麼等級的資料——raw（可存取原始未整理素材，deep-research）、redacted（只吃去識別化素材，academic-paper）、verified_only（只吃已驗證過的素材，academic-paper-reviewer / academic-pipeline）。靈感來自 Anthropic automated-w2s-researcher（2026）的三層隔離模式。CI 會擋聲明不一致的漂移。
task_type 聲明（v3.3.2）：每個 skill 要表明自己是 open-ended（無純量 ground-truth 的領域判斷任務）還是 outcome-gradable（有客觀分數可比的基準任務）。ARS 所有 skill 都是 open-ended，這是誠實揭露，防止有人把 ARS 當 benchmark 工具用。
Benchmark Report Schema + Repro Lock（v3.3.5）：如果你真的要用 ARS 跑對照實驗，新的 JSON Schema 會擋你產出「作者自跑 n=2」這種 Anthropic automated-w2s-researcher 論文裡點名過的失敗模式。同時 Material Passport 新增可選的 repro_lock 區塊記錄配置，但強制掛上「這不是決定性重播保證」的免責聲明，誠實區分「可重現配置」和「可重現結果」。
ARCHITECTURE.md 單一真相來源（v3.3.6）：pipeline 結構、stage × dimension 矩陣、data-access 流、skill 依賴圖、quality gates、模式清單集中到一份文件，README 不再自己描述流程。以前改一個版本要同步改三份 README，現在改 ARCHITECTURE.md 就好，CI check_spec_consistency.py 會擋版本漂移。

這些不是給「想用 ARS 寫論文」的使用者看的，是給「想拿 ARS 當建構基礎」的開發者、reviewer、機構看的：不跑完整 pipeline，光讀 metadata 就知道這套工具宣稱了什麼、沒宣稱什麼。

Copilot 哲學

講一下我當初為什麼做這套工具。

現在市面上很多「humanizer」——幫你把 AI 寫的東西改到偵測器抓不出來。ARS 不做這件事，以後也不會。

這不是我設計這套工具的初衷。我要解決的問題是：研究者花太多時間在機械性工作上，查文獻、排引用格式、核對數據、來回改投稿格式，真正該動腦的事反而被擠壓。

Style Calibration 學你的寫作習慣，讓產出讀起來像你自己寫的。這不是為了躲偵測器，是因為寫作風格本來就是學術身份的一部分，用了 AI 就丟掉自己的聲音，那是虧的。Writing Quality Check 抓「delve into the multifaceted tapestry」這種句子，也不是因為它會觸發偵測器，是因為這種寫法本身就空洞。

**AI 是副駕駛，不是駕駛。**苦工讓工具去做——搜文獻、格式化引用、驗數據、查邏輯。你的時間應該花在定義問題、選方法、詮釋結果、寫出「I argue that」後面那句話。

重點從來不是 AI 幫你寫了多少字，是你省下來的時間拿去想了什麼。

v3.0：為什麼反諂媚比「更好的答案」更重要

v3.0 的核心改動是反諂媚機制：系統不預設使用者是對的，會先做意圖偵測再決定怎麼回應。你說「幫我審一下這篇論文，應該很不錯吧？」系統不會接著說「確實很棒」然後開始找理由支持，而是先判斷你要的是確認還是真實挑戰，再對應出手。這個設計借用 Rawls 無知之幕的概念：審稿人不該預先知道作者是誰、作者希望什麼結論，才能給出有價值的判斷。

配合反諂媚的是 Stage 6 的 AI Self-Reflection Report：流程結束時 AI 會結構化揭露本次 pipeline 的不確定性、做過哪些判斷、哪些地方需要使用者自己驗證。它不會說「完成了！」而是會說「完成了，以下是我這次判斷中風險最高的三處」。

這也回應 Lu 2026 的設計命題：完全自主的 AI 研究系統目前還做不到通過嚴謹的同儕審查（Lu 團隊自己的系統雖然過了，但他們在論文裡坦白人類介入是關鍵）。ARS 從第一版到現在的立場一直是人機協作：AI 負責廣度和執行，人類保留框架判斷和深度介入的決定權。反諂媚和 self-reflection 是把這個立場寫進程式裡。

ARS 不是什麼

說清楚幾件事：

ARS 不是代筆工具。 它不會自己決定你的研究問題、不會替你判斷論點對不對。你是研究者，它是你的研究基礎設施。

ARS 不能取代真正的同儕審查。 模擬審查能幫你在投稿前發現問題、強化論文，但不能取代期刊的正式審稿流程。

ARS 不保證你的論文會被接受。 但它能保證你的論文在投稿前經過了結構化的品質檢查：引用正確、邏輯一致、格式合規。

內容責任仍然在你。 AI 是工具，不是作者。你需要驗證事實、確認論點、注入只有你擁有的領域專業知識。

版本演進時間軸（2026-03-22 → 2026-04-19）

v2.8（2026-03-22） — SCR Loop Phase 1：State-Challenge-Reflect 機制整合進 Socratic Mentor
v2.9（2026-03-27） — Style Calibration（風格校準）+ Writing Quality Check（25 AI 慣用詞 lint）+ IS Basket of 8 期刊
v2.9.1（2026-04-03） — SKILL.md frontmatter 新增 status / related_skills metadata，支援跨 skill 導覽
v3.0（2026-04-03） — 反諂媚機制、意圖偵測、跨模型獨立驗證（ARS_CROSS_MODEL）、AI Self-Reflection Report
v3.1（2026-04-06） — Anti-Context-Rot（agent 檔案切分，平均瘦身 33%）、16 個認知分析框架、Lean Size
v3.1.1（2026-04-09） — IS Senior Scholars’ Basket of 11（補足 AIS 官方期刊清單）
v3.2（2026-04-09） — Lu 2026 整合：七模 AI 研究失敗清單、Reviewer Calibration Mode、Venue Disclosure Mode、Fidelity-Originality Spectrum、Early-Stopping
v3.3（2026-04-09） — PaperOrchestra 整合：Semantic Scholar API 程式化驗證（Tier 0）、Anti-Leakage Protocol、VLM 圖表驗證、Score Trajectory
v3.3.1–3.3.4（2026-04-14~15） — 公共合約漂移修復、spec-consistency CI、DOCX 生成合約對齊、README changelog sync
v3.3.2（2026-04-15） — data_access_level（raw / redacted / verified_only 三層隔離）+ task_type（open-ended 聲明）
v3.3.5（2026-04-15） — benchmark_report.schema.json（擋 n=2 self-baseline 失敗模式）+ repro_lock（配置可重現，非結果可重現）
v3.3.6（2026-04-15） — ARCHITECTURE.md 單一真相來源、SETUP.md / PERFORMANCE.md 拆分、README 瘦身

完整 changelog：CHANGELOG.md

Cheng-I Wu（吳政宜）

GitHub: github.com/Imbad0202/academic-research-skills

授權：CC-BY-NC 4.0（非商業可自由使用）

Edward Wu

Discussion about this post

Ready for more?