學術寫作不該是一個人的事
一套開源 AI 協作工具如何改變研究者的工作流
📌 2026-04-19 更新摘要
這篇文章原發佈於 2026-03-08,當時 ARS 停在 v2.8 / v2.9 交界。過去一個多月,suite 從 v2.9 一路更新到 v3.3.6,主要新增五波能力:
v3.0(4/3) 反諂媚機制、意圖偵測、跨模型獨立驗證、AI 自我反思報告
v3.1(4/6) Anti-Context-Rot 檔案切分、16 個認知分析框架、Lean Size 瘦身
v3.2(4/9) Lu 2026 整合:七模 AI 研究失敗清單、Reviewer Calibration Mode、Venue Disclosure Mode、Fidelity-Originality 模式光譜、Early-Stopping
v3.3(4/9) PaperOrchestra 整合:Semantic Scholar API 程式化驗證、Anti-Leakage 知識隔離、VLM 圖表驗證、Score Trajectory
v3.3.2–3.3.6(4/14–4/15) 透明度基礎建設:三層 data_access_level、task_type 聲明、benchmark report schema、repro_lock、ARCHITECTURE.md 單一真相來源
以下原文保留,相關段落補上對應版本標註;文末附完整版本演進時間軸。
充滿荊棘的研究之路
如果你做過學術研究,你一定經歷過這些:
文獻回顧的無底洞:花三天搜文獻,讀了 40 篇,整理出來的筆記卻無法收斂成論點
寫到一半失去方向:第三章寫完才發現跟第一章的研究問題對不上
引用焦慮:投稿前反覆檢查每一篇參考文獻有沒有寫錯年份、拼錯作者名
沒有人幫你審:同事太忙、指導教授沒空,你的論文在投稿前從未被認真審查過
格式地獄:內容寫完了,但 APA 格式、LaTeX 排版又吃掉一整天
這些痛點的共同根源是:學術寫作的流程太長、太碎、太孤獨。
你需要的不是一個「幫你寫論文」的 AI,而是一個能陪你走完全程的研究夥伴,從研究問題到最終的 PDF。
Academic Research Skills (ARS):一套開源的 AI 學術協作工具
我做了一套 Claude Code skills,把學術寫作拆成可管理的階段,每個階段都有專門的 AI agent 團隊負責:
GitHub: github.com/Imbad0202/academic-research-skills
授權: CC-BY-NC 4.0(非商業可自由使用)
「輸入題目→輸出論文」不再是黑盒子。它是一個 10 階段的結構化工作流,你在每個階段都保有控制權。
ARS 能幫你做什麼?
1. 研究階段:不只搜文獻,幫你收斂問題
deep-research skill 有 13 個 AI agent 協作,支援 7 種模式:
蘇格拉底模式 — 你有模糊的想法,需要被引導釐清研究問題
完整研究模式 — 你要一份完整的文獻綜述 + 研究設計
快速模式 — 你只需要一份 research brief
文獻回顧模式 — 你要系統性文獻回顧
事實查核模式 — 你需要驗證特定主張
論文審查模式 — 你想在寫之前先審查已有文獻的品質
系統性文獻回顧模式 — 你要做 PRISMA 規範的系統性回顧,含偏誤風險評估和 meta-analysis
系統性文獻回顧模式內建 PRISMA 2020 報告模板、RoB 2 偏誤風險評估 agent、以及 meta-analysis agent(計算效果量、異質性、產出森林圖數據)。如果你在做系統性回顧,不再需要手動套用 PRISMA checklist——流程自動引導你完成 27 個報告項目。
重點不是「給你 50 篇文獻清單」,而是幫你從文獻中萃取可用的論點,並在過程中不斷追問:你的研究問題夠精確嗎?你的方法論撐得住嗎?
蘇格拉底模式內建收斂準則,能偵測 5 種訊號(問題穩定、方法收斂、文獻飽和、使用者信心、自我校準準確度),自動判斷何時從引導對話轉入正式研究。不再需要你自己決定「想得差不多了」。
v2.8:SCR 反思機制(State-Challenge-Reflect)
蘇格拉底模式整合了 SCR 反思機制,讓引導式對話更有深度。
為什麼要做這個? 原本的蘇格拉底對話在引導使用者思考方面已經有效,但缺少一個關鍵環節:讓使用者先表態、再被挑戰、最後自我反思。當你先做出預測再看到結果,預測與現實的落差會迫使你重新審視自己的假設——效果比直接被告知答案好得多。
怎麼運作?
表態(State):在給你看文獻或資料之前,先問你的預測——「你覺得你的研究方法最大的弱點是什麼?」「如果你是審稿人,第一個會挑戰什麼?」
挑戰(Challenge):展示可能與你預測不同的資訊,但不直接說「你錯了」,而是自然地引入反面觀點
反思(Reflect):引導你自己解釋預測與現實之間的落差——「你之前預期 X,但我們發現 Y,你怎麼看這個差異?」
好處是什麼?
你會更了解自己的盲點——哪些地方容易高估、哪些容易低估
論文修訂方向更精準——因為你已經知道自己的判斷偏差在哪
隨著對話進行,你的自我評估會越來越準確——這本身就是研究能力的成長
不喜歡?可以隨時關掉。 說「跳過預測」或「直接討論」就會關閉 SCR,蘇格拉底式提問照常進行,只是不會再問你預測。說「恢復預測」就重新開啟。整個過程你不會看到任何技術術語。
啟動方式也很自然:蘇格拉底模式用意圖偵測(intent-based activation),不需要輸入特定觸發詞。系統偵測的是你的意圖,不是特定字串——用任何語言表達「我有個模糊想法,不確定怎麼開始」都能觸發。架構上是雙層設計:Layer 1(skill 啟動)用雙語關鍵字確保匹配信心,Layer 2(mode 路由)用語言無關的意圖信號。當意圖模糊時,預設偏好蘇格拉底模式——先引導比較安全,你隨時可以切換到完整研究模式。
v3.1:Anti-Context-Rot + 認知分析框架
蘇格拉底模式長時間對話有個隱性問題:agent 檔案太肥,context window 塞到後面幾輪品質會掉。v3.1 把 agent 定義拆出去放到 references/,主檔只留骨架,agent 平均瘦身 33%,同一份 context 可以撐更多輪。
同時新增 16 個認知分析框架(Kahneman 的 System 1/2、Shannon 資訊理論、Marr 三層分析等),Socratic Agent 會視問題類型挑合適的框架去拆解,不再用同一把鎚子敲每顆釘子。
2. 撰寫階段:逐章引導,不是一次生成
academic-paper skill 有 12 個 agent,最有價值的是 plan 模式:
不直接開始寫,先用蘇格拉底式對話幫你規劃每一章的內容、結構、論證邏輯(同樣使用意圖偵測——表達「不知道怎麼開始」「幫我規劃」等意圖即可觸發,不限語言)
等你確認大綱後,再逐章撰寫
支援 IMRaD、文獻回顧、理論分析、案例研究、政策簡報、研討會論文等結構
自動產出中英雙語摘要
v2.9:Style Calibration + Writing Quality Check
每個用 AI 寫作工具的研究者都會問:「要怎麼讓 AI 寫出來的文章更像我的風格?」
Style Calibration(風格校準,選用):提供 3 篇以上你過去的論文,pipeline 就能學習你的寫作風格——句子節奏、慣用詞彙、引用融入方式、hedging 習慣、修飾語密度、語域轉換。這份風格描述檔會作為草稿撰寫的軟性指引。學科規範永遠優先:如果你的個人風格與期刊慣例衝突,期刊規範贏。風格描述檔會隨素材護照(Material Passport)在 pipeline 各階段傳遞,每個環節都尊重它。
Writing Quality Check(寫作品質檢查):撰寫過程中自動套用的自我審查清單,標記 25 個 AI 慣用詞(如 “delve”、”tapestry”、”multifaceted”)、過度使用破折號(全篇 ≤3 個)、throat-clearing 開頭(「在當今快速變遷的...」)、結構模式問題(段落長度一致、同義詞輪替、三段式過度使用),以及句長變異度不足。這些本來就是好的寫作規則,不論作者是你還是 AI,遵守這些規則都能讓文章更好。
這兩個功能都不是 humanizer。它們不是在幫你隱藏使用 AI 的事實,而是幫你寫得更好。(更多關於這個區別的討論,見下方「Copilot 哲學」段落。)
v3.3:Anti-Leakage Protocol(知識隔離指令)
AI 寫作有個常被忽略的失敗模式:你給它 30 篇該引用的文獻,它寫到某段發現缺一句話,就從訓練記憶裡順手補一句「研究也指出...」,掛上一個沒人核對過的 citation。這不是完全捏造,是 AI 自己沒意識到在補。
受 PaperOrchestra(Song et al., 2026)啟發,v3.3 新增 Anti-Leakage Protocol:draft writer 寫事實性內容時只能用 session 提供的素材,模型記憶只能用在句法、節奏、轉折這種風格層面。素材不足時 agent 直接標 [MATERIAL GAP] 把缺口亮出來,不讓它偷偷補。這讓「AI 記得什麼」跟「你給它什麼」分得很清楚,前者潤稿、後者才能引用。
另外兩個實用的 agent:
Visualization Agent:你的論文需要圖表嗎?這個 agent 能幫你選擇適合的圖表類型(9 種,從散佈圖到森林圖),產出 matplotlib 或 ggplot2 程式碼,並確保符合 APA 7.0 的圖表格式要求。它還包含色盲友善的色彩配置。
v3.3 補充:VLM 圖表驗證(選用)。圖表畫出來之後,Visualization Agent 可以呼叫一個有視覺能力的 LLM 對渲染結果跑 10 點檢查:軸標、數值、色盲配色、APA 7.0 格式、legend 是否完整。最多兩輪迭代修正。這是專門抓「程式碼沒錯但圖出來軸標被截掉」那種用眼睛才看得到的問題。
Revision Coach Agent:收到審稿意見但看不懂審稿人在說什麼?這個 agent 能解析非結構化的審稿意見(那種混在一封 email 裡的長篇大論),自動分類為 major/minor、判斷影響範圍、建議回應優先順序。
Citation Compliance Agent 支援 APA ↔︎ Chicago ↔︎ MLA ↔︎ IEEE ↔︎ Vancouver 的雙向轉換,不需要手動改每一條引用。
3. 誠信驗證:你的引用真的正確嗎?
這是很多 AI 寫作工具不做的事。pipeline 中有兩道強制誠信檢查:
Stage 2.5(送審前):五個驗證面向——
Phase A:100% 參考文獻存在性 + 書目正確性
Phase B:引用脈絡抽查(≥30%)
Phase C:統計數據驗證
Phase D:原創性查核(比對段落是否與來源過度相似)
Phase E:宣稱驗證——抽查論文中的事實性宣稱,逐一比對原始來源,判定「已驗證/輕微失真/嚴重失真/無法驗證」
Stage 4.5(定稿前):100% 全項驗證,零問題才放行
不可跳過。這是底線。
看實際效果: 在展示論文中,Stage 2.5 抓出了 15 個虛構引用和 3 個統計錯誤。查看實際報告: 審稿前誠信報告 (Stage 2.5) · 複驗報告 · 最終誠信報告 (Stage 4.5)
Phase E 為什麼重要?因為很多學術寫作的錯誤不是引用不存在,而是引用存在但說法失真。例如原文說「24% 的工具滿意度提升」,但你的論文寫成了「34% 的整體滿意度提升」,因為數字來自同一張表格的不同欄位。Phase E 就是專門抓這類「看起來沒錯但實際上偷換了概念」的問題。
AI 生成內容最大的風險就是「看起來像真的」的虛構引用。這套工具把驗證內建在流程裡,不是事後想到才檢查。但這個驗證機制本身夠可靠嗎?
我做了壓力測試。 展示論文跑完整個 pipeline 後,我手動對全部 68 篇引用逐一 WebSearch 驗證。結果令人警醒:21 篇(31%)有問題,而且全部通過了三輪誠信審查。
4 篇完全捏造(根本不存在這個出版品)
6 篇作者名單錯誤(論文存在,但作者被從其他論文混入)
7 篇書目細節錯誤(年份、期刊、DOI 有誤——有些 DOI 連結到完全無關的論文)
4 篇格式膨脹(部落格文章被引為技術報告)
最陰險的 pattern 是 GPTZero 研究者稱之為的**「氛圍引用(vibe citing)」**:AI 把 2-3 篇真實論文的元素混合成一個看起來很真的假引用。某條引用結合了論文 A 的真實作者、論文 B 的副標題、論文 C 的書名——每個片段都是真的,但這個組合從未存在過。它通過了三輪審查,因為「看起來很合理」。
根因很根本:用 AI 驗證 AI 生成的引用,等於讓考生改自己的考卷。 誠信審查 agent 把模糊的引用歸類為「difficult to verify」而非標記為錯誤——這個灰色地帶讓錯誤全數漏網。
這直接催生了誠信驗證 agent 的全面改版(v2.0):
Anti-Hallucination Mandate:每篇引用必須 WebSearch 驗證,禁止靠 AI 記憶
消除灰色地帶:只有 VERIFIED、NOT_FOUND、MISMATCH 三種狀態,「difficult to verify」不再是可接受的分類
已知幻覺 pattern 資料庫:來自 NeurIPS 2025 研究的 5 類分類法,主動掃描 mashup fabrication、author spoofing、DOI misdirection 等已知 pattern
Stage 4.5 獨立全面驗證:最終審查必須從頭獨立驗證每一篇引用,不能只重新確認前次的修正
v3.3:Semantic Scholar API 程式化驗證(Tier 0)
光靠 WebSearch 驗證還是有弱點:搜尋引擎結果非結構化、品質參差。v3.3 在 WebSearch 前面加了一道 Semantic Scholar API 查詢(Tier 0),用標題做 Levenshtein ≥ 0.70 的模糊比對,直接拿 S2 返回的權威後設資料核對作者、年份、venue、DOI。命中率高、速度快,S2 掛掉時自動退回 WebSearch。
S2 API 還會抓到一類 WebSearch 難抓的錯誤:DOI 不匹配——DOI 本身是真的,但指向另一篇論文(這就是 Compound Deception Pattern #5)。另外每條 reference 掛上 semantic_scholar_id 之後,書目去重變成純 ID 比對,不再被作者名的不同寫法或標題大小寫搞亂。
v3.2:七模 AI 研究失敗清單(Lu 2026 整合)
Lu 等人(2026, Nature 651:914–919)是第一個通過盲審同儕審查的端對端自主 AI 研究系統。他們在論文中公開列出七種 AI 跑研究流程時特有的失敗模式,不是通用幻覺,是 pipeline 層級的結構性錯誤:
Implementation-bug blindness:程式有 bug 但 agent 沒察覺
Hallucinated experimental results:沒跑實驗就編結果
Shortcut reliance:用統計近似取代該做的推導
Bug-as-insight:把實作錯誤當成研究發現
Methodology fabrication:方法論描述跟實際做法對不上
Frame-lock:整條 pipeline 鎖在錯誤前提下卻沒人質疑
Citation fabrication:前面談過的引用幻覺
ARS 把這 7 模列為 Stage 2.5 和 Stage 4.5 的強制封鎖項,通過才放行。Stage 6 的 AI 自我反思報告(Self-Reflection Report) 會記錄本次 pipeline 有沒有觸發任何一模。這份報告是 v3.0 新增,就是要讓 AI 在流程結束時對自己這次的判斷做結構化檢討,而不是丟一句「完成了」。
v3.3:Score Trajectory(分數軌跡追蹤)
修訂是最容易偷偷退步的環節。你改 A 維度的問題,常會不小心壞掉 B 維度原本的優勢。v3.3 給 Integrity Report 加了 score_trajectory 欄位,逐輪記錄每個維度分數的變化。任一維度 delta < -3(退步超過 3 分),pipeline 強制停下來觸發 checkpoint,不讓你帶著回歸默默進下一階段。這把 v3.2 的整體 early-stopping 細化到維度層級。
4. 模擬同儕審查:投稿前先被挑戰
academic-paper-reviewer skill 模擬 5 位獨立審稿人,搭配 0-100 量化評分量表:
主編(EIC):期刊適配性、新穎性、整體決策
R1 方法論:研究設計、統計方法、可重現性
R2 領域專家:文獻涵蓋率、理論框架
R3 跨領域:跨域觀點、實務影響
魔鬼代言人:專門攻擊你的核心論點,找邏輯漏洞和最強反論
核心機制是品質量表(Quality Rubrics):每位審稿人在 5 個維度上給 0-100 分,每個分數都有明確的行為指標(「72 分」不只是一個數字,它對應到具體的「文獻涵蓋率達 80% 以上但缺少近 2 年的關鍵研究」這樣的描述)。最終分數對應決策:≥80 接受、65-79 小修、50-64 大修、<50 退稿。
這讓審查結果從「我覺得需要大修」變成可量化、可追蹤的評估——修訂後可以看到分數從 62.4 升到 78.0,每個維度的進步都有具體原因。
審查後還有蘇格拉底式修訂指導,不是直接幫你改,而是引導你理解審稿人在說什麼、你應該怎麼回應。
v3.0:跨模型獨立驗證(Cross-Model Verification)
用同一個模型審查它自己寫的東西,審稿人跟作者會共享偏誤——這是自查做不深的根本原因。v3.0 引入跨模型驗證:Stage 2.5 誠信抽查和 Devil’s Advocate 批判這兩個高風險節點,設定 ARS_CROSS_MODEL=1 可以指定另一家廠商的模型獨立跑一次。目的不是讓兩個模型投票取共識,是讓第二個模型專門抓第一個模型的盲點。結構性偏誤本來就是單機自查最抓不到的那塊。
v3.2:Reviewer Calibration Mode(選用)
模擬審稿人到底準不準?v3.2 新增 calibration mode,由使用者提供 5–20 篇已知結論的黃金標準集(accept / reject / 期刊實際決定),系統跑 5 次 ensemble(每次 fresh context)測量 FNR、FPR、balanced accuracy、AUC。跑完會告訴你:「本次審稿人的假陰性率是 18%」。模擬審查從「信不信由你」變成「有誤差範圍可以看」。要強調的是:這是 session 內的測量,不是 suite 內建的固定保證;換批黃金樣本可能拿到不同分數,就是正常的。
5. 格式化:從 Markdown 到出版級 PDF
最後一步支援 APA 7.0、Chicago、IEEE 等格式,用 LaTeX 編譯出 PDF。中文用思源宋體 + XeCJK,英文用 Times New Roman。不是 Word 轉 PDF,是 LaTeX 等級的排版品質。
v3.2:Venue Disclosure Mode
越來越多期刊要求投稿時附上 AI 使用聲明,但每家格式和立場不一樣。v3.2 加了 disclosure mode,內建 ICLR、NeurIPS、Nature、Science、ACL、EMNLP 的政策資料庫,直接產出符合該 venue 要求的聲明草稿。資料庫沒收錄的 venue,pipeline 會停下來請你貼政策條文再處理,不會用泛用模板硬套。
完整 Pipeline:10 個階段,一條龍
如果你要從零到出版,完整 pipeline 長這樣:
研究 → 撰寫 → 誠信審查 → 模擬審查(5人)→ 蘇格拉底指導
→ 修訂 → 驗收審查 → 再修訂 → 最終誠信審查 → 定稿
→ 過程紀錄 + 協作品質評估
每個階段之間有 checkpoint——你確認了才會繼續。你隨時可以暫停、調整方向、跳過不需要的階段。
Checkpoint 採用自適應三級制。第一次用的新使用者看到完整的 checkpoint(列出產出物、下一步說明、選項清單);回頭使用者看到精簡版(一行狀態 + 自動繼續);誠信審查的 checkpoint 永遠是強制版(不可跳過)。不再是千篇一律的「要繼續嗎?」
v3.2:Early-Stopping + 預算透明化
過去修訂 loop 要跑幾輪靠感覺。v3.2 加入收斂偵測:整體分數變化 < 3 分、且沒有 P0 問題時,pipeline 會建議停手,不要再花 token 買不到多少進步。Pipeline 開跑前會先給你一份預算估算(本次完整跑完大概要多少 input tokens、費用區間),讓你決定要不要繼續。
v3.2:Fidelity-Originality 模式光譜
ARS 的每個模式其實落在不同的「忠實度—原創性」光譜上(Lu 2026 Fig 1c 的概念)。系統性文獻回顧偏忠實(要完整、可重現),政策論點寫作偏原創(要觀點、要框架),plan 模式在中間。所有模式的快速選擇指南都加上 Spectrum 欄位,幫你避開用錯模式的問題——高忠實度需求的系統性回顧用到偏原創的模式,產出會變得太鬆。
你也可以只用其中一部分:只做文獻回顧、只跑審查、只轉格式,不需要走完整個 pipeline。
如果你有一篇已經寫好的論文想從中途進入 pipeline,**素材護照(Material Passport)**會評估你的現有素材的來源、新鮮度、完整度,自動判斷哪些階段可以跳過、哪些必須補做。不再需要你自己解釋「我已經做過文獻回顧了」。
一個實際案例
我用這套工具完成了一篇關於代理型 AI 如何重新定義學生學習成效測量的論文(15,000 字,62 篇參考文獻,APA 7.0 格式)。整個過程大約 5-6 小時,走了兩輪完整 pipeline。
幾個具體的觀察:
研究階段省下的時間最多。 過去做一份文獻回顧可能需要一個月。deep-research 在第一階段就幫忙收斂了研究問題、建構了方法論框架、整理了初始書目。我的角色從「大海撈針」變成「方向指引」。
模擬審查真的有用。 第一輪 5 位審稿人給了 Minor Revision,指出了 5 個被忽略的問題。魔鬼代言人則扮演關鍵角色,它直接挑戰核心前提,逼你補強論證。
誠信驗證抓到了錯誤。 62 篇參考文獻全部逐一驗證,確實發現了幾個引用細節的問題。這在手動校對時很容易漏掉。
最有價值的時刻來自人類。 我在讀完初稿後問了一個問題:「學習的定義本身會不會也在變?」這催生了論文最具原創性的章節。AI 在兩輪 pipeline 中都沒有自發提出這個視角:它需要人類的直覺來突破框架。但一旦問題被提出,AI 在幾分鐘內就連接了 8 篇相關文獻,建構出完整的理論論述。
這就是人機協作的理想分工:人類提供方向和深度,AI 提供廣度和執行力。
完整論文、審查報告和製作過程紀錄可以在 repo 的 examples/showcase/ 目錄取得:
論文:
審查與誠信報告:
誠信報告——審稿前 (Stage 2.5) — 抓出 15 個虛構引用 + 3 個統計錯誤
誠信複驗報告 (Stage 2.5) — 22 個問題全數修正
誠信報告——最終 (Stage 4.5) — 零回歸
同儕審查第一輪 — 主編 + 3 審查者 + 魔鬼代言人
複審報告 — 修訂後驗證審查
回覆審查意見 — 逐點回覆
出版後引用稽核報告 — 手動 WebSearch 驗證發現並修正 21 個額外問題
過程紀錄:
誰適合用?
碩博士生 → 用 plan 模式逐章規劃論文,用蘇格拉底模式釐清研究問題
需要投稿的研究者 → 跑完整 pipeline,投稿前有模擬審查和誠信驗證
審稿人/指導教授 → 單獨使用 reviewer skill,0-100 品質量表讓審查意見更具體
做系統性回顧的研究者 → 用 deep-research 的 systematic-review 模式,PRISMA 流程 + RoB 2 + meta-analysis
只需要文獻回顧 → 單獨使用 deep-research,不需要進入 pipeline
有初稿要改善 → 從 Stage 2.5 中途進入,素材護照自動評估你需要補做什麼
收到審稿意見不知所措 → 用 revision-coach 模式,幫你解析非結構化的審稿意見
安裝方式
四種方式,依你的使用情境選擇:
方式一:Claude Code 專案技能(推薦)
cd /path/to/your/project
mkdir -p .claude/skills
git clone https://github.com/Imbad0202/academic-research-skills.git \
.claude/skills/academic-research-skills方式二:Claude Desktop Cowork
Clone 到本地 → 開啟 Claude Desktop → Cowork 標籤 → 選擇資料夾 → 開始對話。
方式三:上傳到 claude.ai(不需安裝)
到 claude.ai 建立 Project → 上傳 4 個 SKILL.md 到 Project Knowledge → 開始對話。
方式四:獨立使用
git clone https://github.com/Imbad0202/academic-research-skills.git
cd academic-research-skills
claude模型建議:Claude Opus 4.7 + Max plan。完整 pipeline 一次約需 200K+ input tokens。單獨用個別 skill 消耗少得多。
建議設定
為獲得最佳使用體驗,建議啟用以下 Claude Code 功能:
Agent Team(選用):產生子代理平行執行研究、撰寫、審查。啟用方式:設定環境變數 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
Skip Permissions:跳過每次工具使用的確認提示,實現全 pipeline 不中斷的自主執行。啟用方式:啟動時加上 claude --dangerously-skip-permissions
ARS_CROSS_MODEL=1(選用):啟用跨模型獨立驗證,在誠信抽查和 DA 批判時用第二家廠商模型獨立跑一次
⚠️ Skip Permissions 注意事項:此旗標會停用所有工具使用的確認對話框。請自行斟酌使用——在可信任的長時間 pipeline 中非常方便,但會移除手動審核的安全機制。僅在你確定接受 Claude 自動執行檔案讀寫、shell 指令等操作時才啟用。
收到真人審稿意見後怎麼辦?
這套工具不只是「從零寫論文」。一個非常實際的場景是:你投稿後收到了期刊審稿人的回饋,要怎麼處理修訂?
你只要告訴 pipeline:「我收到審稿意見了,幫我修改。」它會自動從 Stage 4(修訂)開始,不需要重跑前面的階段。
具體流程
你貼上真人審稿意見
↓
Stage 4 蘇格拉底修訂指導
EIC 先引導你理解每條審稿意見:
· 「這條意見的核心訴求是什麼?」
· 「你同意嗎?為什麼?」
· 「你打算怎麼回應——接受修改、部分接受、還是有理由拒絕?」
(最多 8 輪對話,你也可以說「直接幫我改」跳過)
↓
Stage 4 逐條修訂 + 產出 Response to Reviewers
· 每條審稿意見對應一個回覆
· 格式:原始意見 → 你的回應 → 修改位置
· 自動追蹤哪些已處理、哪些待處理
↓
Stage 3’ 自我驗收審查
AI 審稿人檢核你的修訂是否真的回應了每條意見
· 修訂回應對照表(逐條比對)
· 殘留問題清單
· 新的 Editorial Decision
↓
Stage 4.5 最終誠信審查
修訂過程中新增的引用也要驗證
↓
Stage 5 定稿
產出修訂版 PDF + Response to Reviewers 信件
關鍵是什麼?
修訂是最容易出錯的階段。 你以為回應了審稿人的所有意見,但實際上漏了一條、改了 A 卻破壞了 B、或者新增的引用有誤。
這套工具的價值在於:
蘇格拉底指導幫你想清楚怎麼回應:不是每條審稿意見都必須照單全收。有些你應該拒絕,但你需要好的理由。AI 引導你思考每條意見的本質,而不是機械性地「改就對了」
Response to Reviewers 自動生成:寫回覆信是苦差事。pipeline 幫你把每條回應結構化,確保格式一致、不漏項
自我驗收審查抓漏洞:你改完之後,AI 會以審稿人的視角重新檢查——「Reviewer 2 說要補文獻,你真的補了嗎?補的那篇是對的嗎?」
新增引用也要過誠信驗證:修訂時常常會新增參考文獻。Stage 4.5 會確保這些新引用也是正確的
限制:AI 驗收 ≠ 真人審稿人滿意
要說清楚一件事:Stage 3’ 的驗收審查是 AI 做的,它能檢查「每條意見都有回應嗎?修改前後一致嗎?新增的引用正確嗎?」但它不能預測真正的審稿人會不會接受你的回應。
真人審稿人可能有未明說的期待、學派偏好、或對特定方法論的堅持,這些 AI 無法模擬。這套工具能確保你的修訂「完整且一致」,但「有說服力」這件事,最終還是取決於你的學術判斷。
你也可以只用其中一部分
不想走完整流程也沒關係:
只要蘇格拉底指導:幫你理解審稿意見、規劃修訂策略
只要 Response to Reviewers:把審稿意見貼進去,幫你生成結構化回覆
只要自我驗收:改完之後讓 AI 檢查有沒有漏改的
適用範圍與限制
坦白說,這套工具不是萬能的。你應該知道它的邊界在哪:
最適合的領域
社會科學(教育、公共政策、管理)★★★★★ — 文獻充足、論證以文字為主、AI 文獻搜尋效果最好
人文學科(哲學、文化研究、歷史)★★★★☆ — 論述式寫作是 AI 的強項,但高度依賴特定原典的解讀需人類把關
跨領域研究(STS、數位人文、AI 倫理)★★★★☆ — 跨領域綜述正是 AI 擅長的——人類很難同時掌握多個領域的文獻
法律、商管 ★★★★☆ — 政策分析、案例分析類論文效果好;但法律見解需專業判斷
有限制但仍可用的領域
自然科學(物理、化學、生物)★★★☆☆ — AI 能處理文獻回顧和理論框架,但無法做實驗、跑模擬、分析原始數據
醫學/公衛 ★★★★☆ — 內建 PRISMA 系統性回顧模式 + RoB 2 偏誤風險評估 + meta-analysis agent,對醫學文獻回顧支援度高。但臨床數據解讀仍需專業
工程/資訊 ★★★☆☆ — 能幫寫 related work 和 discussion,但不會產生程式碼、演算法、或實驗結果
目前不適合的場景
需要原始數據分析的實證研究:這套工具處理的是文字,不是數據。統計分析、實驗結果需要自己做,pipeline 能幫你包裝和呈現
高度依賴特定語料庫的研究:古典文獻考證、語料庫語言學等需要存取特定資料庫的工作,AI 的搜尋能力有限
數學密集型論文:定理證明、公式推導不是這套工具的設計目標
非英文/非中文的學術寫作:目前優化針對英文和繁體中文,其他語言的學術語感和引用慣例尚未調校
ARS 的能力邊界
還有幾個必須知道的限制:
文獻的時效性取決於 AI 模型的訓練數據:Claude 的知識有截止日期。最新發表的論文可能搜不到。你仍然需要自己查最新的期刊
參考文獻驗證不等於全文閱讀:誠信驗證確認文獻存在、書目正確、引用脈絡合理,但不代表 AI 讀過每篇論文的全文
模擬審查不等於真正的同儕審查:5 位 AI 審稿人能發現結構性問題,但無法替代領域頂尖學者的深度洞察
Token 消耗大:完整 pipeline 一次約需 200K-300K tokens,費用取決於你的 API 方案。建議用 Max plan 或自行估算預算
品質上限取決於你的介入深度:如果你只是一路按「繼續」,產出的品質會顯著低於你積極介入方向、挑戰論點、注入專業知識的情況
v3.3.2–3.3.6:透明度基礎建設
過去一週 ARS 的更新不是加新功能,是把既有能力的邊界明文寫進程式和 metadata,讓使用者看得見、CI 擋得住漂移。這一塊很容易被忽略,但它是「工具夠不夠誠實」的關鍵:
三層 data_access_level(v3.3.2):每個 skill 的 SKILL.md 明示它會吃什麼等級的資料——
raw(可存取原始未整理素材,deep-research)、redacted(只吃去識別化素材,academic-paper)、verified_only(只吃已驗證過的素材,academic-paper-reviewer / academic-pipeline)。靈感來自 Anthropic automated-w2s-researcher(2026)的三層隔離模式。CI 會擋聲明不一致的漂移。task_type 聲明(v3.3.2):每個 skill 要表明自己是
open-ended(無純量 ground-truth 的領域判斷任務)還是outcome-gradable(有客觀分數可比的基準任務)。ARS 所有 skill 都是open-ended,這是誠實揭露,防止有人把 ARS 當 benchmark 工具用。Benchmark Report Schema + Repro Lock(v3.3.5):如果你真的要用 ARS 跑對照實驗,新的 JSON Schema 會擋你產出「作者自跑 n=2」這種 Anthropic automated-w2s-researcher 論文裡點名過的失敗模式。同時 Material Passport 新增可選的
repro_lock區塊記錄配置,但強制掛上「這不是決定性重播保證」的免責聲明,誠實區分「可重現配置」和「可重現結果」。ARCHITECTURE.md 單一真相來源(v3.3.6):pipeline 結構、stage × dimension 矩陣、data-access 流、skill 依賴圖、quality gates、模式清單集中到一份文件,README 不再自己描述流程。以前改一個版本要同步改三份 README,現在改 ARCHITECTURE.md 就好,CI
check_spec_consistency.py會擋版本漂移。
這些不是給「想用 ARS 寫論文」的使用者看的,是給「想拿 ARS 當建構基礎」的開發者、reviewer、機構看的:不跑完整 pipeline,光讀 metadata 就知道這套工具宣稱了什麼、沒宣稱什麼。
Copilot 哲學
講一下我當初為什麼做這套工具。
現在市面上很多「humanizer」——幫你把 AI 寫的東西改到偵測器抓不出來。ARS 不做這件事,以後也不會。
這不是我設計這套工具的初衷。我要解決的問題是:研究者花太多時間在機械性工作上,查文獻、排引用格式、核對數據、來回改投稿格式,真正該動腦的事反而被擠壓。
Style Calibration 學你的寫作習慣,讓產出讀起來像你自己寫的。這不是為了躲偵測器,是因為寫作風格本來就是學術身份的一部分,用了 AI 就丟掉自己的聲音,那是虧的。Writing Quality Check 抓「delve into the multifaceted tapestry」這種句子,也不是因為它會觸發偵測器,是因為這種寫法本身就空洞。
**AI 是副駕駛,不是駕駛。**苦工讓工具去做——搜文獻、格式化引用、驗數據、查邏輯。你的時間應該花在定義問題、選方法、詮釋結果、寫出「I argue that」後面那句話。
重點從來不是 AI 幫你寫了多少字,是你省下來的時間拿去想了什麼。
v3.0:為什麼反諂媚比「更好的答案」更重要
v3.0 的核心改動是反諂媚機制:系統不預設使用者是對的,會先做意圖偵測再決定怎麼回應。你說「幫我審一下這篇論文,應該很不錯吧?」系統不會接著說「確實很棒」然後開始找理由支持,而是先判斷你要的是確認還是真實挑戰,再對應出手。這個設計借用 Rawls 無知之幕的概念:審稿人不該預先知道作者是誰、作者希望什麼結論,才能給出有價值的判斷。
配合反諂媚的是 Stage 6 的 AI Self-Reflection Report:流程結束時 AI 會結構化揭露本次 pipeline 的不確定性、做過哪些判斷、哪些地方需要使用者自己驗證。它不會說「完成了!」而是會說「完成了,以下是我這次判斷中風險最高的三處」。
這也回應 Lu 2026 的設計命題:完全自主的 AI 研究系統目前還做不到通過嚴謹的同儕審查(Lu 團隊自己的系統雖然過了,但他們在論文裡坦白人類介入是關鍵)。ARS 從第一版到現在的立場一直是人機協作:AI 負責廣度和執行,人類保留框架判斷和深度介入的決定權。反諂媚和 self-reflection 是把這個立場寫進程式裡。
ARS 不是什麼
說清楚幾件事:
ARS 不是代筆工具。 它不會自己決定你的研究問題、不會替你判斷論點對不對。你是研究者,它是你的研究基礎設施。
ARS 不能取代真正的同儕審查。 模擬審查能幫你在投稿前發現問題、強化論文,但不能取代期刊的正式審稿流程。
ARS 不保證你的論文會被接受。 但它能保證你的論文在投稿前經過了結構化的品質檢查:引用正確、邏輯一致、格式合規。
內容責任仍然在你。 AI 是工具,不是作者。你需要驗證事實、確認論點、注入只有你擁有的領域專業知識。
版本演進時間軸(2026-03-22 → 2026-04-19)
v2.8(2026-03-22) — SCR Loop Phase 1:State-Challenge-Reflect 機制整合進 Socratic Mentor
v2.9(2026-03-27) — Style Calibration(風格校準)+ Writing Quality Check(25 AI 慣用詞 lint)+ IS Basket of 8 期刊
v2.9.1(2026-04-03) — SKILL.md frontmatter 新增 status / related_skills metadata,支援跨 skill 導覽
v3.0(2026-04-03) — 反諂媚機制、意圖偵測、跨模型獨立驗證(ARS_CROSS_MODEL)、AI Self-Reflection Report
v3.1(2026-04-06) — Anti-Context-Rot(agent 檔案切分,平均瘦身 33%)、16 個認知分析框架、Lean Size
v3.1.1(2026-04-09) — IS Senior Scholars’ Basket of 11(補足 AIS 官方期刊清單)
v3.2(2026-04-09) — Lu 2026 整合:七模 AI 研究失敗清單、Reviewer Calibration Mode、Venue Disclosure Mode、Fidelity-Originality Spectrum、Early-Stopping
v3.3(2026-04-09) — PaperOrchestra 整合:Semantic Scholar API 程式化驗證(Tier 0)、Anti-Leakage Protocol、VLM 圖表驗證、Score Trajectory
v3.3.1–3.3.4(2026-04-14~15) — 公共合約漂移修復、spec-consistency CI、DOCX 生成合約對齊、README changelog sync
v3.3.2(2026-04-15) —
data_access_level(raw / redacted / verified_only 三層隔離)+task_type(open-ended 聲明)v3.3.5(2026-04-15) —
benchmark_report.schema.json(擋 n=2 self-baseline 失敗模式)+repro_lock(配置可重現,非結果可重現)v3.3.6(2026-04-15) — ARCHITECTURE.md 單一真相來源、SETUP.md / PERFORMANCE.md 拆分、README 瘦身
完整 changelog:CHANGELOG.md
Cheng-I Wu(吳政宜)
GitHub: github.com/Imbad0202/academic-research-skills
授權:CC-BY-NC 4.0(非商業可自由使用)
