A personal protocol from low-energy nuclear theory

把物理之外的一切交给 AI
把省下的时间用来做更多的物理

下面这两个数字来自同一个导师、同一套物理、同一类问题。变量只有一个：谁在写代码。

2024 · 同济保研博士生 + GPT-4 网页版

90天

单通道散射 emulator · 1 channel · 少量参数

Liu, Jin Lei, Ren · Phys. Lett. B 858, 139070 (2024)

vs

2025-12 · 我 + Claude Code CLI

4天

CDCC reduced-basis emulator · 37 channels · 18 parameters

Jin Lei · Phys. Rev. C 113, 044610 (2026)

复杂度 ×10，时间 ÷20。等效加速 ≈ 200×。
这不是因为我变聪明了。是工作流变了。

2025-12 → 2026-04 · 4 个月 16 篇

Why this works

计算物理的 80/20

一个项目的智力内核（一个想法、一个算法、一个数值不稳定的来源）通常在几天到几周内结晶。把它变成一篇发表论文，要花几个月到几年。传统流程里，implementation overhead 占据绝大部分时间。

Implementation overhead 80% 智力内核（物理判断）20%

拖动滑块：看 implementation 占比如何改变你能独立推进的深度项目容量

代表性论文 / 深度项目^*：约 50 篇

这是主导型产出的粗略量级，不是署名总数。

* 粗略假设 35 年 × 54 周 × 40 小时 = 75600 小时；一篇代表性论文 / 一个成熟项目中不可外包的物理判断、验证和论文取舍约 300 小时。这里估算的是主导型产出的量级，不是合作署名论文总数。

Vibe Research = 人的判断力 × LLM 实现速度。 问题选择、物理判断、数值直觉、结果解释、最终筛选 — 这些不可外包。文献综合、样板代码、算法实现、debug、图表、初稿、审稿回复 — 这些可以加速一到两个数量级。

New paradigm

什么是 Vibe Coding

传统编程的核心动作是“人把意图翻译成代码”。Vibe Coding 的核心动作变成：人用自然语言、运行结果和反馈来驱动 AI 生成代码，再用测试和判断筛选结果。也就是说，人从逐行施工者，变成了目标设定者、审稿人和系统导演。

Old loop

传统编程

人先把问题拆成架构、接口、算法和边界条件，然后手写实现、手动 debug、手动补测试。速度主要受“打字 + 查 API + 重构 + 细节记忆”限制。

优势：控制精确、路径透明、可预测。
瓶颈：大量时间花在重复实现和样板细节上。
适合：高风险底层系统、需要完全可控的核心模块。

New loop

Vibe Coding

人描述目标、约束和反馈，AI 快速生成实现。人的主要工作不是替 AI 写每一行，而是不断判断输出是否满足真实目标，并把系统拉回正确方向。

优势：原型、重构、接口胶水和调试速度极快。
风险：AI 会自信地写出“看起来合理”的错。
适合：快速探索、工具开发、复杂工程的非核心摩擦层。

From coding to research

什么是 Vibe Research

Vibe Research 不是“让 AI 做科研”。它是把 Vibe Coding 的速度引入科研流程，但把问题选择、物理判断、验证标准、claim 边界和最终责任牢牢留在人这里。 AI 负责把人的判断快速变成代码、图、诊断、文献表和论文草稿；人负责判断这些东西是否真的构成物理。

01

人定义问题

什么问题值得做、哪个近似可接受、哪个 observable 能证明观点，这些不能外包。

02

AI 扩展手脚

代码实现、脚本、图表、文献整理、初稿和审稿回复，是 AI 最适合加速的摩擦层。

03

验证成为主线

速度越快，越要把 benchmark、守恒律、单位、边界条件和 worst case 放在主流程里。

04

结论必须收口

AI 可以写得漂亮，但 claim 的强度必须由证据决定。过度外推会毁掉可信度。

Tool choice

Claude Code 和 Codex 怎么选

这两个工具不是谁替代谁，而是适合不同形态的工作。Claude Code 更像一个贴着 Claude 生态的终端研究助手； Codex 更像 OpenAI 生态里的工程 agent 平台，尤其适合并行 coding、页面构建和需要图像生成的工作流。

Claude Code

更像“文档 + 代码”的研究助手

适合把长文档、PDF、代码库和科研上下文放在同一个会话里推进。对研究者来说，它的强项是读材料、追上下文、按你的物理判断写代码和改论文相关文件。

优势：Claude 生态对 PDF 支持好，适合直接分析论文、报告、图表和长文档。
优势：长上下文阅读和解释能力强，适合从文献、代码、草稿之间来回穿梭。
短板：默认不是图像生成工具；要做 T2I 插图通常需要外接 API、脚本或别的工具。
短板：偏单会话研究助理；大规模并行 agent / 云端 worktree 不是它最自然的形态。

Codex

更像“工程 + 多模态资产”的 agent 平台

适合构建页面、改代码、跑测试、并行拆任务，以及把 OpenAI 的工具能力接入工程流程。这个页面里的大量插图，就是通过 Codex 环境调用 T2I 生成后落到项目资产里的。

优势：适合工程化任务：改文件、跑命令、生成补丁、做页面和 app。
优势：在支持工具的环境里可以调用 T2I / imagegen，直接为网站生成插图资产。
优势：Codex 平台强调多 agent、云端环境、并行任务和团队工程流程。
短板：PDF 不是它最直接的输入形态；通常要先转成 Markdown、文本、截图或图片序列再处理。

任务更顺手的选择原因

直接读论文 PDF、报告、带图表的长文档 Claude Code Claude 对 PDF 文本、图片、图表和表格理解支持更直接。

把 PDF 文献整理成项目知识库 Claude Code 起步，Codex 工程化 Claude 读 PDF；Codex 适合把结果转成脚本、数据库、网页或 RAG 管线。

做网页、交互式教程、UI、图像资产 Codex 能同时改 HTML/CSS/JS、跑浏览器检查，并在当前环境里生成 T2I 插图。

大型代码库理解、局部 bug 修复、单会话研究推进两者都可用 Claude Code 更偏研究上下文；Codex 更偏工程补丁、测试和多任务拆分。

多个独立任务并行推进 Codex Codex 平台更强调多 agent、云端工作区和并行工程任务。

我的建议： 文献 / PDF / 研究草稿先用 Claude Code 把上下文吃透；页面、图像、工程化脚本、多 agent 并行任务交给 Codex。 Vibe Research 的关键不是迷信某个工具，而是把每个工具放到它最擅长的位置。

Operating system

一个项目怎么被推进

Vibe Research 不是把问题扔给 AI，然后等论文掉出来。它更像一个研究操作系统：每一步都明确谁负责、停在哪个 checkpoint、什么结果必须由人来判定。

Human 判断 / 取舍 / 负责

Claude 实现 / 诊断 / 整理

Checkpoint 每 30-90 分钟一次

Validation lab

不要相信输出，相信验证链

AI 写出来的代码越快，验证链越要硬。每个研究项目都应该有一张小的 validation matrix：它不追求覆盖所有情况，而是覆盖最容易让物理出错的地方。

Live demo

三段真实案例的录播

下面是三段从 ahu-talk 的两个 PRC 项目里抽出来的会话脚本，我把它做成可逐步播放的伪终端。关键节点会跳出 Expert Filter 提醒，需要你点确认才继续 — 这正是真实研究中你应该做的。

claude — ~/Desktop/code/dbmm

0 / 0 速度

Production runs

从本地最小例子到集群生产

真正省时间的地方不只是写代码，而是把本地验证、HPC 调度、诊断图、误差预算和论文图表变成连续管线。这部分适合让 Claude 做大量机械工作，但每个阶段都要留下可复现证据。

Failure modes

最容易把人骗过去的错

LLM 最危险的地方不是报错，而是把错误写得很顺。下面这些模式都适合做成项目里的 regression test 或 review checklist。

Your weapons

武器库 · ~/.claude/skills

Skill 是带触发词的"封装好的工作流"。在 Claude Code 里输入 /skill-name 或者命中触发词时自动加载。点击卡片复制调用样例。

Paper pipeline

从结果到论文，不要把 claim 写过头

写作阶段最该让 AI 加速的是结构化整理：文献证据、图表叙事、审稿意见回应。最不该交给它的是 claim 的边界。

Session protocol

每次开 Claude 前先写 brief

好的会话不是从“帮我看看”开始，而是从边界条件开始：今天的目标、允许它改什么、禁止它自作主张什么、什么时候必须停下来等你审。

Prompt cookbook

可复制的模板

这些是我常用的 prompt 骨架。复制下来，把尖括号里的占位符换成你的内容，再粘到 Claude Code 里。

Before you start

Expert Filter 自检

Vibe Research 的反直觉推论：LLM 不是民主化研究，是放大专家优势。没有 Expert Filter 的人照搬这套流程，会高速产出错的物理。下面 8 条你都能诚实勾选时，再开始。

还差 8 条。

⚠ 免责声明：本指南的内容如果被没有 Expert Filter 的人照搬，大概率会毁掉整个科研生涯。建议尚不具备独立科研能力的低年级研究生先把基本功练扎实再回来。

把物理之外的一切交给 AI 把省下的时间用来做更多的物理

计算物理的 80/20

什么是 Vibe Coding

传统编程

Vibe Coding

什么是 Vibe Research

人定义问题

AI 扩展手脚

验证成为主线

结论必须收口

Claude Code 和 Codex 怎么选

更像“文档 + 代码”的研究助手

更像“工程 + 多模态资产”的 agent 平台

一个项目怎么被推进

不要相信输出，相信验证链

三段真实案例的录播

从本地最小例子到集群生产

最容易把人骗过去的错

武器库 · ~/.claude/skills

从结果到论文，不要把 claim 写过头

每次开 Claude 前先写 brief

可复制的模板

Expert Filter 自检

把物理之外的一切交给 AI
把省下的时间用来做更多的物理