A personal protocol from low-energy nuclear theory

把物理之外的一切交给 AI
把省下的时间用来做更多的物理

下面这两个数字来自同一个导师、同一套物理、同一类问题。变量只有一个:谁在写代码。

2024 · 同济保研博士生 + GPT-4 网页版
90
单通道散射 emulator · 1 channel · 少量参数
Liu, Jin Lei, Ren · Phys. Lett. B 858, 139070 (2024)
vs
2025-12 · 我 + Claude Code CLI
4
CDCC reduced-basis emulator · 37 channels · 18 parameters
Jin Lei · Phys. Rev. C 113, 044610 (2026)
复杂度 ×10,时间 ÷20。等效加速 ≈ 200×。
这不是因为我变聪明了。是工作流变了。
四个月内多篇论文产出的可视化时间线
2025-12 → 2026-04 · 4 个月 16 篇
Why this works

计算物理的 80/20

一个项目的智力内核(一个想法、一个算法、一个数值不稳定的来源)通常在几天到几周内结晶。 把它变成一篇发表论文,要花几个月到几年。 传统流程里,implementation overhead 占据绝大部分时间。

implementation overhead 与物理判断之间的工作流转移插图
Implementation overhead 80% 智力内核(物理判断)20%
拖动滑块:看 implementation 占比如何改变你能独立推进的深度项目容量
代表性论文 / 深度项目*:约 50
这是主导型产出的粗略量级,不是署名总数。
* 粗略假设 35 年 × 54 周 × 40 小时 = 75600 小时; 一篇代表性论文 / 一个成熟项目中不可外包的物理判断、验证和论文取舍约 300 小时。 这里估算的是主导型产出的量级,不是合作署名论文总数。
Vibe Research = 人的判断力 × LLM 实现速度。 问题选择、物理判断、数值直觉、结果解释、最终筛选 — 这些不可外包。 文献综合、样板代码、算法实现、debug、图表、初稿、审稿回复 — 这些可以加速一到两个数量级。
New paradigm

什么是 Vibe Coding

传统编程的核心动作是“人把意图翻译成代码”。Vibe Coding 的核心动作变成: 人用自然语言、运行结果和反馈来驱动 AI 生成代码,再用测试和判断筛选结果。 也就是说,人从逐行施工者,变成了目标设定者、审稿人和系统导演。

传统编程和 Vibe Coding 两种工作流的对照插图
传统编程循环插图
Old loop

传统编程

人先把问题拆成架构、接口、算法和边界条件,然后手写实现、手动 debug、手动补测试。速度主要受“打字 + 查 API + 重构 + 细节记忆”限制。

  • 优势:控制精确、路径透明、可预测。
  • 瓶颈:大量时间花在重复实现和样板细节上。
  • 适合:高风险底层系统、需要完全可控的核心模块。
Vibe Coding 循环插图
New loop

Vibe Coding

人描述目标、约束和反馈,AI 快速生成实现。人的主要工作不是替 AI 写每一行,而是不断判断输出是否满足真实目标,并把系统拉回正确方向。

  • 优势:原型、重构、接口胶水和调试速度极快。
  • 风险:AI 会自信地写出“看起来合理”的错。
  • 适合:快速探索、工具开发、复杂工程的非核心摩擦层。
From coding to research

什么是 Vibe Research

Vibe Research 不是“让 AI 做科研”。它是把 Vibe Coding 的速度引入科研流程, 但把问题选择、物理判断、验证标准、claim 边界和最终责任牢牢留在人这里。 AI 负责把人的判断快速变成代码、图、诊断、文献表和论文草稿;人负责判断这些东西是否真的构成物理。

Vibe Research 中人类判断、AI 实现、验证和论文输出的循环插图
01

人定义问题

什么问题值得做、哪个近似可接受、哪个 observable 能证明观点,这些不能外包。

02

AI 扩展手脚

代码实现、脚本、图表、文献整理、初稿和审稿回复,是 AI 最适合加速的摩擦层。

03

验证成为主线

速度越快,越要把 benchmark、守恒律、单位、边界条件和 worst case 放在主流程里。

04

结论必须收口

AI 可以写得漂亮,但 claim 的强度必须由证据决定。过度外推会毁掉可信度。

Tool choice

Claude Code 和 Codex 怎么选

这两个工具不是谁替代谁,而是适合不同形态的工作。Claude Code 更像一个贴着 Claude 生态的终端研究助手; Codex 更像 OpenAI 生态里的工程 agent 平台,尤其适合并行 coding、页面构建和需要图像生成的工作流。

Claude Code 和 Codex 两类 AI coding agent 的工作流对照插图
Claude Code

更像“文档 + 代码”的研究助手

适合把长文档、PDF、代码库和科研上下文放在同一个会话里推进。对研究者来说,它的强项是读材料、 追上下文、按你的物理判断写代码和改论文相关文件。

  • 优势:Claude 生态对 PDF 支持好,适合直接分析论文、报告、图表和长文档。
  • 优势:长上下文阅读和解释能力强,适合从文献、代码、草稿之间来回穿梭。
  • 短板:默认不是图像生成工具;要做 T2I 插图通常需要外接 API、脚本或别的工具。
  • 短板:偏单会话研究助理;大规模并行 agent / 云端 worktree 不是它最自然的形态。
Codex

更像“工程 + 多模态资产”的 agent 平台

适合构建页面、改代码、跑测试、并行拆任务,以及把 OpenAI 的工具能力接入工程流程。这个页面里的大量插图, 就是通过 Codex 环境调用 T2I 生成后落到项目资产里的。

  • 优势:适合工程化任务:改文件、跑命令、生成补丁、做页面和 app。
  • 优势:在支持工具的环境里可以调用 T2I / imagegen,直接为网站生成插图资产。
  • 优势:Codex 平台强调多 agent、云端环境、并行任务和团队工程流程。
  • 短板:PDF 不是它最直接的输入形态;通常要先转成 Markdown、文本、截图或图片序列再处理。
任务 更顺手的选择 原因
直接读论文 PDF、报告、带图表的长文档 Claude Code Claude 对 PDF 文本、图片、图表和表格理解支持更直接。
把 PDF 文献整理成项目知识库 Claude Code 起步,Codex 工程化 Claude 读 PDF;Codex 适合把结果转成脚本、数据库、网页或 RAG 管线。
做网页、交互式教程、UI、图像资产 Codex 能同时改 HTML/CSS/JS、跑浏览器检查,并在当前环境里生成 T2I 插图。
大型代码库理解、局部 bug 修复、单会话研究推进 两者都可用 Claude Code 更偏研究上下文;Codex 更偏工程补丁、测试和多任务拆分。
多个独立任务并行推进 Codex Codex 平台更强调多 agent、云端工作区和并行工程任务。
我的建议: 文献 / PDF / 研究草稿先用 Claude Code 把上下文吃透;页面、图像、工程化脚本、多 agent 并行任务交给 Codex。 Vibe Research 的关键不是迷信某个工具,而是把每个工具放到它最擅长的位置。
Operating system

一个项目怎么被推进

Vibe Research 不是把问题扔给 AI,然后等论文掉出来。它更像一个研究操作系统: 每一步都明确谁负责、停在哪个 checkpoint、什么结果必须由人来判定。

AI 辅助科研项目从想法到论文的工作流插图
Human 判断 / 取舍 / 负责
Claude 实现 / 诊断 / 整理
Checkpoint 每 30-90 分钟一次
Validation lab

不要相信输出,相信验证链

AI 写出来的代码越快,验证链越要硬。每个研究项目都应该有一张小的 validation matrix: 它不追求覆盖所有情况,而是覆盖最容易让物理出错的地方。

计算物理验证矩阵和 regression tests 插图
Live demo

三段真实案例的录播

下面是三段从 ahu-talk 的两个 PRC 项目里抽出来的会话脚本,我把它做成可逐步播放的伪终端。 关键节点会跳出 Expert Filter 提醒,需要你点确认才继续 — 这正是真实研究中你应该做的。

AI 终端调试计算物理求解器的插图
高保真求解器压缩为 reduced-basis emulator 的插图
claude — ~/Desktop/code/dbmm
0 / 0 速度
Production runs

从本地最小例子到集群生产

真正省时间的地方不只是写代码,而是把本地验证、HPC 调度、诊断图、误差预算和论文图表变成连续管线。 这部分适合让 Claude 做大量机械工作,但每个阶段都要留下可复现证据。

本地代码到 HPC 集群再回到诊断图的生产管线插图
Failure modes

最容易把人骗过去的错

LLM 最危险的地方不是报错,而是把错误写得很顺。下面这些模式都适合做成项目里的 regression test 或 review checklist。

人类专家检查 AI 生成代码、公式、图表和引用的 checkpoint 插图
Your weapons

武器库 · ~/.claude/skills

Skill 是带触发词的"封装好的工作流"。在 Claude Code 里输入 /skill-name 或者命中触发词时自动加载。 点击卡片复制调用样例。

AI research skills 工具库插图
Paper pipeline

从结果到论文,不要把 claim 写过头

写作阶段最该让 AI 加速的是结构化整理:文献证据、图表叙事、审稿意见回应。最不该交给它的是 claim 的边界。

文献检索、引用核查和 claim-evidence 对照插图
把物理结果组织成论文叙事的插图
Session protocol

每次开 Claude 前先写 brief

好的会话不是从“帮我看看”开始,而是从边界条件开始:今天的目标、允许它改什么、 禁止它自作主张什么、什么时候必须停下来等你审。

研究会话 brief 转化为执行计划的插图
Prompt cookbook

可复制的模板

这些是我常用的 prompt 骨架。复制下来,把尖括号里的占位符换成你的内容,再粘到 Claude Code 里。

Prompt 模板转化为代码、图表和论文初稿的插图
Before you start

Expert Filter 自检

Vibe Research 的反直觉推论:LLM 不是民主化研究,是放大专家优势。 没有 Expert Filter 的人照搬这套流程,会高速产出错的物理。 下面 8 条你都能诚实勾选时,再开始。

专家检查 AI 生成的计算物理结果的插图
还差 8 条。
⚠ 免责声明:本指南的内容如果被没有 Expert Filter 的人照搬,大概率会毁掉整个科研生涯。 建议尚不具备独立科研能力的低年级研究生先把基本功练扎实再回来。
已复制