SHAOJIE'S BOOK

Posted 2026-02-27Updated 2026-03-11Artificial Intelligence8 minutes read (About 1130 words)

Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差，从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL，达成reward快速持续上升。

Posted 2026-02-05Updated 2026-03-11Artificial Intelligence12 minutes read (About 1851 words)

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图：在普通监督学习（SFT）中，模型是被“喂饭”——你告诉它正确答案是什么，它去模仿。而在强化学习（RL）中，模型是在“试错”——它自己写几个答案，然后根据好坏来调整自己。

Posted 2026-02-02Updated 2026-03-11Artificial Intelligence24 minutes read (About 3561 words)

My Digital Worker : New Coding Way

导言

AI浪潮下，一开始是代码补全，之后是Vibe Coding，现在是Agent（规范驱动开发(Spec-driven Development)），后续趋势是Agent Team/Swarm。作为一个程序员，应当以什么姿势拥抱AI时代的代码编程，是需要持续关注的问题。

Posted 2026-02-02Updated 2026-03-11Artificial Intelligence13 minutes read (About 1969 words)

My Digital Worker : Target 1

导言

第一阶段的目标: 接入api模型，完成每日的工作相关基础的信息收集和整理归档。
第二阶段的目标: 无监管处理较简单事项；
第三阶段的目标: 参与构建复杂系统，和辅助重要决策。

Posted 2026-02-02Updated 2026-03-11Artificial Intelligence9 minutes read (About 1389 words)

My Digital Worker : AutoMoneyMaker - AutoTrader

导言

量化交易一直是最火的自动赚钱的途径：

经过调研，个人量化从技术上是可行的。
加上现在agent coding能力起来了。
原本是自己在写AQTP仓，但是发现了 zvt 这个偏个人的研究策略仓，和更关注实盘高频模拟的 vnpy
现在把精力转移到开源仓的使用
zvt 仓的使用和二次开发上；（思路、可视化、数据库、策略拓展性都感觉OK）
QUANTAXIS 通过 Rust 加速；
AI 向 Qbot 和 microsoft/qlib 方法尝试。Qbot还支持接入飞书。

Posted 2026-02-02Updated 2026-03-11Artificial Intelligence9 minutes read (About 1362 words)

My Digital Worker

导言

Agent 概念与 OpenClaw 的爆火，本质上反映了人们对个人数字员工（Digital Worker）能力的期待：它不只是一个对话式 AI，而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。

我真正关心的问题是：如何为自己的具体工作场景配置合适的数字员工，使其在时间与认知两个维度上对个人效率形成倍增效应。

Posted 2026-01-27Updated 2026-03-11Artificial Intelligence38 minutes read (About 5667 words)

AI Post Traning: DanceGRPO

导言

DanceGRPO是25年5月发表的论文，把GRPO的方法引入到了生成领域。（类似的有flowGRPO）。字节客户基于此魔改，故学习。

Posted 2026-01-27Updated 2026-03-11Artificial Intelligence8 minutes read (About 1132 words)

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程（forward process）上进行优化，在彻底摆脱似然估计与特定采样器依赖的同时，显著提升了训练效率与生成质量。在GenEval任务上，DiffusionNFT仅用约1.7k步就达到0.94分，而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。

Posted 2026-01-17Updated 2026-03-11Artificial Intelligence11 minutes read (About 1670 words)

260117 Step-3-VL 10B

导言

Step-3-VL 10B

Posted 2026-01-16Updated 2026-03-11Overview13 minutes read (About 1880 words)

Career Transferable skill / Durable skills / Core capabilities

简介

最近失眠还蛮多的，对被AI淘汰、被同辈后辈淘汰的担心，即使天天加班，时间还是不够，项目还是来不及，身体也扛不住。

作为SE还要具备领域内的前沿技术能力，但是担心的也不是技术，而是对能力提升有追求，不要过了一年发现还是在吃能力的老本。而且我希望个人能力的增强是持续有效的，不是那种之后用不上或者马上被淘汰的技术能力。