RL Algorithms: PPO & GRPO-like

导言

  • RL 算法(Reinforcement Learning from Verifiable Rewards (RLVR))在 2025年的GRPO提出后其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

Read more

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

AI调研真实性问题以及应对:

  • 问题:现在的 Arxiv 时代,处于“狂野西部”状态。迭代极快,但也伴随着刷榜(SOTA-chasing)、数据污染、甚至直接编造数据。
  • 应对:
    • 看竞场:对于大模型,唯一的真理是“盲测竞技场 lmarena”的排名,而不是论文里的表格。
    • 看时间:AI论文日新月异,要注意发布时间;
    • 看落地:已有模型使用的方法,至少能证明方案是可行和正向有效的;
    • 看出身:是 Meta/Google/DeepMind 吗?是知名教授吗? -> 是,则细读。
    • 看开源:Hugging Face 上有模型吗?GitHub 有星吗? -> 有,可信度 +50%。
    • 看复现:Issue、Twitter 和 Reddit 上有人复现成功吗? -> 有,纳入核心趋势。
    • 看引用:如果这篇论文刚出不久就被很多高质量论文引用,说明其思路已被同行关注。

时刻关注前沿:

  1. GRPO/AdvancedResearch
  2. Awesome-MLLM-Reasoning-Collection
  3. Awesome-RL-for-LRMs
  4. Awesome-AgenticLLM-RL-Papers
Read more

Way 2 Wealth Freedom

导言

  • 在训练开发部待了一年,发现一个人在集体里的作用是渺小的,只能负责了一个模块,但是领导却希望你是个全才。而且中国互联网是人力密集型产业。堆人力,不停试。开发人员大部分工作都是消耗在了繁琐的流程上,消磨了意志,相对于2012那些预研的人员,学习提升有限。
  • 最主要是我花的时间,并产生不了技术壁垒,无法保护自己;
  • 打工是不可能发财的,现在还能靠还灵光的脑子来学习新技术,等自己老了就只能被新员工淘汰了。
  • 只有产生规模效应,加上低成本,自动化的工作才能真正积累财富。[^1] 简单来说就是在有需求的地方做平台收人头费。
  • 我当前选择的就是自建自动量化投资平台(资金管理平台),
    • 首先,可以弥补我欠缺的金融知识;学会合理的管钱
    • 其次,在不成熟之前可以自用;
    • 好用之后,可以商业化。
    • 但是个人开发周期3~7年,希望重策略轻软件框架,毕竟时间跨度大,合适的软件框架估计变了。
    • 唯一的问题:难度可能太高了,比如,最后发现不了赚钱的量化策略。
  • 还有另一种可能,在洞察到平台商业机会后,通过快速软件化(前后端)上线。
Read more

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。
Read more

Why Choose Quantitative Finance

导言

为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。

Read more

Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。

Read more

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

Read more