Omni-Modal: AR vs DiT

导言

全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系,单独学习一下

Read more

vllm-omni

导言

vllm专门为了多模态单独推出了推理框架vllm-omni,调研一下

Read more

RL Algorithms: PPO & GRPO-like

导言

  • RL 算法(Reinforcement Learning from Verifiable Rewards (RLVR))在 2025年的GRPO提出后其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

Read more

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。

AI调研真实性问题以及应对:

  • 问题:现在的 Arxiv 时代,处于“狂野西部”状态。迭代极快,但也伴随着刷榜(SOTA-chasing)、数据污染、甚至直接编造数据。
  • 应对:
    • 看竞场:对于大模型,唯一的真理是“盲测竞技场 lmarena”的排名,而不是论文里的表格。
    • 看时间:AI论文日新月异,要注意发布时间;
    • 看落地:已有模型使用的方法,至少能证明方案是可行和正向有效的;
    • 看出身:是 Meta/Google/DeepMind 吗?是知名教授吗? -> 是,则细读。
    • 看开源:Hugging Face 上有模型吗?GitHub 有星吗? -> 有,可信度 +50%。
    • 看复现:Issue、Twitter 和 Reddit 上有人复现成功吗? -> 有,纳入核心趋势。
    • 看引用:如果这篇论文刚出不久就被很多高质量论文引用,说明其思路已被同行关注。

时刻关注前沿:

  1. GRPO/AdvancedResearch
  2. Awesome-MLLM-Reasoning-Collection
  3. Awesome-RL-for-LRMs
  4. Awesome-AgenticLLM-RL-Papers
Read more

Way 2 Wealth Freedom

导言

  • 在训练开发部待了一年,发现一个人在集体里的作用是渺小的,只能负责了一个模块,但是领导却希望你是个全才。而且中国互联网是人力密集型产业。堆人力,不停试。开发人员大部分工作都是消耗在了繁琐的流程上,消磨了意志,相对于2012那些预研的人员,学习提升有限。
  • 最主要是我花的时间,并产生不了技术壁垒,无法保护自己;
  • 打工是不可能发财的,现在还能靠还灵光的脑子来学习新技术,等自己老了就只能被新员工淘汰了。
  • 只有产生规模效应,加上低成本,自动化的工作才能真正积累财富。[^1] 简单来说就是在有需求的地方做平台收人头费。
  • 我当前选择的就是自建自动量化投资平台(资金管理平台),
    • 首先,可以弥补我欠缺的金融知识;学会合理的管钱
    • 其次,在不成熟之前可以自用;
    • 好用之后,可以商业化。
    • 但是个人开发周期3~7年,希望重策略轻软件框架,毕竟时间跨度大,合适的软件框架估计变了。
    • 唯一的问题:难度可能太高了,比如,最后发现不了赚钱的量化策略。
  • 还有另一种可能,在洞察到平台商业机会后,通过快速软件化(前后端)上线。
Read more

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。
Read more

Why Choose Quantitative Finance

导言

为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。

Read more