Training Data Usage

导言

论文中提及的数据训练,分数上涨和饱和的描述总结

Read more

Omni-Modal: AR vs DiT

导言

全模态大模型(Omnimodal Large Models, OLMs),以下简称Omni模型,有时也称之为“端到端多模态大模型”。 它主要解决的文本、图片、语音多模态理解与实时交互的协同问题(图片修改),最新的研究也会涉及统一推理和图像生成。

当前多模态设计中AR和DiT的组合关系,单独学习一下

Read more

vllm-omni

导言

vllm专门为了多模态单独推出了推理框架vllm-omni,调研一下

Read more

RL Algorithms: PPO-RLHF & GRPO-family

导言

  • RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
  • 尽管DPO相对于PPO-RHLF更直接,但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好;
  • 而RLVR算法在 2025年的GRPO提出后,其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

必看好文[^2]

Read more

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。
Read more

Way 2 Wealth Freedom

导言

  • 在训练开发部待了一年,发现一个人在集体里的作用是渺小的,只能负责了一个模块,但是领导却希望你是个全才。而且中国互联网是人力密集型产业。堆人力,不停试。开发人员大部分工作都是消耗在了繁琐的流程上,消磨了意志,相对于2012那些预研的人员,学习提升有限。
  • 最主要是我花的时间,并产生不了技术壁垒,无法保护自己;
  • 打工是不可能发财的,现在还能靠还灵光的脑子来学习新技术,等自己老了就只能被新员工淘汰了。
  • 只有产生规模效应,加上低成本,自动化的工作才能真正积累财富。[^1] 简单来说就是在有需求的地方做平台收人头费。
  • 我当前选择的就是自建自动量化投资平台(资金管理平台),
    • 首先,可以弥补我欠缺的金融知识;学会合理的管钱
    • 其次,在不成熟之前可以自用;
    • 好用之后,可以商业化。
    • 但是个人开发周期3~7年,希望重策略轻软件框架,毕竟时间跨度大,合适的软件框架估计变了。
    • 唯一的问题:难度可能太高了,比如,最后发现不了赚钱的量化策略。
  • 还有另一种可能,在洞察到平台商业机会后,通过快速软件化(前后端)上线。
Read more

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。
Read more

Why Choose Quantitative Finance

导言

为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。

Read more