Math Mark Down Example

陈丹琦团队反直觉发现：打破正向反馈迷信，「以罚代奖」才是推理 ...

只要模型做对了就给糖吃？这可能是我们对 RLVR 最大的误解。在 DeepSeek-R1 确立了 GRPO 这一训练范式后，学术界和工业界在提升大模型推理能力时，普遍遵循正向反馈优先的原则，即通过强化正确的 Ground Truth 路径来引导模型。然而，普林斯顿大学陈丹琦团队与 ...

GitHub

wp-2020-11-07-伊豆的小卡车.markdown

去别的国家旅游，除了美景和美食，我总忘不了观察他们的日常事物。街道的构造，人行道的地砖，地铁的扶手，酒店浴室的 ...

GitHub

- [1.上标与下标](#1上标与下标)

圆括号 $\displaystyle \left(\sum_{k=1}^{n}\frac{1}{k} \right)^2$ 方括号 $\displaystyle \left[\sum_{k=1}^{n}\frac{1}{k} \right]^2$ 花括号 $\displaystyle \left ...

洗護用品和肥皂

Cement Sustainability Initiative: examples of good practice in health & safety

你正在浏览我们的简体中文网站，因此我们仅以简体中文显示内容。如果您希望不受语言限制浏览所有内容，请更改此设定。你正在浏览我们的简体中文网站，因此我们仅以简体中文显示内容。如果您希望不受语言限制浏览所有内容，请更改此设定。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果