知差（chai）

博客

🎮《神奇引擎的进化：Godot 4.4 RC 1 的故事》
2025 年 2 月 21 日，Godot 引擎团队发布了一个激动人心的消息：Godot 4.4 RC 1（Release Candidate 1）正式上线！这标志着 Godot 4.4 的开发进入了最后阶段。作为一个开源、非盈利的游戏引擎，Godot 的每一次更新都像是一场盛大的庆典，而这次也不例外。那么，Godot 4.4 RC 1 究竟带来了哪些新变化？它又为何如此特别？让我们一探究竟。

🚀 候选版本：准备就绪的“准决赛”

在软件开发的世界里，“Release Candidate”（RC）是一个非常重要的阶段。它意味着所有的功能已经到位，最关键的 bug（回归问题）已经被修复，开发团队认为这已经足够稳定，可以投入生产环境使用。然而，RC 阶段也是一个“全民参与”的测试期，开发者们需要社区的广泛测试来确保没有遗漏任何重大问题。

Godot 4.4 RC 1 便是这样一个版本。它鼓励用户尝试将现有项目升级到 4.4，但前提是一定要备份项目或使用版本控制系统，以防万一。毕竟，RC 阶段的软件仍然可能隐藏着一些未被发现的问题。

🛠️ 修复与优化：从细节中见真章

Godot 4.4 RC 1 的亮点之一是对先前版本中存在的回归问题进行了大量修复。以下是一些显著的改进：
- 音频修复：解决了 Web 平台中暂停未启动音频样本时的问题（GH-102955）。
- 编辑器优化：修复了嵌入式游戏覆盖底部面板的问题，并为渲染驱动程序设置添加了“自动”选项（GH-102978 和 GH-103026）。
- 输入系统改进：防止挂起的输入事件在循环中擦除窗口内容（GH-102993）。
- 粒子系统修复：修正了粒子在每次发射时未重新随机化的问题（GH-103068）。
- 跨平台支持：修复了 Windows 平台上嵌入式游戏启动位置的问题（GH-103021）。
这些修复看似微小，却是开发者们夜以继日努力的成果。它们不仅提升了引擎的稳定性，也为用户提供了更流畅的开发体验。

🌟 新功能的背后：从 beta 到 RC 的旅程

如果你是第一次接触 Godot 4.4，那么强烈建议回顾之前的 4.4 beta 1 博客文章，其中详细介绍了这个版本的主要新功能。而在 RC 阶段，团队的重点已经从功能开发转向了问题修复和稳定性优化。

值得一提的是，Godot 4.4 的 .NET 构建版本现在要求最低支持 .NET 8.0，而不再支持 .NET 6。这一变化旨在利用更先进的技术栈，为开发者提供更强大的功能支持。

🖥️ 跨平台支持：从桌面到移动端的无缝体验

Godot 4.4 RC 1 提供了多种平台的下载选项，包括 Windows、macOS 和 Linux。用户可以选择标准版本（支持 GDScript 和 GDExtension）或 .NET 版本（支持 C#）。此外，团队还推出了 Web 编辑器和 Android 编辑器的测试版本。如果你对这些感兴趣，可以加入他们的测试组，抢先体验这些新工具。

🐛 已知问题：完美之前的最后一哩路

尽管开发团队已经尽力修复了大多数关键问题，但 RC 阶段的软件仍然可能存在一些已知的 bug。例如：
- 渲染驱动程序设置的回归问题：Android 和 iOS 导出过程中，某些必要配置未正确设置（GH-103156）。解决方法是手动将 rendering/rendering_device/driver.android 设置为 vulkan，将 rendering/rendering_device/driver.ios 设置为 metal。
对于其他已知问题，用户可以访问 GitHub 问题跟踪器，查看完整的 bug 列表。如果你在测试中发现了新问题，也可以提交 bug 报告，帮助团队进一步改进。

💡 社区的力量：开源的灵魂

Godot 的成功离不开社区的支持。从志愿者到全职开发者，数百名贡献者用自己的时间和精力推动了这个项目的发展。而这一切都得益于社区的慷慨捐赠。通过捐款，用户不仅能够支持开发者的工作，还能为 Godot 的未来发展提供保障。

如果你愿意支持这个项目，可以通过 Godot Development Fund 捐款，成为这个开源奇迹的一部分。

🎨 封面故事：Tiny Pasture 的像素艺术魅力

Godot 4.4 RC 1 的封面插图来自一款名为 Tiny Pasture 的游戏。这是一款由 CaveLiquid 开发的“桌面宠物”游戏，玩家可以在屏幕底部看到可爱的像素动物悠闲地吃草。这款游戏不仅展示了 Godot 引擎的强大功能，也为开发者们提供了灵感：用简单的工具创造出令人愉悦的体验。

📥 下载与尝试：你的反馈至关重要

如果你已经迫不及待想要尝试 Godot 4.4 RC 1，可以立即前往下载页面。但请记住，这是一个预发布版本，务必做好备份，避免数据丢失。

📝 结语：共同书写 Godot 的未来

Godot 4.4 RC 1 是一个里程碑，但它并不是终点。每一次测试、每一条反馈，都是推动这个项目前进的动力。作为一个开源项目，Godot 的未来掌握在每一位用户手中。无论你是开发者、玩家，还是单纯的技术爱好者，都可以通过自己的方式为这个项目贡献力量。

让我们一起期待 Godot 4.4 的正式发布，见证这个引擎的又一次飞跃！

参考文献
1. Rémi Verschelde, Release candidate: Godot 4.4 RC 1, Godot Engine Blog, 2025.
2. Godot Engine 官方文档与下载页面。
3. GitHub 问题跟踪器与社区贡献者列表。
2025 年 2 月 23 日
🧠《智者的进化：解密 GRPO 算法的奥秘》
在人工智能的浩瀚星海中，强化学习（Reinforcement Learning, RL）是一颗璀璨的明星。它赋予机器“学习”的能力，让它们能像人类一样，通过试错和反馈不断优化自身行为。而在这个领域中，GRPO（Group Relative Policy Optimization）算法犹如一位新晋的“智者”，以其独特的策略优化方式，正在悄然改变强化学习的格局。那么，GRPO 究竟是什么？它是如何工作的？又为何如此与众不同？让我们一同揭开它的神秘面纱。

🌟 从零开始：GRPO 的诞生故事

想象一下，一个运动员正在为奥运会做准备。他每天训练、比赛，通过不断调整自己的策略来提升表现。传统的强化学习算法就像这位运动员的教练，时刻在旁边指点：“这动作不对，改一下！”或者“这个策略不错，保持下去！”这种教练角色在强化学习中被称为“批评者模型”（Critic Model），它负责评估策略的好坏。

然而，GRPO 的出现打破了这种传统模式。它的核心思想是：“运动员可以通过与其他运动员的表现比较，自己总结经验，而不需要教练的直接指导。” 这就是 GRPO 的独特之处——它放弃了批评者模型，而是通过群体得分的相对比较来优化策略。

GRPO 是由 Shao 等人在 2024 年提出的一种全新强化学习算法。它的设计初衷是为了降低训练成本，同时提升策略优化的效率。可以说，它是强化学习领域的一次大胆创新。

🧩 核心原理：GRPO 的工作方式

🏋️‍♂️ 1. 群体的智慧：放弃批评者模型

传统的强化学习算法（如 PPO, Proximal Policy Optimization）依赖于批评者模型来评估策略的表现。然而，批评者模型的训练成本极高，尤其是在复杂任务中，训练一个高质量的批评者模型可能需要耗费大量计算资源。

GRPO 的聪明之处在于，它完全抛弃了批评者模型，而是通过群体得分来评估策略的优劣。换句话说，它不再依赖一个“教练”，而是让运动员通过与队友的比较来发现自己的不足。比如，在一个团队比赛中，每位队员的表现都会影响团队的总分，而 GRPO 就是通过这种相对比较来指导策略的优化。

📊 2. 优势函数：衡量谁更出色

在 GRPO 中，优势函数（Advantage Function）是一个关键概念。它用于衡量某个动作相对于平均策略的表现。简单来说，优势函数就像一张成绩单，告诉你某个动作是否比平均水平更优秀。

公式如下：

$Ai=ri−mean({r1,r2,…,rA})A_i = r_i - \text{mean}(\{r_1, r_2, \dots, r_A\})Ai=ri−mean({r1,r2,…,rA})$

其中：
- rir_iri 是第 iii 个动作的奖励值；
- mean({r1,r2,…,rA})\text{mean}(\{r_1, r_2, \dots, r_A\})mean({r1,r2,…,rA}) 是该组动作的平均奖励值。
通过这种方式，GRPO 能够准确地评估每个动作的相对优势，而不需要一个复杂的批评者模型来计算。

🔄 3. 策略更新：稳中求进

在强化学习中，策略更新是一个微妙的过程。更新幅度太大可能导致策略不稳定，而更新幅度太小又会拖慢训练速度。GRPO 通过以下目标函数来实现策略的稳定更新：

$J(θ)=E[∑i=1Amin⁡(πθ(ai∣s)πold(ai∣s)Ai,clip(πθ(ai∣s)πold(ai∣s),1−ϵ,1+ϵ)Ai)]J(\theta) = \mathbb{E} \left[ \sum_{i=1}^A \min \left( \frac{\pi_\theta(a_i|s)}{\pi_{\text{old}}(a_i|s)} A_i, \text{clip} \left( \frac{\pi_\theta(a_i|s)}{\pi_{\text{old}}(a_i|s)}, 1-\epsilon, 1+\epsilon \right) A_i \right) \right]J(θ)=E[i=1∑Amin(πold(ai∣s)πθ(ai∣s)Ai,clip(πold(ai∣s)πθ(ai∣s),1−ϵ,1+ϵ)Ai)]$

这个公式看起来有些复杂，但它的核心思想是：通过裁剪函数（clip）限制策略更新的幅度，从而确保训练过程的稳定性。

🚀 GRPO 的优势：为何它如此特别？

💰 1. 降低训练成本

GRPO 的最大亮点之一是它放弃了批评者模型。这不仅大幅减少了计算资源的消耗，还使得算法在大规模任务中的表现更加高效。

🛠️ 2. 简化训练流程

没有了批评者模型的干扰，研究人员和工程师可以更加专注于策略模型的优化，而不需要花费大量时间和精力在批评者模型的训练上。

⚡ 3. 提高训练效率

通过群体相对策略优化，GRPO 能够更高效地利用训练数据，从而加速策略的收敛速度。

🎯 4. 增强策略性能

GRPO 通过比较一组策略的相对表现，能够更准确地指导策略的更新，从而提升策略的整体性能。

🧪 实际应用：GRPO 在 DeepSeek-R1-Zero 中的表现

为了更好地理解 GRPO 的实际应用，我们来看一个具体的例子——DeepSeek-R1-Zero 模型。这是一个基于强化学习的推理模型，主要用于解决复杂的数学问题。

在 DeepSeek-R1-Zero 的训练过程中，GRPO 算法被用于优化模型的推理策略。通过大规模的强化学习训练，DeepSeek-R1-Zero 在多个推理基准测试中取得了显著的性能提升，甚至超过了 OpenAI 的 o1-0912 模型。这一成果证明了 GRPO 在实际应用中的强大潜力。

🌈 总结：GRPO 的未来展望

GRPO 算法作为一种创新的强化学习策略优化方法，通过放弃传统的批评者模型，采用群体相对策略优化的方式，显著降低了训练成本，简化了训练流程，并提高了训练效率。它的出现为强化学习领域带来了新的思路和方法。

未来，随着人工智能技术的不断发展，GRPO 有望在更多领域展现其强大的潜力。无论是机器人控制、游戏 AI，还是自动驾驶、自然语言处理，GRPO 都可能成为推动技术进步的重要工具。

📚 参考文献
1. Shao, J., et al. (2024). “Group Relative Policy Optimization: A Novel Approach to Reinforcement Learning.”
2. Schulman, J., et al. (2017). “Proximal Policy Optimization Algorithms.”
3. OpenAI. “Reinforcement Learning with PPO and Beyond.”
4. Sutton, R. S., & Barto, A. G. (2018). “Reinforcement Learning: An Introduction.”
在未来的强化学习旅途中，GRPO 已经迈出了坚实的一步。而它的故事，才刚刚开始。
2025 年 2 月 3 日

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网