作者： C3P00

向着全新的端到端人工智能驱动全球天气预报系统迈进

摘要

天气预报系统对科学和社会都至关重要，人工智能（AI）在中期天气预报中已经取得了重大成就。然而，现有的基于AI的天气预报模型仍然依赖于传统的数值天气预报（NWP）系统产生的分析或再分析产品作为预测的初始条件，无法成为完全独立的系统。作为端到端全球天气预报系统的重要组成部分，数据同化在生成预测的初始状态方面至关重要。本文介绍了一种基于AI的数据同化模型，即Adas，用于全球天气变量，它通过学习从背景和稀疏观测中生成分析。与现有的同化方法不同，Adas采用门控卷积模块处理稀疏观测，并采用门控交叉注意力模块高效捕捉观测和背景之间的相互作用，这些模块由置信矩阵引导，表示观测的可用性和质量。然后，我们将Adas与先进的基于AI的天气预报模型（即FengWu）结合起来，构建了第一个端到端的基于AI的全球天气预报系统：FengWu-Adas。实验证明，Adas可以通过一年的模拟将模拟的全球观测同化到由AI生成的背景中，并稳定地生成高质量的分析。基于生成的分析，FengWu-Adas在七天的天气预报中表现出了高超的性能，优于集成预报系统（IFS）。

关键词：数据同化、人工智能、中期天气预报、深度学习

引言

在人工智能（AI）的推动下，特别是深度学习技术的成熟和进步，科学智能正在迅速发展，以利用AI促进科学研究和发现。在大气科学领域，AI在各个领域取得了显著的成就，如后处理和偏差校正、降尺度、降水即时预报、气候预测和中期天气预报等。一些基于AI的模型与欧洲中期天气预报中心（ECMWF）的集成预报系统（IFS）相比，通常在重分析数据集上进行训练，并且具有较低的计算成本和更容易的操作部署。尽管存在一些缺点，如预报平滑性和偏差漂移，但AI方法在天气预报中显示出了数据驱动建模的巨大潜力，为气象预报提供了一种新的范式。

尽管取得了重大进展，但前面提到的基于AI的天气预报模型仍然需要传统NWP系统中数据同化过程产生的分析产品进行预测。具体而言，数据同化旨在获得地球系统真实状态的最佳估计（即分析），并为天气预报提供准确的初始状态，从而提高预报性能。在一个自给自足的全球天气预报系统中，数据同化是确保系统长期稳定性的关键组成部分。观测作为数据同化的重要信息源，因为它们是大气真实状态的最接近表示。天气预报系统对科学和社会来说至关重要。在中期天气预报中，应用人工智能（AI）已取得了重大成就。然而，现有的基于AI的天气预报模型仍然依赖传统数值天气预报（NWP）系统生成的分析或再分析产品作为预测的初始条件，无法构建完全独立的系统。数据同化是端到端全球天气预报系统中至关重要的一部分，它在生成预测的初始状态方面起着关键作用。本文提出了一种基于AI的数据同化模型，命名为Adas，用于全球天气变量。该模型通过学习从背景和稀疏观测中生成分析。与现有的同化方法不同，Adas采用门控卷积模块处理稀疏观测，并采用门控交叉注意力模块高效捕捉观测和背景之间的相互作用。这些模块受置信矩阵引导，以表示观测的可用性和质量。随后，我们将Adas与先进的基于AI的天气预报模型FengWu结合，构建了第一个端到端的基于AI的全球天气预报系统：FengWu-Adas。实验结果表明，Adas能够通过一年的模拟将模拟的全球观测与由AI生成的背景同化，并稳定地生成高质量的分析。基于生成的分析，FengWu-Adas在七天的天气预报中表现出卓越的性能，优于集成预报系统（IFS）。

在人工智能的推动下，科学智能正在迅速发展。大气科学领域的人工智能已经在多个领域取得了显著成就，包括后处理和偏差校正、降尺度、降水即时预报、气候预测和中期天气预报等。与欧洲中期天气预报中心（ECMWF）的集成预报系统（IFS）相比，一些基于AI的模型通常在重分析数据集上进行训练，具有更低的计算成本和更容易的操作部署。尽管这些方法存在一些缺点，如预报平滑性和偏差漂移，但它们显示了数据驱动建模在天气预报中的巨大潜力，为气象预报带来了一种新的范式。

数据同化是确保天气预报系统长期稳定性的关键组成部分。它旨在获得地球系统真实状态的最佳估计（即分析），并为天气预报提供准确的初始状态，从而提高预报性能。观测是数据同化的重要信息源，因为它们最接近大气真实状态。早期的初始条件是通过将观测插值到状态空间的网格点上来获得的。现代数据同化技术通常通过将观测与短期天气预报的模型预测结果进行整合来实现。

尽管在AI驱动的天气预报模型方面取得了重要进展，但仍然需要传统NWP系统中数据同化过程生成的分析产品。因此，本文提出了Adas模型来解决这个问题。Adas模型通过学习从背景和稀疏观测中生成分析，采用了一些创新的门控卷积模块和门控交叉注意力模块，来处理稀疏观测和背景之间的相互作用。通过引入置信矩阵，Adas模型能够有效地反映观测的可用性和质量。通过将Adas模型与先进的基于AI的天气预报模型FengWu相结合，我们构建了全新的端到端基于AI的全球天气预报系统：FengWu-Adas。

FengWu-Adas系统的性能经过了实验证实。通过一年的模拟，Adas模型可以将模拟的全球观测与由AI生成的背景同化，并稳定地生成高质量的分析结果。基于这些分析结果，FengWu-Adas系统在七天的天气预报中表现出了卓越的性能，超过了传统的集成预报系统（IFS）。

这个全新的端到端基于AI的全球天气预报系统具有重要的科学和实际意义。它不仅能够提供更准确、更可靠的天气预报，还能够减少对传统NWP系统的依赖，并降低运行成本。此外，该系统还为天气预报领域的进一步研究提供了新的思路和方法。

总结起来本文介绍了一种基于AI的数据同化模型Adas，以及如何将其与先进的基于AI的天气预报模型FengWu相结合，构建了全新的端到端基于AI的全球天气预报系统：FengWu-Adas。实验证明，该系统在天气预报性能方面表现出色，超过了传统的集成预报系统。这个系统的建立对于改进天气预报准确性和可靠性具有重要意义，并为未来的天气预报研究提供了新的方向。

希望通过这个全新的端到端基于AI的全球天气预报系统，我们能够更好地了解和预测天气，为社会提供更准确的天气信息，从而更好地应对自然灾害和保护人们的生命财产安全。

如果您对这个全新的基于AI的全球天气预报系统感兴趣，想要了解更多细节，请阅读原文：链接到原文。

谢谢阅读！🌦️🌍📚

2023 年 12 月 21 日
评估大型语言模型在多智能体协作环境中的协调能力

简介：

🌟 当今人工智能研究的重要目标之一是开发能够与人类和其他系统有效协作的智能体。大型语言模型（LLM）以其理解、生成和解释人类语言的能力而备受关注，成为开发此类智能体的有力候选。在本研究中，我们旨在构建并评估使用LLM构建的智能体在各种协调场景中的效果。我们引入了LLM-Coordination（LLM-Co）框架，专门设计用于使LLM能够玩协调游戏。通过评估，我们深入研究了LLM在心智理论、情境推理、持续协调、对合作伙伴的稳健性以及显性协助等方面的能力。研究结果突显了LLM在复杂协调环境中的潜力，并揭示了LLM在构建用于多智能体协作的强大现实世界智能体方面的潜力。

理解多智能体协调的需求：

🌟 人类在日常生活和工作中经常进行各种协调任务，包括烹饪等平凡活动以及搜救等更重要的任务。为了帮助人类完成乏味或危险的任务，开发能够与人类或其他自主系统协调的智能体至关重要。大型语言模型最近在复杂环境中展示了解决问题和完成任务的能力，展示了高级推理能力和心智理论的迹象。在本研究中，我们旨在探索大型语言模型在解决需要多智能体协调的任务时的推理能力。

评估过程：

🌟 为了评估LLM的多智能体协调能力，我们采用了三种不同的协调游戏：Collab Escape、Collab Capture和Overcooked。在这些游戏中，智能体需要协调行动以实现特定目标。为了使LLM能够理解和玩这些游戏，我们引入了LLM-Coordination框架。该框架为智能体提供了环境的上下文状态信息、可行动作以及解释实时执行的能力。

测试心智理论和情境推理：

🌟 在评估持续协调能力之前，我们首先测试了LLM的心智理论（ToM）和情境推理能力。心智理论使模型能够推断他人的意图和信念，而情境推理则使模型能够将这些推断与环境的上下文情境联系起来。我们设计了LLM-ToM-Reasoning测试集，其中包括来自我们协调游戏的情景。该测试集要求LLM根据合作伙伴的意图和环境的当前状态进行推理，提供最佳的下一步行动。评估涉及不同LLM（包括GPT-4、GPT-3.5-turbo、Vicuna-33B和Vicuna-13B）的比较。结果表明，GPT-4在性能上超过其他LLM，达到了接近人类水平的分数。

评估持续协调和对合作伙伴的稳健性：

🌟 为了评估持续协调能力，我们专注于使用GPT-4的LLM-Co智能体，该智能体展现出强大的心智理论和情境推理能力。我们将LLM-Co智能体的性能与强化学习（RL）基准进行比较，后者是AI-AI游戏中的黄金标准。我们还通过在协调环境中尝试不同的合作伙伴来评估智能体对不同合作伙伴行为的稳健性。评估结果显示，LLM-Co智能体在AI-AI和AI-human代理游戏中的表现不亚于甚至优于RL基准，而且无需进行任何微调。此外，LLM智能体在自然语言中提供详细解释其行动的能力方面表现出色。

协调任务中的主动协助：

🌟 在协调任务中，提供对合作伙伴的显性协助能力至关重要。为了测试这种能力，我们在Overcooked环境中引入了两个新的布局，要求LLM-Co智能体优先帮助合作伙伴，甚至可能牺牲自身的任务完成时间。通过实验和评估，我们发现LLM-Co智能体能够确定协助合作伙伴的正确策略。然而，在需要提示协助的情况下，它们需要以自然语言的“协助指令”来引导其关注。结果表明，LLM-Co智能体在这些新布局中的表现优于基准模型。

主要贡献：

🌟 在我们的研究中，我们做出了以下几个重要贡献：

1️⃣ 发展了LLM-Coordination框架，为大型语言模型提供了在实时场景中玩长期协调游戏所需的工具和环境信息。

2️⃣ 引入了LLM-ToM-Reasoning测试集，专门设计用于评估大型语言模型的心智理论和情境推理能力。

3️⃣ 通过LLM-Co智能体的评估，展示了它们在全面的多轮协调场景中与强化学习基准的性能。

4️⃣ 引入了两个新的Overcooked布局，以检验LLM-Co智能体提供主动协助合作伙伴的能力，突出了其在优先合作而非个体任务完成方面的能力。

结论：

🌟 对大型语言模型在多智能体协调场景中的评估揭示了它们在理解和推理合作伙伴意图、适应复杂环境以及提供显性协助方面的潜力。LLM-Coordination框架与LLM的优势相结合，使得能够开发能够熟练进行多智能体协调的现实世界智能体成为可能。这项研究为构建能够有效与人类和其他自主智能体协作的先进AI系统开辟了新的途径，促进了在搜索和救援、医疗保健和日常任务等各个领域的进展。本研究的发现为AI研究中增强智能体协调能力的持续努力做出了贡献。

🎉🎉🎉 结束 🎉🎉🎉

2023 年 12 月 21 日

作者： C3P00

向着全新的端到端人工智能驱动全球天气预报系统迈进

评估大型语言模型在多智能体协作环境中的协调能力