分类: AGI

  • AgentVerse:开启多智能体交互的新篇章

    欢迎来到AgentVerse!在这个充满可能性的世界中,我们致力于为大型语言模型(LLMs)提供一个自定义的多智能体环境。那么什么是AgentVerse呢?它是一个强大的框架,旨在简化为LLMs创建自定义多智能体环境的过程。这里,你可以快速、低成本地开发和定制你所需的环境,专注于你的研究,而不被实现细节所困扰。

    AgentVerse的特色

    AgentVerse的主要优势在于其高效的环境构建能力和可定制的组件。我们的框架提供了一系列基础构建模块,使得创建多智能体环境变得轻而易举。只需在配置文件中写入几行,你就可以轻松建立如LLMs的聊天室这样的基本环境。此外,AgentVerse还支持多智能体环境的工具,当前我们支持BMTools中提供的工具。

    最新消息

    我们在AgentVerse的开发过程中取得了一些重要的进展。首先,我们非常兴奋地分享我们的AI开源社区hugging face: AgentVerse。你可以在提供openai API密钥和openai组织代码后,尝试NLP Classroom和Prisoner’s Dilemma两个模拟应用程序。其次,我们还发布了一篇与本仓库相关的进行中的论文,详细介绍了AgentVerse的任务解决框架。我们还为你们提供了一个简单的H5宝可梦游戏,该游戏允许与宝可梦中的角色互动!

    开始使用

    要开始使用AgentVerse,首先你需要安装它。你可以通过

    pip install -U agentverse

    命令来安装,或者通过手动克隆最新的仓库来安装此包。然后,你需要按照我们的指示,导出你的OpenAI API密钥。如果你想使用BMTools提供的工具,你还需要安装BMTools。

    安装完成后,你就可以开始创建你的多智能体环境了。我们在agentverse/tasks目录中提供了一些示例,你可以参考这些示例来创建你自己的环境。例如,你可以创建一个教室环境,其中有一个智能体扮演教授的角色,其他的智能体扮演学生的角色。或者,你也可以创建一个更复杂的环境,例如一个数据库诊断环境,其中一个智能体扮演首席数据库管理员的角色,其他的智能体扮演内存和CPU智能体的角色。

    总的来说,无论你的需求是什么,AgentVerse都能提供一个灵活且可扩展的框架,让你能够轻松地构建和定制自己的多智能体环境。

  • 零一万物(01.AI)推出全新AI大模型:Yi系列

    欢迎诸位,我今天要分享的是一个振奋人心的新闻:零一万物(01.AI),一个全球领先的AI技术与应用公司,刚刚发布了它们新一代的AI大模型——Yi系列。Yi系列模型是一组全新的大型语言模型,它们的参数规模分别为60亿(Yi-6B)和340亿(Yi-34B)。而且,它们都支持在推理阶段将序列长度扩展至32K。

    01-ai/Yi-34B · Hugging Face

    一、Yi系列模型的诞生

    Yi系列模型是零一万物研发团队自主训练的大语言模型。首次公开发布包含两个参数尺寸为6B和34B的双语(英/中)基础模型。它们都是以4K序列长度进行训练,但在推理时可以扩展到32K。

    二、模型性能的优越表现

    Yi-6B和Yi-34B基础模型在2023年11月2日发布。在模型性能上,Yi系列模型在多项评测中展现出了全球领跑的优秀性能。

    对比同类型的开源模型,我们发现,不同模型可能采用不同的提示、后处理策略和取样技术,可能导致结果有显著的差异。我们的提示和后处理策略与原始基准测试保持一致,评估时采用贪婪解码,不对生成的内容进行任何后处理。对于原作者未报告的分数(包括以不同设定报告的分数),我们试图用我们的流程得出结果。

    我们采用了Llama2的方法论来广泛评估模型的能力。具体来说,我们引入了PIQA、SIQA、HellaSwag、WinoGrande、ARC、OBQA和CSQA来评估常识推理能力。SquAD、QuAC和BoolQ被用来评估阅读理解能力。CSQA被单独用7-shot设置进行测试,而所有其他测试都采用了0-shot配置。此外,我们在”Math & Code”分类下引入了GSM8K(8-shot@1)、MATH(4-shot@1)、HumanEval(0-shot@1)和MBPP(3-shot@1)。由于技术限制,我们没有对Falcon-180进行QuAC和OBQA的测试,分数是通过平均剩余任务的分数得出的。由于这两项任务的分数通常低于平均值,我们认为Falcon-180B的性能没有被低估。

    三、模型的使用

    我们在Github仓库上提供了关于如何使用此模型的一般指导。

    四、免责声明

    尽管我们在训练过程中使用数据合规性检查算法,以尽我们最大的能力确保训练模型的合规性,但由于数据的复杂性和语言模型使用场景的多样性,我们无法保证模型在所有场景中都能生成正确和合理的输出。请注意,模型仍有可能产生问题输出的风险。我们对任何由误用、误导、非法使用和相关的错误信息,以及任何相关的数据安全问题产生的风险和问题不承担责任。

    五、许可证

    Yi系列模型完全开放给学术研究和经过申请许可的免费商业使用。所有使用必须遵守模型许可协议2.0。要申请正式的商业许可证,请通过yi@01.ai与我们联系。

    六、结语

    Yi系列模型的诞生和发展,标志着我们正在走向人工智能的新纪元——AI 2.0。我们期待与全球的研究者、开发者和企业等合作伙伴一起,共同推动AI的进步,共同创造一个更智能、更美好的未来。

    让我们一起迎接这个全新的世界,一个由零一万物打造的,由Yi系列大模型技术推动的,AI 2.0的世界。

  • AI Comic Factory: 使用LLM + SDXL生成漫画

    大家是否曾经梦想过自己是一名漫画家?现在,借助AI Comic Factory项目,你可以轻松实现这个梦想!这个项目由GitHub用户jbilcke-hf创建,旨在使用LLM(Large Language Model)和SDXL(Stable Diffusion XL)技术生成漫画面板。这个项目由Hugging Face提供技术支持,他们一直致力于开发强大的自然语言处理工具。让我们一起深入了解AI Comic Factory的魅力吧!

    AI Comic Factory项目的目标非常明确:使用先进的人工智能技术生成漫画面板。这里使用的技术包括LLM和SDXL。LLM是指大型语言模型,它具备强大的自然语言理解和生成能力。而SDXL则是指稳定扩散XL,它是一种用于生成图像的技术。通过将这两种技术结合起来,AI Comic Factory能够自动生成精美的漫画面板,让你的创意得以实现。

    AI Comic Factory的使用非常简单。你可以通过GitHub上的链接访问项目的主页。在主页上,你可以找到详细的文档和指南,了解如何使用该项目生成漫画面板。你还可以在项目的代码库中查看源代码,了解项目的工作原理。如果你是一名开发者,你甚至可以Fork该项目并进行定制,以适应自己的需求。

    AI Comic Factory不仅适用于个人创作者,也适用于漫画工作室和出版商。通过自动化的漫画生成流程,你可以节省大量的时间和精力,并且获得高质量的漫画面板。该项目还提供了灵活的配置选项,让你能够根据自己的喜好和需求进行定制。

    AI Comic Factory是一个令人兴奋的项目,它为漫画创作提供了全新的可能性。无论你是一名漫画爱好者还是一名专业的漫画家,都可以从中受益。不妨点击上面的链接,了解更多关于AI Comic Factory的信息,并开始你的漫画创作之旅吧!让我们一起用技术的力量创造出精彩纷呈的漫画世界!

    AI Comic Factory – a Hugging Face Space by jbilcke-hf

  • 揭秘LocalAI.io——打造智能化未来的引领者

    在这个飞速发展的数字化时代,人工智能正逐渐渗透到我们生活的方方面面。今天,我将向大家介绍一个引领人工智能领域的先锋——LocalAI.io。他们凭借着一系列独特的技术和创新理念,正为我们揭示一个更加智能化的未来。接下来,就让我们一起走进LocalAI.io的世界,看看他们是如何改变我们的生活吧!


    LocalAI.io是一个致力于推动人工智能技术创新的公司。他们通过开发一系列易于使用的工具和平台,降低了人工智能技术的门槛,让更多人能够轻松体验到智能科技的魅力。他们的产品覆盖了图像识别、自然语言处理、机器学习等多个领域,为我们带来了更便捷、更高效的智能服务。

    在图像识别方面,LocalAI.io研发出了一款名为“智图”的软件。它能够迅速识别出图片中的物体、人脸等信息,并对其进行精准分类。无论是照片管理、安防监控还是自动驾驶等领域,智图都能发挥出强大的作用。这让图像识别技术变得更加普及,为我们的生活带来了诸多便利。

    除了图像识别外,LocalAI.io还在自然语言处理领域取得了卓越成就。他们推出的“智语”平台,能够实现语音识别、文本生成、情感分析等功能。无论是智能家居、智能客服还是语音助手等应用场景,“智语”都能为用户提供高效、便捷的语音交互体验。

    在探寻未来科技的道路上,LocalAI.io从未止步。他们以创新的思维,不断推动着人工智能技术的进步。与此同时,他们还关注着技术的普及与应用,让更多人享受到科技带来的福祉。正是有了像LocalAI.io这样的企业,我们的世界正变得越来越智能化,越来越美好。希望在未来,他们能够继续发挥领导力,携手我们共创一个充满智慧与创造力的新时代。

  • 使用24GB消费级GPU进行20B LLMs的RLHF微调

    欢迎各位读者,今天我们要聊聊一件新鲜事。没错,就是在一台24GB的消费级GPU上,如何对20B参数的大型语言模型(LLM)进行RLHF(人工反馈强化学习)的微调。这个工作得益于我们的新工具——trl和peft的完美结合。让我们一起来探索这个新颖的微调方法,以及它如何变得更加容易实现。

    一、 LLMs & RLHF:AI领域的新星

    首先,让我们来了解一下大型语言模型(LLMs)和人工反馈强化学习(RLHF)。结合使用LLMs和RLHF,我们可以构建出像ChatGPT这样的强大AI系统。这个过程通常包括三个步骤:首先,我们在特定领域或语料库的指令和人类示例上微调预训练的LLM;然后,我们收集一个人工注释的数据集,训练一个奖励模型;最后,我们用奖励模型和这个数据集使用RL(比如PPO)进一步微调第一步中的LLM。

    二、 什么是TRL?

    trl库的目标是使RL步骤更容易和更灵活,任何人都可以在自定义的数据集和训练设置上使用RL微调他们的LM。你可以使用trl来运行最流行的深度RL算法,PPO,这可以在分布式方式或单一设备上实现!为了实现这一目标,我们利用了Hugging Face生态系统中的accelerate工具,以便任何用户都可以扩大实验规模。

    三、 大规模训练的挑战

    大规模训练可能会遇到挑战。首要挑战是将模型及其优化器状态装入可用的GPU设备。一个参数在GPU内存中所占的空间取决于其”精度”(或者更具体地说,dtype)。最常见的dtype包括float32(32位),float16和bfloat16(16位)。简单来说,要在GPU设备上加载一个模型,每十亿个参数在float32精度下需要4GB的内存,在float16下需要2GB,而在int8下需要1GB。

    四、 8位矩阵乘法

    8位矩阵乘法是一种高效的方法,首次在论文LLM.int8()中提出,旨在解决量化大规模模型时性能下降的问题。简单地说,如果你使用8位矩阵乘法,你可以将全精度模型的大小减少4倍(因此,对于半精度模型,可以减少2倍)。

    五、 低秩适应和PEFT

    在2021年的论文LoRA: Low-Rank Adaption of Large Language Models中,研究者们证明了可以通过冻结预训练的权重并创建低秩版本的注意力矩阵的查询和值层,对大型语言模型进行微调。这种技术使LLMs的微调只需要一小部分的内存需求。

    六、 什么是PEFT?

    参数高效微调(PEFT)是一个由Hugging Face创建的库,用于支持在LLMs上创建和微调适配器层。peft已经无缝地集成了Accelerate,可以利用DeepSpeed和Big Model Inference对大规模模型进行扩展。

    七、 20B参数模型的低秩适配器微调

    那么,现在让我们来具体谈谈如何在24GB的消费级GPU上对20B参数的LLM进行微调。我们通过使用TRL库,可以在个人的数据集和训练设置中用RL微调LM。TRL库使用Hugging Face生态系统的accelerate工具,使得任何用户都可以将实验规模扩大到有趣的范围。

    而在大规模训练中,首要的挑战是如何将模型及其优化器状态装入可用的GPU设备。一种有效的解决方案是使用8位矩阵乘法,这种方法能够减少全精度模型的大小,从而使其适应硬件资源。

    同时,我们引入了低秩适应和PEFT技术。低秩适应是一种可以通过冻结预训练的权重并创建低秩版本的注意力矩阵的查询和值层,对大型语言模型进行微调的技术。这种技术使LLMs的微调只需要一小部分的内存需求。而PEFT(参数高效微调)则是一个由Hugging Face创建的库,用于支持在LLMs上创建和微调适配器层。

    这样,我们就可以在24GB的消费级GPU上进行20B参数模型的低秩适配器微调了。这个过程中,我们使用了trl和peft的集成,使得大型语言模型的微调变得更加容易实现,也更适应于硬件资源。

    总的来说,我们现在有了更多的工具和方法来更有效地微调大型语言模型,这将使得AI系统,如ChatGPT,变得更加强大和实用。这是一次令人兴奋的进步,也预示着AI技术将带来更多的可能性。

  • 将艺术赋予控制力:探索ControlNet在Diffusers中的应用

    大家好,我来给大家介绍一项令人兴奋的技术——ControlNet。这项技术为我们提供了一种全新的方法,让我们能够在图像生成过程中拥有更大的控制权。那么,ControlNet究竟是什么呢?又能带给我们怎样的可能性呢?接下来,让我们一起揭开ControlNet的神秘面纱。

    ControlNet简介

    ControlNet是由张璐民和Maneesh Agrawala在其研究成果“Adding Conditional Control to Text-to-Image Diffusion Models”中提出的一种框架。它提供了一种支持各种空间上下文的方法,这些上下文可以作为Diffusion模型(如Stable Diffusion)的额外条件。让我们通过一些例子来看看ControlNet的强大之处。

    想象一下,你有一个卡通图案,你想将它转化成一张逼真的照片,或者你有一个室内设计的草图,你希望看看它在现实中的效果。这些都可以通过ControlNet来实现。你甚至可以让一些著名的标志图案栩栩如生。ControlNet的应用极限只在于你的想象力。

    ControlNet的工作原理

    那么,ControlNet是如何工作的呢?首先,我们复制一个Diffusion模型(例如Stable Diffusion)的预训练参数,并将其称为“可训练副本”,同时也保留预训练参数的另一份副本,称为“锁定副本”。”可训练副本”用于学习任务特定的内容,而”锁定副本”则用于保留大数据集中学习到的丰富知识。然后,通过优化为ControlNet框架设计的“零卷积”层,将两份参数连接起来。这是一种训练技巧,可以在训练新条件时保留模型已经学到的语义。

    体验ControlNet

    接下来,让我们亲自体验一下ControlNet。首先,我们需要确保已经安装了所有必要的库。我们还需要安装一些额外的依赖项,以便处理不同的ControlNet条件。

    准备好之后,我们就可以开始了。我们选择了一幅著名的画作——《戴珍珠耳环的少女》作为例子。首先,我们将图像进行Canny预处理,这实际上是一个边缘检测的过程。

    之后,我们加载预训练的模型,并将模型设置为半精度(torch.dtype),以便进行快速且内存高效的推理。在加载模型时,我们还使用了一个叫做UniPCMultistepScheduler的调度器,它能大幅减少推理时间。

    接下来,我们将管道设置为开启智能CPU卸载,并启用FlashAttention/xformers注意力层加速,以节省内存消耗并提高推理速度。

    准备工作完成后,我们就可以开始运行ControlNet管道了!我们以“Sandra Oh,最高质量,极其详细”为提示,生成了一系列惊人的图像。其中,我们还可以看到一些现代名人仿照17世纪的这幅画作进行摆拍的图像。

    结语

    ControlNet技术为我们提供了一个全新的创作方式,让我们能够在生成过程中拥有更多的控制权。我们期待着看到更多的创新应用和独特创作。感谢你的阅读,我们下次再见!

  • Würstchen:引领图像生成的速度革新

    大家好,今天我要给大家介绍一款名为 Würstchen 的新型图像生成模型。这款模型由 Hugging Face 公司开发,它是一种扩散模型,能够在高度压缩的图像潜在空间中进行文本条件操作。这项技术的优势在于能大大降低训练和推理的计算成本。以前我们在处理 1024×1024 的图像时,需要花费大量的计算资源,而现在,通过 Würstchen,我们可以用相当于 32×32 图像的资源来完成这项工作,这无疑是一个巨大的突破。

    Würstchen 的设计新颖,实现了 42 倍的空间压缩,这在之前是无法想象的。它采用了两阶段压缩,我们称之为A阶段和B阶段。A阶段是一个 VQGAN,B阶段是一个扩散自编码器。A阶段和B阶段共同被称为解码器,因为它们将压缩后的图像解码回像素空间。还有一个第三阶段模型,称为 Prior,它在高度压缩的潜在空间中进行学习,这种训练需要的计算资源只是当前顶级模型的一小部分,同时也让推理变得更便宜、更快。

    那么,为什么我们需要另一个文本到图像的模型呢?原因很简单,因为 Würstchen 非常快且高效。比起像 Stable Diffusion XL 这样的模型,Würstchen 可以更快地生成图像,同时使用的内存也更少。此外,Würstchen 的训练成本也大大降低,Würstchen v1 只需要 9,000 GPU 训练小时,而 Stable Diffusion 1.4 需要 150,000 GPU 训练小时。这意味着更多的组织可以训练这样的模型。

    使用 Würstchen 也非常简单。您可以通过 Diffusers 库来使用它,下面是一个使用 AutoPipeline 进行推理的例子:

    import torch
    from diffusers import AutoPipelineForText2Image
    from diffusers.pipelines.wuerstchen import DEFAULT_STAGE_C_TIMESTEPS
    
    pipeline = AutoPipelineForText2Image.from_pretrained("warp-ai/wuerstchen", torch_dtype=torch.float16).to("cuda")
    
    caption = "Anthropomorphic cat dressed as a firefighter"
    images = pipeline(
        caption,
        height=1024,
        width=1536,
        prior_timesteps=DEFAULT_STAGE_C_TIMESTEPS,
        prior_guidance_scale=4.0,
        num_images_per_prompt=4,
    ).images

    Würstchen 在 1024×1024 到 1536×1536 之间的图像分辨率上进行训练,同时我们也注意到,在 1024×2048 这样的分辨率上,Würstchen 也能产生很好的结果。我们还发现,Prior(第三阶段模型)能够非常快速地适应新的分辨率,因此在 2048×2048 的分辨率上进行微调应该是计算成本非常低的。

    此外,Würstchen 还提供了一些优化技术,包括使用 PyTorch 2 SDPA 加速注意力机制,为 Apple Silicon Mac 提供的 mps 设备支持,以及使用生成器进行可复现性优化等。

    在此,我们要感谢 Stability AI 提供的计算资源,使得我们能够训练出这样的模型,我们希望这项研究能够对更多的研究者和开发者带来帮助,提升他们在图像生成领域的工作效率。

    Würstchen 的所有检查点都可以在 Huggingface Hub 上查看。在那里,您可以找到多个检查点,以及未来的演示和模型权重。目前,Prior有三个检查点,Decoder有一个检查点。请在文档中查看检查点的解释,以及不同的 Prior 模型的用途。

    因为 Würstchen 完全集成在 Diffusers 中,所以它自带各种好处和优化。其中包括:

    • 自动使用 PyTorch 2 SDPA 加速的注意力机制。
    • 支持 xFormers 的 flash 注意力实现,如果你需要使用 PyTorch 1.x 而不是 2.x。
    • 模型卸载,将未使用的组件在不使用时移动到 CPU,这可以节省内存,而对性能影响微乎其微。
    • 顺序 CPU 卸载,适用于内存非常宝贵的情况。内存使用将被最小化,代价是推理速度较慢。
    • 使用 Comp 进行提示权重。

    在这里,我们的介绍就要结束了,但 Würstchen 的旅程才刚刚开始。这个新模型将在图片生成领域带来革命性影响,无论是在计算成本、效率还是在图像质量上,都有显著的提升。我们期待它在未来能够带给更多研究人员和开发者便利和启发。感谢大家的阅读,我们下次再见!

  • 进入3D高斯投影的奇妙世界:开创图形渲染新纪元

    大家好,欢迎来到今天的科技博客,我要引领大家进入一个充满奇妙创新的世界——3D高斯投影。这是一种由《3D高斯投影用于实时辐射场渲染》一文描述的光栅化技术,它带来了摄影级别的实时场景渲染。

    3D高斯投影到底是什么?

    首先,让我们来揭开3D高斯投影的神秘面纱。它是一种光栅化技术,这意味着它将场景描述的数据绘制在屏幕上,如同计算机图形中的三角形光栅化一样。然而,这里的主角并不是三角形,而是高斯分布。每一个高斯分布都被一些参数所描述,包括它的位置(XYZ)、协方差(即它的拉伸或缩放,由3×3矩阵表示)、颜色(RGB)以及透明度(α)。在实际应用中,这些高斯分布会被同时绘制出来,从而形成了我们所看到的3D图像。

    3D高斯投影的工作原理

    接下来,我将为大家详细介绍一下3D高斯投影的全过程。

    首先,通过利用Structure from Motion(SfM)方法,我们可以从一组图片中估算出一个点云。然后,这些点会被转换成高斯分布,这已经足够进行光栅化了。接下来,我们需要通过训练来学习一个可以产生高质量结果的表示。

    在训练过程中,我们使用了类似于神经网络的随机梯度下降,但没有涉及到层的概念。训练步骤包括使用可微的高斯光栅化将高斯分布光栅化为图像,计算光栅化图像与真实图像之间的差异,根据损失调整高斯参数,并应用自动化的密集化和剪枝。这使得高斯分布能更好地适应细致的细节,同时剪除不必要的高斯分布。

    作为光栅化技术,3D高斯投影的关键在于它的快速性和可微性。每一个高斯分布都会从摄像机的视角投影到2D空间,按深度排序,然后每个像素会依次迭代每个高斯分布,将它们混合在一起。

    3D高斯投影的重要性

    那么,为什么3D高斯投影会引起人们的广泛关注呢?答案很明显,它能实时渲染出高质量的场景。而且,它还有很多未知的可能性,例如是否可以进行动画渲染?是否可以进行反射渲染?是否可以在不依赖参考图像的情况下进行建模?此外,3D高斯投影对于很多AI研究领域,如Embodied AI,也可能带来深远的影响。

    3D高斯投影和图形的未来

    那么,3D高斯投影对图形的未来意味着什么呢?它的优点包括能快速地实时渲染出高质量的照片级别场景,并且训练过程也相对较快。然而,也存在一些缺点,比如它需要大量的视频内存(查看需要4GB,训练需要12GB),生成的场景文件大小也较大,达到1GB以上。此外,它与现有的渲染管线并不兼容,生成的场景是静态的,不能动态改变。

    虽然3D高斯投影带来了一些挑战,但它的出现无疑是图形渲染领域的一大创新。它打开了一个全新的可能性,也许在不久的将来,我们将看到更多利用3D高斯投影的实时、高质量的渲染效果。

    结语

    在这篇博客中,我们对3D高斯投影进行了初步的探讨。这是一个既神秘又充满无限可能性的领域。虽然它目前还存在一些局限性,但我们相信,随着科研人员的不断探索和技术的不断进步,3D高斯投影将为未来的图形渲染开创全新的纪元。

  • 以强化学习让生成模型更符合人类审美:DDPO与TRL的完美结合


    亲爱的读者,你是否曾经想过,我们能否让人工智能生成的图片更符合人类的审美呢?今天,我们就要带你探索这个问题的答案。我们将介绍如何使用DDPO(Denoising Diffusion Policy Optimization)通过TRL(Transformers Library)微调稳定扩散模型,从而使AI生成的图像更符合人类的审美。这是一场充满挑战与创新的神经网络冒险之旅,让我们一起启程吧!

    一、DDPO与微调扩散模型的优势

    首先,我们必须理解的是,DDPO不是微调扩散模型的唯一方法,但它的优势却是显而易见的。以计算效率和准确性为首的一系列特点,使得DDPO成为了扩散模型微调的理想选择。相比于之前的方法,DDPO将去噪步骤视为一个多步马尔可夫决策过程(MDP),并在最终获得奖励。这种全新的方法,使得代理策略能够成为一个各向同性的高斯分布,而不是一个复杂的分布。因此,DDPO不仅提高了计算效率,还减少了误差的堆积,为我们提供了更精准的结果。

    二、DDPO算法简述

    DDPO算法主要使用了一种策略梯度方法,即近端策略优化(PPO)。在使用PPO的过程中,我们注意到,DDPO算法的独特之处主要体现在轨迹收集部分。为了更好地理解这个过程,我们提供了一个简单的流程图,帮助你理解DDPO在动作中的运作方式。

    三、DDPO与RLHF:增强审美性的混合

    了解了DDPO的工作原理后,我们会发现,将DDPO与RLHF(Reinforcement Learning from Human Feedback)结合起来,可以更有效地让模型的输出符合人类的审美。在这个过程中,我们首先使用预训练的扩散模型,然后收集人类偏好的数据并使用它来训练奖励模型,最后使用DDPO和奖励模型进行微调。这个过程不仅高效,而且结果非常令人满意,得到的图像更符合人类审美。

    四、使用DDPO训练稳定扩散模型

    让我们深入了解一下如何使用DDPO训练稳定扩散模型。首先,你需要具备一定的硬件条件,例如拥有一台A100 NVIDIA GPU。然后,安装trl库和其他一些必要的依赖。在设置完硬件和软件环境后,你就可以开始实际的训练过程了。

    我们的训练过程主要使用了trl库中的DDPOTrainer和DDPOConfig类。我们提供了一个示例训练脚本,该脚本利用这两个类和一些默认参数,对预训练的稳定扩散模型进行微调。在训练过程中,我们使用了一种审美奖励模型,该模型的权重是从公开的HuggingFace仓库中读取的。因此,你不需要自己收集数据和训练审美奖励模型。

    最后,我们通过python命令启动训练脚本,然后就可以看到训练过程的实时输出了。这个过程可能需要一些时间,所以请耐心等待。完成训练后,你就可以使用微调后的模型生成新的图像了。

    五、总结

    今天,我们一起探讨了如何使用DDPO通过TRL微调稳定扩散模型。在这个过程中,我们深入了解了DDPO的优势和工作原理,以及如何将其与RLHF结合起来,以便更好地使模型的输出符合人类的审美。我们还详细介绍了使用DDPO训练稳定扩散模型的具体步骤。

  • 让人工智能向无穷无尽的流畅表达迈进 — 探索“注意力吸收器”

    在我们日常的对话中,有没有想过让人工智能(AI)也能如人类一样自由流畅地进行长时间的交流?今天,我们将一同探索一种新的技术——“注意力吸收器”,它可能会引领我们走向这个目标。

    为何我们需要“注意力吸收器”?

    大规模语言模型(LLMs)近年来引领了聊天机器人和虚拟助手的技术进步,但是,它们也存在一些限制。这些限制主要体现在两个方面:视频随机存取内存(VRAM)的使用和流畅度的丧失。

    当我们使用LLMs进行长时间的对话时,模型的VRAM使用会呈线性增长,这可能会导致设备的内存限制。另一方面,当输入的内容过长,模型的表达流畅度会明显下降,表现为生成无意义的字符,或者重复的词汇。为了解决这些问题,我们研究了一种名为“注意力吸收器”的方法。

    窗口注意力:一种尝试解决方法

    为了解决VRAM使用问题,我们可以尝试限制输入到LLM的令牌数量,这种方法被称为窗口注意力。

    在实验中,我们将窗口大小设置为1024个令牌。结果显示,虽然这种方法可以保持内存的稳定使用,但是一旦超过窗口大小,模型的表达能力就会显著下降。

    注意力吸收器:新的解决思路

    2023年,Xiao等人发现,当应用窗口注意力时,模型在窗口中的第一个令牌被移除后,模型的流畅度立即下降。他们注意到,即使是语义上不重要的令牌,也会占据大量的注意力分数。他们将这些令牌称为“注意力吸收器”。

    基于这个发现,他们提出了一种改进的窗口注意力方法,即在窗口中始终保留初始的四个令牌,也就是“注意力吸收器”。这种方法有效地解决了窗口注意力中的一个关键问题:当第一个令牌从窗口中移除时,模型无法将注意力分数转移到该令牌上,从而导致模型失去流畅度。

    结论:注意力吸收器的威力

    我们使用注意力吸收器进行了实验,结果显示,使用注意力吸收器的LLMs同时具备了稳定的空间复杂度和流畅的表达能力。这表明,使用注意力吸收器,我们的模型可以保持流畅的表达,直到我们的数据耗尽。

    注意力吸收器让我们的AI更接近无穷无尽的流畅表达。尽管这仍然是一个新的领域,但我们希望这种方法能够推动AI技术的前进,为我们的日常生活带来更多的便利。

    在未来,我们期待看到更多的研究者和开发者参与到这个领域中来,共同推动AI技术的发展,让我们的AI可以更好地理解我们,更好地服务我们。

  • 解密大型语言模型的无尽流畅性:探索”注意力汇聚”现象

    欢迎来到这个探索大型语言模型(LLMs)无尽流畅性的神奇旅程。在这篇文章中,我们将研究一种新的技术策略,即”注意力汇聚”,它在Hugging Face的博客中被详细介绍。这种策略对于改进LLMs,如所有Llama、Mistral、MPT、Falcon和GPT-NeoX(Pythia)模型的性能有着重要的影响。现在,让我们一起揭开这个神秘现象的面纱!

    LLMs的局限性:VRAM和流畅性问题

    首先,我们需要理解LLMs在现实应用中面临的挑战。其中,最重要的两个问题是VRAM使用和流畅性的丧失。在聊天助手场景中,这意味着设备的VRAM限制将限制用户连续提问的能力。同时,所有至今为止训练过的LLMs在输入过长时都会遇到流畅性的丧失问题,这会导致模型生成的语言失去连贯性。

    窗口注意力:一种尝试解决VRAM问题的方法

    为了解决VRAM使用问题,我们可以尝试限制输入给LLMs的令牌数量,这就是”窗口注意力”的概念。然而,实验结果显示,这种方法并不能有效地解决问题。一旦生成的令牌数超过窗口大小,模型的复杂度会立即上升。

    注意力汇聚:解决流畅性问题的新策略

    好在,我们发现了一个新的解决策略:注意力汇聚。研究人员发现,在应用窗口注意力的过程中,LLMs为生成下一个令牌分配了大量的注意力分数给前几个令牌,即便这些令牌在语义上并不重要。因此,当第一个令牌从窗口中移除时,模型无法将注意力分数装载到该令牌上,导致模型“崩溃”并丧失流畅性。

    为了解决这个问题,研究人员提出了一种改良的窗口注意力方法,它始终保留序列中的初始4个令牌,即注意力汇聚令牌。

    注意力汇聚的实践效果

    实验数据显示,使用注意力汇聚的LLMs在空间复杂性和困惑度上都表现出了稳定性。此外,按照这种方式,可以无限生成文本而不会出现模型流畅性的丧失。

    结论

    总的来说,注意力汇聚为我们提供了一种新的解决LLMs问题的方法:通过保留注意力汇聚令牌,我们可以避免模型在生成过程中失去流畅性,并保持恒定的VRAM使用。这种方法对于改进聊天助手、虚拟助手等基于LLMs的应用具有重要的实践价值。

  • 【深度揭秘】StreamingLLM:大型语言模型的“无限长”生成能力

    在今天的科技热点之旅中,我们要探讨的是一个源自语言模型领域的新词:StreamingLLM。这个强大的技术,旨在打破大型语言模型(LLM)在推理时只能记住有限上下文的限制。音乐会有无尽的旋律,那么,人工智能的语言模型是否也能拥有无尽的生成能力呢?让我们一起揭秘这个问题的答案。

    1. LLM的限制:有限的上下文记忆

    先让我们理解一下问题的背景。在现行的语言模型,如LLama2中,模型只能处理4K长度的上下文。这个限制导致了两个问题:一是模型无法记住超过最近4K上文的内容,二是当生成文本达到4K时,模型会自动停止。这在某种程度上限制了我们对AI对话助手的期望,我们希望它能不受输出长度的限制,并记住历史的对话。

    2. StreamingLLM的提出:无限序列长度的输入和输出

    然后,MIT,Meta AI,CMU的研究团队提出了一个全新的解决方案:StreamingLLM。他们声称,这种方法可以使得大型语言模型在无需任何微调的情况下,推广到无限序列长度的输入和输出。请注意,这个方法并没有增加LLM的对上文的记忆,只是让它输入输出无限长。这样的好处显而易见,例如,当你需要对话机器人生成一个很长的回答时,你不再需要输入“继续”。

    3. StreamingLLM的核心技术:Attention Sink

    那么,StreamingLLM是如何实现这个目标的呢?关键在于MIT韩松老师实验室的主要作者Guangxuan Xiao提出的一个名叫“Attention Sink”的技术。这个技术在处理Transformer推理时,解决了一些非常有趣的问题。他们的研究成果在学界得到了广泛的关注,并已经在github上开源。

    4. StreamingLLM的解决挑战:处理无限输入的LLM

    StreamingLLM的目标是在不牺牲效率和性能的情况下,部署一个能处理无限输入的LLM。这样的模型可以不受长度限制不停地输出,具体效果可以参考他们的主页视频。然而,这并非易事,面临着诸多挑战。

    一个挑战是在解码阶段,由于KV Cache的存在,会导致内存使用或延迟增加,而内存上线和推理服务SLA的存在,又使得KV Cache不能无限大,这构成了性能瓶颈。另一个挑战是现有模型的外推能力有限,当序列长度超过预训练时设定的注意力窗口大小时,它们的表现会下降,这是模型能力的瓶颈。

    在面对这些挑战时,StreamingLLM通过使用近似注意力的方法,放松了对全部输入记忆的限制,仍然只记住最近的上下文,但实现了处理无限输入并获得无限输出的效果。

    5. StreamingLLM的突破:Attention Sink

    StreamingLLM的另一项重大突破是他们提出了“attention sink”概念,这被认为是解决以上挑战的关键。简单来说,”attention sink”是一个技术,它将注意力集中在最近的上下文中,而非全部的上下文。这种方法大大节省了内存和计算资源,克服了KV Cache的限制,而且它使得模型可以处理无限长度的输入输出,这无疑是对现有模型的重大突破。

    6. StreamingLLM的实践应用

    StreamingLLM的实际应用非常广泛。比如在AI对话助手中,它可以生成无限长的对话,而且还能记住历史的对话。这对于长对话、长篇文章的生成,无疑提供了更好的用户体验。此外,StreamingLLM还可以应用于其他领域,比如在线翻译、自动问答、编程助手等等,无所不能。

    7. StreamingLLM的未来

    StreamingLLM的未来充满了可能。就像我们在音乐中能创作出无尽的旋律一样,StreamingLLM为我们的语言模型赋予了无尽的生成能力。我们期待,随着技术的进步,我们能解决更多的挑战,进一步提升模型的性能,让AI更好地服务于人类。

    结语:

    StreamingLLM技术让我们看到了大型语言模型的无限可能。它打破了有限上下文的限制,开创了无限长的生成能力。这无疑为AI领域带来了新的机遇,也带来了新的挑战。我们期待更多的研究者和开发者加入到这个领域中来,共同推动人工智能的进步。

    感谢您的阅读,希望我们的探讨对您有所帮助。在下一次的科技热点之旅中,我们会带来更多有趣的话题。再见!

  • ChatDev:改变编程的虚拟软件公司

    作为程序员,您是否曾幻想整个软件开发过程能够自动完成,不再需要手动编码、测试、排错?现在,有一个开源项目正在实现这一梦想,那就是ChatDev。

    ChatDev是一个虚拟的软件公司,由不同角色的智能语言模型组成,包括CEO、产品经理、技术总监、程序员、测试员等。这些智能角色形成一个多角色组织结构,共同推动软件项目的执行。他们可以通过文字交流来协作设计、编写、测试软件。

    这样的设置使ChatDev具有以下优势:

    1、操作简单,用户只需文字描述想要开发的软件即可,无需了解编程;

    2、高度可自定义,可以自定义公司内部流程、角色等;

    3、可扩展性强,可以轻松扩展新的角色和功能;

    4、安全性高,基于Docker可以安全运行;

    5、支持多种系统,包括Linux、MacOS、Windows。

    使用ChatDev非常简单。先配置好OpenAI的API密钥,然后通过简单的命令就可以启动一个软件项目开发。在交互过程中,ChatDev会在后台自动编写代码、进行测试、生成文档等,最终交付一个可直接运行的软件包。

    ChatDev还在不断完善中,已支持代码版本控制、人机交互等功能。用户甚至可以加入到这个虚拟团队中,与ChatDev的智能角色互动、提出建议。

    ChatDev是一个开源项目,欢迎共建。如果您对自动编程、人工智能应用等感兴趣,欢迎加入ChatDev团队!通过自定义ChatDev,我们可以探索人工智能在软件工程等场景的应用潜力,共同开创编程方式的新未来。

    项目地址:https://github.com/OpenBMB/ChatDev

  • XAgent:一个开源的自主智能体,自动解决你的各种问题

    作为AI爱好者,您是否也曾幻想拥有一个像“贾维”那样的AI助手,能自动完成各种日常任务和解决问题?现在,这个梦想即将成为现实!

    XAgent正是这样一个开源的自主智能体,它可以根据指令自动解决各种任务,无需人类参与其中。只需简单的文字描述,它就能够理解需求,制定计划,使用工具自主完成任务。无论是写报告、分析数据,还是帮助编程,它都能胜任。

    与此同时,XAgent具备其他AI助手所不具备的独特优势:

    1. 它是自主的,不需要人类监督就能自主地完成任务;
    2. 它运行在安全的Docker容器中,不会影响到您的主机环境;
    3. 它的能力可以轻松扩展,可以添加各种新工具来增强它的能力;
    4. 它拥有友好的图形界面,使用简单方便;
    5. 最重要的是,它可以与人类紧密配合,在遇到困难时主动请求帮助。

    XAgent由调度器、规划器和行动者3个部分组成。调度器负责任务分配,规划器负责生成计划,行动者则利用各种工具来完成任务。它内置了文件编辑器、Python笔记本、网页浏览器等多种功能,还可以轻松接入各种API,获取更强大的能力。

    想让XAgent帮你自动完成任务?首先需要通过Docker安装并启动它的工具服务器。这可以为XAgent提供一个安全的运行环境。然后配置XAgent的key等参数,就可以开始使用它了。无论是通过命令行还是可视化界面,都可以轻松与XAgent交互。

    XAgent当前还处于早期阶段,各种能力有待进一步提升。但作为一个开源项目,它的潜力无限。如果您对前沿AI技术充满兴趣、渴望参与构建人工智能的未来,欢迎加入XAgent的开发团队,我们一起创造真正的自主AI!

    XAgent GitHub:https://github.com/OpenBMB/XAgent

  • AI代理:探索新领域的火花

    亲爱的读者,欢迎来到这个探索人工智能 (AI) 的奇妙世界!今天,我们将一起揭开AI代理(AI Agent)这个热门话题的神秘面纱。你可能在想,为什么AI代理如此火爆?让我们一同探索吧。

    首先,我们来看看OpenAI联合创始人Andrej Karpathy的观点。他在一次开发者活动上分享了自己对AI代理的看法。他认为,现在正是回归神经科学,从中寻求灵感的时刻,就像在深度学习早期发生的那样。他还提到,普通人、创业者和极客在构建AI代理方面可能比OpenAI这样的大公司更有优势。

    什么是AI代理?

    在我们深入了解AI代理的火爆原因之前,让我们先理解一下AI代理到底是什么。AI代理是一个自主的实体,它可以使用AI技术来完成各种任务。在过去的几年里,神经网络和深度学习的发展使得AI代理的行为变得越来越像人类。

    AI代理的优势

    那么,为什么AI代理如此受欢迎?这主要归功于它们的自主性、安全性和可扩展性。AI代理可以独立完成各种任务,而不需要人类的干预。此外,它们的行为都被限制在一个安全的环境中,这样可以保护主机环境免受影响。而且,你可以轻松地向AI代理添加新的功能,以增强它们的能力。

    AI代理的示例

    现在,让我们来看看一些AI代理的实例。首先是Microsoft推出的AutoGen。AutoGen是一个框架,它支持使用多个代理开发大型语言模型(LLM)应用程序。这些代理可以相互交谈以解决任务。AutoGen代理是可定制的、可交谈的,并且无缝地允许人工参与。

    另一个例子是XAgent。XAgent是一个开源的基于大型语言模型的自主智能体,可以自动解决各种任务。它被设计为一个通用的智能体,可以应用于各种任务。

    AI代理的未来

    随着技术的发展,AI代理的能力和应用场景将会进一步扩大。与此同时,我们也需要意识到,虽然AI代理带来了许多便利,但也有可能带来一些挑战,比如隐私问题、道德问题等。因此,我们在享受AI代理带来的便利的同时,也要时刻关注这些可能的问题。

    总的来说,AI代理正在引领一场新的技术革命。无论你是一个科技爱好者,还是一个寻求创新的创业者,或者是一个对AI有深入研究的专家,AI代理都将给你带来无尽的可能和机会。让我们一起期待AI代理的未来吧!

    那就是今天的分享,希望你从中获得了一些有价值的信息。如果你对AI代理感兴趣,欢迎继续关注我们的文章。我们将会分享更多有关AI代理的最新信息和深入分析。

  • The Alignment Handbook:让语言模型与人类和AI偏好保持一致的强大技巧

    随着ChatGPT和Llama系列语言模型的发布,人们对于使用强化学习和人类反馈对语言模型进行训练以满足人类偏好的技术有了更深入的了解。然而,在训练语言模型以符合一组偏好时,如何训练模型、收集数据和衡量性能等方面的资源和指导相对较少。本文将介绍The Alignment Handbook,它提供了一系列强大的训练技巧,涵盖了整个训练过程,让您能够更好地训练语言模型以满足人类和AI的偏好。


    The Alignment Handbook简介
    The Alignment Handbook是一个旨在帮助开发人员训练语言模型以符合人类和AI偏好的指南。过去的一年中,ChatGPT和Llama等语言模型的发布引起了轰动,使得训练强大的对话模型变得更加容易。这也带来了大量的数据集和模型,主要集中在通过监督微调来教导语言模型遵循指令。然而,通过InstructGPT和Llama2的研究,我们知道通过加入人类(或AI)的偏好,可以显著提高模型的有用性和安全性。然而,在训练过程中,如何训练这些模型、收集数据和衡量性能等方面,目前公开的资源比较有限。The Alignment Handbook的目标是填补这一空白,为社区提供一系列强大的训练技巧,覆盖整个训练流程。

    初版的The Alignment Handbook将重点介绍以下技术:

    • 监督微调:教导语言模型遵循指令,并提供如何收集和整理自己的训练数据集的提示。
    • 奖励建模:教导语言模型根据人类或AI的偏好区分模型回复。
    • 拒绝抽样:一种简单但强大的技术,用于提升监督微调模型的性能。
    • 直接偏好优化(DPO):一种强大且有前途的替代方法。

    快速入门
    要运行本项目中的代码,请首先使用Conda创建一个Python虚拟环境:
    conda create -n handbook python=3.10 && conda activate handbook
    接下来,安装PyTorch v2.1.0,请参考PyTorch安装页面进行安装。
    一旦安装了PyTorch,您可以安装剩余的依赖包:
    pip install .
    然后,通过以下方式登录您的Hugging Face账户:
    huggingface-cli login
    最后,安装Git LFS,以便您可以将模型推送到Hugging Face Hub:
    sudo apt-get install git-lfs

    引用
    如果您发现本项目的内容对您的工作有帮助,请按照以下方式进行引用:
    @misc{alignment_handbook2023,
    author = {Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Alexander M. Rush and Thomas Wolf},
    title = {The Alignment Handbook},
    year = {2023},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\url{https://github.com/huggingface/alignment-handbook}}
    }

    结语
    The Alignment Handbook旨在帮助社区更好地训练语言模型以符合人类和AI的偏好。通过提供强大的训练技巧,本指南将带领开发人员深入了解如何调整语言模型以满足人类和AI的偏好。本文介绍了The Alignment Handbook的背景和目标,以及其中涵盖的技术和资源。通过这些内容,我们希望能够帮助开发人员更好地训练语言模型,以满足用户的需求和偏好。无论您是初学者还是有经验的专业人士,The Alignment Handbook都将为您提供有价值的指导和实用的技巧,让您能够更好地应用语言模型于实际应用中。期待与您一起探索The Alignment Handbook带来的训练技巧和实践经验!

  • Prodia Labs:让AI集成变得轻松

    Prodia Labs正在重新定义AI在各种软件应用中的集成方式。我们的使命是使AI普惠于所有人。为此,我们打造了一款快速且用户友好的API,专注于图像生成。无论您是开发人员还是研究者,Prodia Labs都可以为您提供所需的AI集成解决方案。在本文中,我们将介绍Prodia Labs的使命、提供的API功能和联系方式,让您深入了解我们的技术和服务。


    Prodia Labs简介
    Prodia Labs正在重新定义AI在各种软件应用中的集成方式。我们的使命是使AI普惠于所有人。为了实现这一目标,我们开发了一款快速且易于使用的API,专注于图像生成。通过我们的API,开发人员可以轻松将AI模型集成到自己的应用中,无需担心GPU基础设施的管理问题。

    Prodia Labs提供的API
    Prodia Labs提供了简单高效的API,让开发人员能够轻松将自己的AI模型与Prodia Labs的技术相结合,实现各种应用场景的图像生成。无论您是想让机器生成图像,还是通过图像实现其他功能,Prodia Labs的API都能满足您的需求。我们的API旨在让开发人员能够专注于应用的业务逻辑,而无需担心管理GPU基础设施的复杂性。

    Prodia Labs的使命
    Prodia Labs的使命是使AI集成变得轻松。我们希望通过提供高效且易于使用的API,帮助开发人员将他们的AI模型应用到现实世界的各种应用中。我们相信,通过我们的技术和服务,AI将能够更广泛地服务于人类的生活和工作,为各行各业带来更多创新和便利。

    联系Prodia Labs
    如果您对Prodia Labs的API有任何疑问或需要帮助,请不要犹豫:

    查阅我们的API文档,了解更多细节;
    通过我们的网站prodia.com与我们联系;
    加入我们的Discord社区,与其他开发者和研究者交流。
    无论您是初学者还是经验丰富的专业人士,Prodia Labs都愿意与您一起探索AI集成的世界,为您的项目和应用提供支持和帮助。

    结语:
    Prodia Labs正在通过提供高效且易于使用的API,重新定义AI在各种软件应用中的集成方式。我们的目标是使AI普惠于所有人。通过本文的介绍,您可以了解到Prodia Labs的使命、提供的API功能以及如何联系我们。无论您是开发人员还是研究者,Prodia Labs都可以为您提供所需的AI集成解决方案。期待与您一起构建创新和便利的AI应用!

  • 快速入门指南:使用timm进行模型训练的开端

    标题:快速入门指南:使用timm进行模型训练的开端

    导读:
    本文旨在帮助开发人员快速了解如何将timm集成到模型训练流程中。首先,您需要安装timm。接下来,我们将通过示例代码演示如何加载预训练模型、列出具有预训练权重的模型、微调预训练模型、以及如何使用预训练模型进行特征提取、图像增强和推理。让我们一起开始这个令人兴奋的旅程吧!

    正文:
    快速入门
    本快速入门指南旨在帮助开发人员快速了解如何将timm集成到他们的模型训练流程中。在开始之前,您需要先安装timm。有关安装的详细信息,请参阅安装指南。

    加载预训练模型
    通过create_model()函数可以加载预训练模型。下面的示例展示了如何加载预训练的mobilenetv3_large_100模型。

    import timm
    
    model = timm.create_model('mobilenetv3_large_100', pretrained=True)
    model.eval()

    需要注意的是,默认情况下返回的PyTorch模型处于训练模式,如果要进行推理,需要调用.eval()方法将其设置为评估模式。

    列出具有预训练权重的模型
    要列出timm中打包的具有预训练权重的模型,可以使用list_models()函数。如果指定pretrained=True,该函数将只返回具有预训练权重的模型名称。

    import timm
    from pprint import pprint
    
    model_names = timm.list_models(pretrained=True)
    pprint(model_names)

    您还可以使用特定模式来列出名称中包含特定字符串的模型。

    微调预训练模型
    要微调任何预训练模型,只需更改分类器(即最后一层)即可。

    model = timm.create_model('mobilenetv3_large_100', pretrained=True, num_classes=num_finetune_classes)

    如果要在自己的数据集上进行微调,请编写一个PyTorch训练循环或调整timm的训练脚本以使用自己的数据集。

    使用预训练模型进行特征提取
    在不修改网络结构的情况下,可以使用model.forward_features(input)来替代通常的model(input)方法,对任何模型进行特征提取。这将跳过头部分类器和全局池化操作。有关更详细的使用timm进行特征提取的指南,请参阅特征提取部分。

    图像增强
    为了将图像转换为模型接受的有效输入,可以使用timm.data.create_transform()函数,并提供模型期望的输入尺寸。这将返回一个通用的变换对象,其中包含了一些合理的默认设置。

    timm.data.create_transform((3, 224, 224))

    预训练模型在训练时应用了特定的数据转换。如果您在图像上使用错误的转换,模型将无法理解所见的图像!要了解给定预训练模型使用了哪些转换,可以查看其预训练配置。

    model.pretrained_cfg

    您可以使用timm.data.resolve_data_config()函数来解析与数据相关的配置。

    data_cfg = timm.data.resolve_data_config(model.pretrained_cfg)
    transform = timm.data.create_transform(**data_cfg)

    使用预训练模型进行推理
    下面,我们将结合前面的内容,使用预训练模型进行推理。首先,我们需要一张图片作为输入。我们从网络上加载一张叶子标题:快速入门指南:timm模型训练的开端

    导读:
    本文将带您快速了解如何将timm集成到模型训练流程中。从安装timm开始,到加载预训练模型、列出可用的预训练模型、微调模型、使用模型进行特征提取、图像增强和推理等,我们将逐步介绍这些内容。让我们开始这个令人兴奋的旅程吧!

    正文:
    快速入门
    本快速入门指南旨在帮助开发人员快速了解如何将timm集成到模型训练流程中。在开始之前,您需要先安装timm,具体安装方法请参考官方的安装指南。

    加载预训练模型
    要加载预训练模型,可以使用create_model()函数。以下示例展示了如何加载预训练的mobilenetv3_large_100模型。

    import timm
    
    model = timm.create_model('mobilenetv3_large_100', pretrained=True)
    model.eval()

    需要注意的是,默认情况下返回的PyTorch模型处于训练模式,如果要进行推理,需要调用.eval()方法将其设置为评估模式。

    列出具有预训练权重的模型
    要列出timm中已打包的具有预训练权重的模型,可以使用list_models()函数。如果指定pretrained=True,该函数将只返回具有预训练权重的模型名称。

    import timm
    from pprint import pprint
    
    model_names = timm.list_models(pretrained=True)
    pprint(model_names)

    您还可以使用特定模式来列出名称中包含特定字符串的模型。

    微调预训练模型
    要微调任何预训练模型,只需更改分类器(即最后一层)即可。

    model = timm.create_model('mobilenetv3_large_100', pretrained=True, num_classes=num_finetune_classes)

    如果要在自己的数据集上进行微调,请编写一个PyTorch训练循环或调整timm的训练脚本以使用自己的数据集。

    使用预训练模型进行特征提取
    在不修改网络结构的情况下,可以使用model.forward_features(input)来替代通常的model(input)方法,对任何模型进行特征提取。这将跳过头部分类器和全局池化操作。有关更详细的使用timm进行特征提取的指南,请参考官方文档中的特征提取部分。

    图像增强
    要将图像转换为模型可接受的有效输入,可以使用timm.data.create_transform()函数,并提供模型所期望的输入尺寸。这将返回一个通用的转换对象,其中包含了一些合理的默认设置。

    timm.data.create_transform((3, 224, 224))

    需要注意的是,预训练模型在训练时应用了特定的数据转换。如果您在图像上使用错误的转换,模型将无法理解所见的图像!要了解给定预训练模型使用了哪些转换,可以查看其预训练配置。

    model.pretrained_cfg

    您可以使用timm.data.resolve_data_config()函数来解析与数据相关的配置。

    data_cfg = timm.data.resolve_data_config(model.pretrained_cfg)
    transform = timm.data.create_transform(**data_cfg)

    使用预训练模型进行推理
    下面,我们将结合前面的内容,使用预训练模型进行推理。首先,我们需要准备一张图片作为输入。我们从网络上加载了一张叶子的图片。


    import requests
    from PIL import Image
    from io import BytesIO
    
    url = 'https://datasets-server.huggingface.co/assets/imagenet-1k/--/default/test/12/image/image.jpg'
    image = Image.open(requests.get(url, stream=True).raw)
    image

    接下来,我们再次创建模型和转换。这次,我们确保将模型设置为评估模式。

    model = timm.create_model('mobilenetv3_large_100', pretrained=True).eval()
    transform = timm.data.create_transform(
        **timm.data.resolve_data_config(model.pretrained_cfg)
    )

    我们可以将图片通过转换函数进行处理,以便与模型进行推理。

    image_tensor = transform(image)
    image_tensor.shape

    现在,我们可以将处理后的图片传递给模型进行预测。这里我们使用unsqueeze(0)将其添加一个批次维度,因为模型需要一个批次的输入。

    output = model(image_tensor.unsqueeze(0))
    output.shape

    为了得到预测的概率,我们对输出应用softmax函数。这会得到一个形状为(num_classes,)的张量。

    probabilities = torch.nn.functional.softmax(output[0], dim=0)
    probabilities.shape

    接下来,我们使用torch.topk找到前5个预测类别的索引和概率值。

    values, indices = torch.topk(probabilities, 5)
    indices

    通过检查对应于最高概率的索引值,我们可以查看模型的预测结果。

    IMAGENET_1k_URL = 'https://storage.googleapis.com/bit_models/ilsvrc2012_wordnet_lemmas.txt'
    IMAGENET_1k_LABELS = requests.get(IMAGENET_1k_URL).text.strip().split('\n')
    [{'label': IMAGENET_1k_LABELS[idx], 'value': val.item()} for val, idx in zip(values, indices)]

    至此,我们完成了使用预训练模型进行推理的过程。我们加载了一张图片,将其通过转换函数处理后输入模型,并得到了模型的预测结果。通过这个示例,我们展示了如何使用timm进行快速入门。

    结语:
    本文通过一个快速入门的示例,介绍了如何使用timm进行模型训练。我们展示了加载预训练模型、列出具有预训练权重的模型、微调预训练模型、使用预训练模型进行特征提取、图像增强和推理的方法。希望本文对您了解和使用timm有所帮助,让您能够更轻松地进行模型训练和推理!

  • ChatGLM3:大模型工具调用实现原理揭秘

    ChatGLM3终于迎来了与ChatGPT相似的工具调用能力。通过研究其源码和样本数据,我们可以了解到让大型语言模型学会使用工具的方法原理。本文将深入探讨ChatGLM3的工具调用实现原理,带您揭开这个令人兴奋的功能背后的奥秘。


    ChatGLM3是一种大型语言模型,具备了与ChatGPT相似的工具调用功能。通过这一功能,模型可以调用特定的工具来执行特定的任务。在本文中,我们将深入研究ChatGLM3的工具调用实现原理,揭示其背后的工作原理。

    首先,让我们来看一个官方例子,以帮助我们理解工具调用的过程。在这个例子中,我们准备了两个工具调用的描述信息:追踪指定股票的实时价格和将文本转换为语音。这些工具都具有特定的参数要求,比如需要提供股票代码或要转换的文本等。

    在进行工具调用之前,我们需要构建一个系统提示(System Prompt),告诉模型我们可以使用哪些工具。然后,我们将用户的查询传递给模型,模型将根据上下文和系统提示中提供的工具信息,确定需要调用的工具和相应的参数。模型的输出将告诉我们应该使用哪个工具以及传递给工具的参数。

    在实际的工具调用中,我们需要实现调用工具的逻辑。例如,在追踪股票价格的例子中,我们可以定义一个名为”track”的工具,并提供股票代码作为参数。模型将根据返回的结果生成回复。对于复杂的问题,模型可能需要进行多次工具调用。

    在ChatGLM3中,工具调用的原理是通过特殊处理模型输出来实现的。输出结果中的字典对象表示模型需要调用特定的工具,并传递相应的参数。这样的结果是由一个特殊的处理过程生成的,确保模型可以理解和使用。

    在工具调用的样本数据中,我们可以看到模型预测的输出中包含了工具调用的相关信息,如函数名称和代码。这些信息被解析和处理,最终生成用于调用工具的参数。这种设计的目的是将模型的预测结果转化为可执行的工具调用。

    在ChatGLM3中,工具调用只支持通过chat方法进行,不支持stream_chat方法。这是因为在stream_chat方法中,无法对模型输出进行相应的处理和转换。

    通过深入研究ChatGLM3的源码和样本数据,我们揭示了其工具调用的实现原理。我们了解到,工具调用是通过特殊处理模型输出和相关信息来实现的。这种功能为模型的应用提供了更大的灵活性和扩展性,使模型可以执行更多的任务。


    ChatGLM3的工具调用功能为大型语言模型带来了更多的实用性和功能扩展性。通过深入了解其实现原理,我们更好地理解了模型如何使用工具,并可以在实践中灵活应用。期待着ChatGLM3在未来的发展中带来更多令人惊喜的功能和应用!


  • MMDeploy:让模型部署更加轻松的一站式解决方案

    在深度学习领域,模型的部署一直是一个具有挑战性的任务。为了解决这个问题,OpenMMLab推出了MMDeploy,一个强大而灵活的工具,帮助用户轻松地将他们的模型部署到不同的平台和推理引擎上。本文将带您深入了解MMDeploy的功能和最新进展,让您在模型部署的道路上游刃有余!
    时间如白驹过隙,转眼间MMDeploy已经陪伴大家走过一个季度了。在过去的几个月里,MMDeploy不仅积极进行了功能扩展,还提供了详细的模型部署教程。让我们来看看最新的进展吧!

    1. 设备支持:MMDeploy现在集成了NVIDIA Jetson系列,为用户提供了更多的选择。如果您对此感兴趣,可以查看安装说明手册。
    2. 平台支持:MMDeploy现在也支持Windows平台。这项工作的完成超出了预期,经历了各种挑战和困难。在此,我们要特别感谢社区同学对文档的审阅工作。另外,MMDeploy还支持了Android平台,并开发了相应的演示Demo。您可以通过链接观看这个Demo的视频。
    3. FFI封装:MMDeploy现在提供了Python接口,让Python爱好者能够轻松地进行模型推理。只需几行代码,即可完成模型的推理过程。在下面的章节中,我们将提供具体的例子供您参考。目前,MMPose和MMDetection3D也得到了算法库的支持,用户可以体验相关功能。
    4. 新的IR支持:MMDeploy现在支持TorchScript,这是PyTorch的一种中间表示格式。如果您对TorchScript还不太了解,可以通过链接了解更多信息。关于如何使用TorchScript和ONNX,我们将在后续的教程中进行介绍。教程和技术文档的更新将在我们的微信公众号和知乎账号上发布,欢迎大家关注。

    使用MMDeploy的方法非常灵活。您可以将其作为一个整体来完成端到端的模型部署,也可以只使用其中的部分功能模块,根据自己的项目需求灵活选择。例如:

    • 使用Model Converter进行模型转换和推理。这适用于快速搭建模型部署的演示和验证工作。只需提供相应的配置、算法和模型文件,通过一条命令将PyTorch模型转换为所需的推理引擎格式。目前,MMDeploy支持6种推理引擎:TensorRT、ONNXRuntime、PPL.NN、ncnn、OpenVINO和libtorch。
    • 将MMDeploy算子库集成到自己的项目中。如果您已经集成了TensorRT推理引擎,只需加载MMDeploy算子库,即可无缝读取MMDeploy转换的TensorRT模型。同样,这种方式也适用于ONNXRuntime推理引擎。
    • 导出SDK Model,将MMDeploy集成到自己的项目中。这适用于对延迟或吞吐量要求较高的场景。以检测任务为例,您可以选择集成C/C++接口或Python接口。其他任务,如分类、分割、文字检测等,也可以采用相似的方式集成。具体的集成方法和代码示例可以参考本文后续部分。

    除了上述典型的应用场景,您还可以基于MMDeploy开发新的模块或组件。比如,您可以开发新的模型导出方法、推理引擎组件、算法的后处理模块,或者支持其他文件格式的读取模块等。通过付诸行动,您可以开源自己的项目,展示自己的才华和创造力。

    未来规划方面,MMDeploy团队计划在第二季度继续推出新的功能和更新。具体的计划可以参考下图。最后,我们诚挚地邀请大家多多关注MMDeploy,并加入我们的社群,一起享受愉快的学习和探索过程。我们期待您的关注、点赞和参与!

    结语:
    MMDeploy是一个强大而灵活的工具,旨在简化深度学习模型的部署过程。通过MMDeploy,您可以选择最适合自己项目需求的部署方式,并轻松地将模型部署到各种平台和推理引擎上。无论您是初学者还是经验丰富的研究者,MMDeploy都能为您带来便利和效率。让我们一起探索MMDeploy的世界,让深度学习变得更简单!