博客

  • Ghost in the Minecraft:突破莫拉维克悖论,通用人工智能取得重要突破!

    近期,来自商汤、清华大学、上海人工智能实验室等机构的研究人员提出了一种全新的框架——Ghost in the Minecraft(GITM)。GITM可以将大语言模型与基于文本的知识和记忆整合在一起,在经典游戏《我的世界》中打造出通才AI智能体。这一研究为通用人工智能(AGI)的发展迈出了重要一步。

    GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率,成功解锁了完整的科技树的262个物品。同时,GITM在最受关注的「获取钻石」任务上取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。GITM的训练效率也达到新高度,环境交互步数只需已有方法的万分之一,单一CPU节点训练2天即可完成。

    GITM的成功突破有助于推动通用人工智能(AGI)的研究目标加速实现,发展出能够在开放世界环境中像人一样进行感知、理解和交互的智能体。这将为机器人和自动驾驶等产业带来巨大突破和进步,有效解决现实世界中复杂环境和各类长尾问题,推动AI技术更大规模的产业落地。

    项目主页: https://github.com/OpenGVLab/GITM

    GITM能力和应用展望

    GITM能够在《我的世界》中面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对。GITM还可以进一步应用在《我的世界》更加复杂的任务中,如建造避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。

    这些任务展示了GITM强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。

    商汤科技推进通用人工智能发展

    作为全球人工智能领域的领军企业,商汤科技以「大模型+大算力」推进AGI(通用人工智能)发展的战略布局。商汤科技在多模态、多任务通用大模型领域快速发展,以「日日新SenseNova」大模型体系为核心,不断助力创新技术在智能汽车、智慧生活、智慧商业和智慧城市等领域的快速应用。

    此外,商汤基于OpenDILab决策AI平台开发的AI模型DI-star在《星际争霸》中战胜了曾经的大中华区冠军,展示出强大的决策AI能力。GITM的成功将推动自动驾驶等应用处理复杂任务的能力更上一层楼,打破更高的技术天花板。

  • GPT的运用和训练

    对GPT的运用和训练,这里给出以下几点总结:

    1. GPT的训练流程大致可以分为四个阶段:预训练、监督式微调、奖励建模、强化学习。其中预训练是最耗时耗力的,需要大量数据和算力。
    2. 预训练是让模型学习通用的语言表示,然后通过微调来应用于特定任务。微调所需的数据会少很多。
    3. 相较于监督式微调,使用强化学习人类反馈的方式(RLHF)可以让模型在某些任务上表现更好。但成本也更高。
    4. 使用GPT时,可以通过精心设计prompt来引导模型输出满意的结果。也可以通过工具和插件,或微调模型来进一步提高性能。
    5. GPT更像是在模仿,而非真正理解。因此需要在prompt中更明确地指示模型输出正确结果。
    6. 在使用GPT时要小心注意偏见、错误信息等问题。最好结合人工监督来使用。
    7. GPT有很多有趣的功能和限制,如模拟思维过程、使用脑錯等。但仍需要进一步研究才能更好地使用。

    GPT已经非常强大了,但仍存在诸多局限。合理使用与人工相结合是目前应用的一个方向。提高模型本身和与模型交互的方式仍有很多可以改进的地方。

    OpenAI联合创始人亲自上场科普GPT,让技术小白也能理解最强AI – 知乎 (zhihu.com)

  • 斯坦福最新Sophia优化器比Adam快2倍

    斯坦福大学最近发布了一篇研究论文,提出了一种名为Sophia的新型优化器,用于提高大型语言模型(LLM)的预训练效率。与目前广泛使用的Adam优化器相比,Sophia优化器在预训练GPT-2等模型时可以将训练时间减少约50%。这意味着在相同的预算下,Sophia优化器可以实现更好的预训练损失。该优化器利用轻量级二阶方法,通过对Hessian矩阵对角线的廉价随机估计来作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。

    关键概念

    • Sophia优化器是一种新型优化器,用于提高大型语言模型的预训练效率。与Adam优化器相比,Sophia可以在相同的预训练损失下将训练时间减少约50%。
    • Sophia是一种轻量级二阶优化器,利用Hessian矩阵对角线的廉价随机估计作为预调节器,并通过限幅机制来控制最坏情况下的更新大小。
    • 随着模型尺寸的增加,Sophia相对于Adam的优势变得越来越明显。在相同步数下,Sophia的验证损失优于Adam和Lion。
    • Sophia优化器可以无缝集成到现有的训练流程中,无需对模型架构或计算基础设施进行特殊修改。

    实验结果

    实验结果表明,Sophia优化器在预训练大型语言模型时表现优于Adam和Lion优化器。在相同的步数下,使用Sophia预训练的模型在多数任务上优于使用Adam和Lion预训练的模型。此外,使用Sophia预训练100K步的模型与使用Adam预训练200K步的模型具有相当的性能。这意味着Sophia优化器可以在更短的时间内实现相同或更好的预训练损失。

  • QLoRA: 高效Finetuning 量化 LLMs

    Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调65B参数模型的程度。

    QLoRA通过在低秩适配器(LoRA)中将梯度反向传播到一个冻结的、4位量化的预训练语言模型。我们最优秀的模型家族,我们将其命名为Guanaco,在Vicuna基准测试中胜过之前所有公开发布的模型,达到了ChatGPT性能水平的99.3%,而仅需要在单个GPU上进行24小时的微调。QLoRA在不牺牲性能的前提下采用了许多创新技术来节省内存:

    (a)4位NormalFloat(NF4),一种对于正态分布权重来说,从信息理论角度具有最优性的新数据类型;

    (b)双重量化,通过量化量化常数来减少平均内存占用;

    (c)分页优化器,以管理内存峰值。我们使用QLoRA对超过1000个模型进行微调,在8个指令数据集中,对多种模型类型(LLaMA,T5)以及在常规微调中难以运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟随和聊天机器人性能分析。

    结果表明,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用比之前SoTA更小的模型。我们根据人类评估和GPT-4评估结果,对聊天机器人性能进行了详细分析,结果表明GPT-4评估是一种廉价且合理的人类评估替代方案。此外,当前的聊天机器人基准测试并不可靠,无法准确评估聊天机器人的性能水平。已发布了所有模型和代码,包括用于4位训练的CUDA内核。


    artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)

  • VanillaNet: 极简主义的力量

    最近,一篇名为《VanillaNet: the Power of Minimalism in Deep Learning》的论文引起了广泛关注。该论文提出了一种名为VanillaNet的极简神经网络模型,该模型以其简单的结构和高性能表现出色。VanillaNet使用类似于LeNet和AlexNet的结构来达到或超越现有的视觉骨干网络。

    VanillaNet的核心工作是如何在没有复杂链接和注意力机制的情况下,让一个浅层网络尽可能地提升精度。为了实现这一目标,VanillaNet采用了两个优化策略:深度训练(Deep training)策略和基于级数启发的激活函数。

    在ImageNet上的实验结果显示,6层的VanillaNet可以超过ResNet-34,而13层的VanillaNet在ImageNet上达到了83%的top1精度,超过了几百层网络的性能,同时展示了出色的硬件效率优势。在相同精度时,VanillaNet的速度比Swin-S快了1倍以上。

    该论文的研究成果为浅层神经网络的发展打开了新的大门,让我们重新思考深度神经网络性能提升的关键因素:深度、感受野、注意力机制还是参数量?尽管VanillaNet已在实际业务中得到应用,但它仍有很多提升空间,如预训练、蒸馏、结构优化等。这一成果为未来新架构和新应用带来了无限可能。

  • 知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型

    2023年5月27日,知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术官李大海宣布,知乎和面壁智能共同研发的中文基座大模型CPM-Bee10b全面开源,并发布了智能大模型产品“露卡”和知乎大模型应用功能“搜索聚合卡”。李大海表示,知乎将携手面壁智能,让中国用户在大模型时代享受到最优质的服务。

    知乎与面壁智能首度合作,推出开源大模型CPM-Bee10b

    在“2023知乎发现大会”上,知乎发布了大语言模型“知海图AI”并内测首个站内大模型应用功能“热榜摘要”。此举令知乎成为国内首批具备大语言模型能力的公司,并且让更多人开始关注知乎的技术发展。时隔一个月之后,知乎在2023数博会上再度带来惊喜。

    知乎联合面壁智能发布了首个开源中英文基座大模型CPM-Bee 10b。李大海介绍,该模型从零开始自主训练,基于Transformer架构,中英双语表现优秀,拥有百亿量级参数、超过3万亿高质量语料。经过ZeroCLUE的评测,CPM-Bee10b 以平均 79.8 分登顶中文基座模型,并且英文基座模型得到了68的平均分。“CPM-Bee10b 将全面开源,并允许商用。”李大海称,面壁智能一直坚持开源路线,未来也会持续拥抱开源,促进大模型领域技术和生态的繁荣。

    智能大模型产品“露卡”亮相,展现全面性能

    发布会上,知乎还带了最新的智能大模型产品“露卡”(Luca)。该产品在开源基础模型上又有进一步性能提升,可以进行智能交互并支持多轮对话。从评测结果来看,有65%的结果性能等于或优于ChatGPT。在发布会现场演示中,“露卡”既展示了写文案、藏头诗、解数学题等“全科”能力,也能完成例如“如何制作毛血旺”等回答。令人惊喜的是,“露卡”还拥有图片理解能力,甚至可以查找论文并生成摘要,这表明“露卡”拥有非常优秀的多模态理解能力。

    知乎推出大模型应用功能“搜索聚合卡”,助力用户高效获取信息

    除了基础能力,知乎也是国内率先在应用层面探索大模型产品的公司。继“热榜摘要”之后,知乎带来了又一款站内的大模型应用功能“搜索聚合”。该产品将大模型能力应用到了知乎搜索上,每当用户触发搜索时,系统就会从大量提问和回答中聚合观点,提高用户获取信息、形成决策的效率。发布会当天,“露卡”和“搜索聚合”都开启了正式内测。李大海表示,知乎将继续夯实大模型基础能力,迭代应用产品,为让中国用户享受到一流的大模型服务而努力奋斗。

    未来展望:知乎致力于为用户提供一流的大模型服务

    本次发布会标志着知乎在大模型领域的技术实力再次得到了充分展示,同时也展现出知乎在人工智能领域的技术积累和创新能力。在与面壁智能的合作中,双方共同推进了大模型的研发,为中国用户带来了更多优质的服务。

    未来,知乎将继续加强与各方的合作,进一步拓展大模型在实际应用中的价值。通过不断优化和升级大模型技术,以及与实际场景相结合的应用产品,知乎将努力成为大模型领域的引领者,让更多用户在大模型时代享受到一流的服务。

  • ConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNets

    由于改进的架构和更好的表示学习框架的推动,视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如,现代卷积神经网络(ConvNets),以 ConvNeXt 为代表,在各种场景中表现出强大的性能。尽管这些模型最初是为具有 ImageNet 标签的监督学习设计的,但它们也可能从自监督学习技术(如遮蔽自动编码器(MAE))中受益。然而,我们发现简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积遮蔽自动编码器框架和一个新的全局响应归一化(GRN)层,这个层可以添加到 ConvNeXt 架构中以增强通道间特征竞争。这种自监督学习技术和架构改进的共同设计产生了一个名为 ConvNeXt V2 的新模型族,它显著提高了纯粹的 ConvNets 在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割。我们还提供了各种尺寸的预训练 ConvNeXt V2 模型,从参数数量为 370 万的高效 Atto 模型(在 ImageNet 上的 top-1 准确率为 76.7%),到使用公共训练数据达到最先进的 88.9% 准确率的 6.5 亿参数的 Huge 模型。

    [2301.00808] ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (arxiv.org)

  • 大模型能力的“涌现”机制被谷歌发现

    大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研究来更好地理解这些现象。

    谷歌的这篇论文提供了有关语言模型的ICL行为如何随着模型参数而改变的重要见解,以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明,不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是,大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务,而小型模型则更依赖于先验知识。

    此外,研究者还发现,指令调优加强了语义先验知识的使用,而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为,同时也为未来的研究提供了方向,包括为什么这些现象会与模型参数规模相关等问题。


    未来的研究可以探索不同类型的语言模型之间的差异,以及它们的涌现能力如何随着训练数据集的规模变化而改变。

    此外,可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略,以提高语言模型的性能。

    最终,我们希望通过深入研究语言模型的涌现能力,能够更好地理解它们如何执行复杂的自然语言处理任务,并为未来的人工智能发展提供更好的基础。

    论文地址:https://arxiv.org/pdf/2303.03846.pdf

  • InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

    InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现,实现了SOTA,有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。

    1. GPT-4尚未上线,但已被InstructBLIP超越,尤其在图像理解、推理和描述上表现更强。
    2. InstructBLIP基于BLIP-2进行微调得到,能进行多轮视觉对话,有更强的泛化能力。
    3. InstructBLIP通过收集11个任务类别下28个数据集,生成10-15个指令模板,得到更丰富的指令微调数据。
    4. InstructBLIP利用BLIP-2中的Q-Former,实现了指令感知的视觉特征提取方法。指令不仅输入到LLM,也输入到Q-Former,这有助提高模型从不同指令中学习的能力。
    5. 考虑数据集数量和大小差异,InstructBLIP使用加权采样和平滑方法进行训练。为某些数据集手动调整权重,提高其收敛性。
    6. InstructBLIP在13个数据集上取得SOTA,超过BLIP-2和Flamingo。在视频QA上未见过的数据集上,InstructBLIP超过SOTA47.1%。
    7. 消融研究显示,指令感知视觉特征提取和数据集平衡策略对性能有明显提升。特别是在需空间/时间视觉推理的任务上,指令输入Q-Former更为关键。
    8. 定性研究显示,InstructBLIP比GPT-4、LLaVA和MiniGPT-4有更全面、视觉化和逻辑的表现。InstructBLIP可以自适应生成不同长度的响应,解决用户意图。
    9. InstructBLIP通过指令微调和多任务训练,在特定数据集上有更好表现。与Flamingo和BLIP-2相比,InstructBLIP在微调时图像分辨率和视觉编码器保持不变,降低了训练参数,提高了效率。

    gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com)

    [2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (arxiv.org)

  • BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

    背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。

    • BLOOMChat: BLOOMChat是在SambaNova的AI计算平台上训练的,目的是打造一个开源的、支持多语言、可商用的聊天LLM。实验表明BLOOMChat对多语言的支持明显优于其它开源模型。
    • 数据和方法: BLOOMChat使用OpenChatKit、Dolly 2.0和OASST1等英语数据集进行BLOOM(176B)模型的微调。尽管只用英语数据微调,但BLOOMChat在其他语言的对话质量也得到明显提高。
    • 实验效果: 让不同语言的native speaker评价BLOOMChat在其语言下的回答质量,BLOOMChat明显优于其他开源模型,但略逊于GPT-4。对BLOOMChat的回答进行评分,70%以上得到正确或可接受的评价。在WMT翻译任务上,BLOOMChat优于其他开源模型,但弱于GPT-4。
    • BLOOMChat的局限性: 可能生成错误或无关信息,切换语言,重复内容,对代码或数学问题生成效果一般,可能产生不适当内容等。

    BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。

    sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

  • RMT 突破LLM百万Tokens上下文长度

    Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。

    2304.11062.pdf (arxiv.org)

  • AGI将复活互联网精神

    移动互联网的App时代,导致了信息的孤岛化。一个个超级App,想将自己打造成综合体,用户无论需要什么,都可以不用离开App。

    App们通过阻止搜索引擎的爬虫进入自己的“花园”,将用户圈定在自己的领地,从根本上破坏了互联网的开放共享的精神。

    不过,随着AGI时代的到来,用户和应用的交互方式发生了根本性的变革。应用对用户的意图的理解能力获得了突飞猛进的增强。这使得GUI交互不在重要,文本和语言交互即将重新成为主流。

    虽然GUI重新被LUI(语言UI)替代,App的优势不再存在。更进一步的是HTML5的不断成熟,性能和交互能力方面App的优势也被削弱。而随着AGI和搜索的结合,新一代搜索(new Bing)将重新把用户的注意力拉回搜索引擎。App们辛苦建立的花园围墙即将倒塌。

    自媒体行业将迎来一次巨大的变革,海量的新创作者将进入淘金,而其中的大部分人什么也赚不到。虽然是这样,但是却事实上丰富了内容的生产。可惜的是其中大部分都是无脑的洗稿。

    免费用户将被抛弃。以前,免费用户的价值,除了带来广告主以外,还有一个就是支持App内的用户互动生态。但是随着AGI的普及,大部分用户可能更愿意和AGI交流,而不是和普通人类。免费用户的互动价值降低,会导致很多App去社区化,进而影响流量的广告价值。最终,很多App不得不选择将大量的免费用户驱赶到会员等付费用户池,或者直接关闭对免费用户的使用权。正如很多网站不登录就不能使用一样。


    这一切也预示着互联网精神的复兴。在AGI的帮助下,搜索引擎将再次成为信息的核心入口,打破各种信息孤岛,让用户更便捷地获取所需信息。同时,AGI技术可以帮助用户筛选出高质量的原创内容。洗稿使得人类创作者生存困难,免费内容质量劣化,进入迫使用户购买付费的专业内容。这都将使互联网回归其开放、共享的初衷,促进知识的传播与创新。

  • RWKV模型

    RWKV-LM 是一个开源的LLM,作者是PENG Bo

    论文:RWKV: Reinventing RNNs for the Transformer Era

    chatRWKV 用RWKV做后端的类chatGPT项目。

    RWKV cuda 支持AMD和CUDA平台的量化RWKV推理项目,无pytorch依赖。

    rwkv.cpp 纯CPU部署RWKV高速量化推理。

    RWKV Notebooks 一些相关的Jupyter Notebooks。

  • 思维链 — 展现解题过程的重要性

    最近的大模型训练进展表明,正如人们学习数学的时候,解题思路很重要一样,大模型也可以通过生成解体思路来教会小模型很多。

    思维链(CoT)训练大幅提升模型性能 (jieyibu.net)

  • AIGC导致内容生产大爆发的后果

    AIGC降低了内容生产的难度,很多人利用AIGC可以做到以前做不到的事情,例如一个不会画画的人,可以快速画出精美的照片级别的美图。

    而对于国内的自媒体来说,洗稿变得特别容易。

    AIGC的快速普及,将导致内容的生产者出现劣币驱逐良币的过程。

    由于洗澡容易而图片又很难卖钱,大量的自媒体更加肆无忌惮的抄袭原创作者。结果就是谁写原创内容,谁就吃亏。

    那么长此以往,除了少数纯非盈利的且不在乎被洗稿抄袭的作者以外,大部分都不再会认真创作有价值的内容。

    从而完成AIGC驱动下的内容创作者的劣币驱逐良币。

    由于内容质量的快速降低,且垃圾内容越来越多,最终传导到用户侧的结果就是,人们逐渐减少对垃圾内容的消费。

    最终就是自媒体大批量的死亡。

    在这个过程中,一批卖自媒体创作工具服务的可以赚到钱,广告平台可以赚到钱。但是以为有了AIGC加持,就可以赚到大钱的自媒体们,恐怕要失望了。


    问题的本质是,自媒体的第一性原理是信息中介。而中介的作用在于把信息转化成受众容易理解和接受的模态,从而促进信息的传播。

    但是AI的核心作用其实是促进信息的直达。

    人人都可以有一个AI助手在身旁的时代,谁会漫无目的的看自媒体的二手三手四手的洗稿文呢?

  • chatGPT对软件技术栈的冲击将逐渐显现

    软件研发的技术栈是逐步迭代形成的,其第一性原理是:通过技术栈对系统的复杂性就行分层控制。

    由此可知,如果系统复杂性由于chatGPT类AI的介入,导致原来控制不了的,现在非常好控制的话,那么一些原来看起来简单的技术栈又会复兴。

    以网站前端研发为例子,从最早的纯HTML到jQuery在到react/vuejs等,逐步复杂,其学习成本和难度也逐渐增加,但是对于越来越复杂的网站来说这是必要的。因为重写一个页面的成本太高了。

    以网站后端研发为例子,从最早的perl到PHP再到Java微服务,无不是为了控制复杂的逻辑,将复杂度逐层逐块分解,放在不同的系统里控制起来,以便促进系统的平稳演化。

    但是,现在chatGPT来了,如果一个prompt就可以写好一个PHP页面的话,谁还在乎每隔几周让AI重写一遍?


    chatGPT等AI对软件研发的最大冲击根源是,复用的标的物从source code变成了prompt。这是很容易被忽略了,现在说似乎太早,但是,等到GPT-5/6发布的时候,一切就会非常明朗了!

  • Prompt Engineering的现在和未来

    Prompt Engineering是现阶段AGI还不够智能的一个阶段性产物,但是很难判断这个阶段有多长。

    如果在相当长的一段时间内,AGI的上下文能力都在100万Token以内的话,Prompt Engineering将长期存在并非常重要。

    如果AGI的上下文能力达到10亿Token规模(和人类相当)那么就不再需要什么Prompt Engineering,取代Prompt Engineering将是纯粹的自然语言表达。