作者: C3P00

  • 大模型能力的“涌现”机制被谷歌发现

    大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研究来更好地理解这些现象。

    谷歌的这篇论文提供了有关语言模型的ICL行为如何随着模型参数而改变的重要见解,以及更大的语言模型具有将输入映射到许多类型的标签的涌现能力。这些发现表明,不同规模的语言模型在上下文学习能力方面存在着明显的差异。特别是,大型语言模型可以通过覆盖预先训练的语义知识和学习输入-标签映射来执行任务,而小型模型则更依赖于先验知识。

    此外,研究者还发现,指令调优加强了语义先验知识的使用,而不是增加了学习输入-标签映射的能力。这些发现有助于我们更好地理解语言模型的涌现行为,同时也为未来的研究提供了方向,包括为什么这些现象会与模型参数规模相关等问题。


    未来的研究可以探索不同类型的语言模型之间的差异,以及它们的涌现能力如何随着训练数据集的规模变化而改变。

    此外,可以研究如何利用语义先验知识和输入-标签映射来设计更好的训练策略,以提高语言模型的性能。

    最终,我们希望通过深入研究语言模型的涌现能力,能够更好地理解它们如何执行复杂的自然语言处理任务,并为未来的人工智能发展提供更好的基础。

    论文地址:https://arxiv.org/pdf/2303.03846.pdf

  • InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

    InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现,实现了SOTA,有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。

    1. GPT-4尚未上线,但已被InstructBLIP超越,尤其在图像理解、推理和描述上表现更强。
    2. InstructBLIP基于BLIP-2进行微调得到,能进行多轮视觉对话,有更强的泛化能力。
    3. InstructBLIP通过收集11个任务类别下28个数据集,生成10-15个指令模板,得到更丰富的指令微调数据。
    4. InstructBLIP利用BLIP-2中的Q-Former,实现了指令感知的视觉特征提取方法。指令不仅输入到LLM,也输入到Q-Former,这有助提高模型从不同指令中学习的能力。
    5. 考虑数据集数量和大小差异,InstructBLIP使用加权采样和平滑方法进行训练。为某些数据集手动调整权重,提高其收敛性。
    6. InstructBLIP在13个数据集上取得SOTA,超过BLIP-2和Flamingo。在视频QA上未见过的数据集上,InstructBLIP超过SOTA47.1%。
    7. 消融研究显示,指令感知视觉特征提取和数据集平衡策略对性能有明显提升。特别是在需空间/时间视觉推理的任务上,指令输入Q-Former更为关键。
    8. 定性研究显示,InstructBLIP比GPT-4、LLaVA和MiniGPT-4有更全面、视觉化和逻辑的表现。InstructBLIP可以自适应生成不同长度的响应,解决用户意图。
    9. InstructBLIP通过指令微调和多任务训练,在特定数据集上有更好表现。与Flamingo和BLIP-2相比,InstructBLIP在微调时图像分辨率和视觉编码器保持不变,降低了训练参数,提高了效率。

    gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com)

    [2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (arxiv.org)

  • BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

    背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。

    • BLOOMChat: BLOOMChat是在SambaNova的AI计算平台上训练的,目的是打造一个开源的、支持多语言、可商用的聊天LLM。实验表明BLOOMChat对多语言的支持明显优于其它开源模型。
    • 数据和方法: BLOOMChat使用OpenChatKit、Dolly 2.0和OASST1等英语数据集进行BLOOM(176B)模型的微调。尽管只用英语数据微调,但BLOOMChat在其他语言的对话质量也得到明显提高。
    • 实验效果: 让不同语言的native speaker评价BLOOMChat在其语言下的回答质量,BLOOMChat明显优于其他开源模型,但略逊于GPT-4。对BLOOMChat的回答进行评分,70%以上得到正确或可接受的评价。在WMT翻译任务上,BLOOMChat优于其他开源模型,但弱于GPT-4。
    • BLOOMChat的局限性: 可能生成错误或无关信息,切换语言,重复内容,对代码或数学问题生成效果一般,可能产生不适当内容等。

    BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。

    sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

  • RMT 突破LLM百万Tokens上下文长度

    Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。

    2304.11062.pdf (arxiv.org)

  • AGI将复活互联网精神

    移动互联网的App时代,导致了信息的孤岛化。一个个超级App,想将自己打造成综合体,用户无论需要什么,都可以不用离开App。

    App们通过阻止搜索引擎的爬虫进入自己的“花园”,将用户圈定在自己的领地,从根本上破坏了互联网的开放共享的精神。

    不过,随着AGI时代的到来,用户和应用的交互方式发生了根本性的变革。应用对用户的意图的理解能力获得了突飞猛进的增强。这使得GUI交互不在重要,文本和语言交互即将重新成为主流。

    虽然GUI重新被LUI(语言UI)替代,App的优势不再存在。更进一步的是HTML5的不断成熟,性能和交互能力方面App的优势也被削弱。而随着AGI和搜索的结合,新一代搜索(new Bing)将重新把用户的注意力拉回搜索引擎。App们辛苦建立的花园围墙即将倒塌。

    自媒体行业将迎来一次巨大的变革,海量的新创作者将进入淘金,而其中的大部分人什么也赚不到。虽然是这样,但是却事实上丰富了内容的生产。可惜的是其中大部分都是无脑的洗稿。

    免费用户将被抛弃。以前,免费用户的价值,除了带来广告主以外,还有一个就是支持App内的用户互动生态。但是随着AGI的普及,大部分用户可能更愿意和AGI交流,而不是和普通人类。免费用户的互动价值降低,会导致很多App去社区化,进而影响流量的广告价值。最终,很多App不得不选择将大量的免费用户驱赶到会员等付费用户池,或者直接关闭对免费用户的使用权。正如很多网站不登录就不能使用一样。


    这一切也预示着互联网精神的复兴。在AGI的帮助下,搜索引擎将再次成为信息的核心入口,打破各种信息孤岛,让用户更便捷地获取所需信息。同时,AGI技术可以帮助用户筛选出高质量的原创内容。洗稿使得人类创作者生存困难,免费内容质量劣化,进入迫使用户购买付费的专业内容。这都将使互联网回归其开放、共享的初衷,促进知识的传播与创新。

  • RWKV模型

    RWKV-LM 是一个开源的LLM,作者是PENG Bo

    论文:RWKV: Reinventing RNNs for the Transformer Era

    chatRWKV 用RWKV做后端的类chatGPT项目。

    RWKV cuda 支持AMD和CUDA平台的量化RWKV推理项目,无pytorch依赖。

    rwkv.cpp 纯CPU部署RWKV高速量化推理。

    RWKV Notebooks 一些相关的Jupyter Notebooks。

  • AIGC导致内容生产大爆发的后果

    AIGC降低了内容生产的难度,很多人利用AIGC可以做到以前做不到的事情,例如一个不会画画的人,可以快速画出精美的照片级别的美图。

    而对于国内的自媒体来说,洗稿变得特别容易。

    AIGC的快速普及,将导致内容的生产者出现劣币驱逐良币的过程。

    由于洗澡容易而图片又很难卖钱,大量的自媒体更加肆无忌惮的抄袭原创作者。结果就是谁写原创内容,谁就吃亏。

    那么长此以往,除了少数纯非盈利的且不在乎被洗稿抄袭的作者以外,大部分都不再会认真创作有价值的内容。

    从而完成AIGC驱动下的内容创作者的劣币驱逐良币。

    由于内容质量的快速降低,且垃圾内容越来越多,最终传导到用户侧的结果就是,人们逐渐减少对垃圾内容的消费。

    最终就是自媒体大批量的死亡。

    在这个过程中,一批卖自媒体创作工具服务的可以赚到钱,广告平台可以赚到钱。但是以为有了AIGC加持,就可以赚到大钱的自媒体们,恐怕要失望了。


    问题的本质是,自媒体的第一性原理是信息中介。而中介的作用在于把信息转化成受众容易理解和接受的模态,从而促进信息的传播。

    但是AI的核心作用其实是促进信息的直达。

    人人都可以有一个AI助手在身旁的时代,谁会漫无目的的看自媒体的二手三手四手的洗稿文呢?

  • chatGPT对软件技术栈的冲击将逐渐显现

    软件研发的技术栈是逐步迭代形成的,其第一性原理是:通过技术栈对系统的复杂性就行分层控制。

    由此可知,如果系统复杂性由于chatGPT类AI的介入,导致原来控制不了的,现在非常好控制的话,那么一些原来看起来简单的技术栈又会复兴。

    以网站前端研发为例子,从最早的纯HTML到jQuery在到react/vuejs等,逐步复杂,其学习成本和难度也逐渐增加,但是对于越来越复杂的网站来说这是必要的。因为重写一个页面的成本太高了。

    以网站后端研发为例子,从最早的perl到PHP再到Java微服务,无不是为了控制复杂的逻辑,将复杂度逐层逐块分解,放在不同的系统里控制起来,以便促进系统的平稳演化。

    但是,现在chatGPT来了,如果一个prompt就可以写好一个PHP页面的话,谁还在乎每隔几周让AI重写一遍?


    chatGPT等AI对软件研发的最大冲击根源是,复用的标的物从source code变成了prompt。这是很容易被忽略了,现在说似乎太早,但是,等到GPT-5/6发布的时候,一切就会非常明朗了!

  • Prompt Engineering的现在和未来

    Prompt Engineering是现阶段AGI还不够智能的一个阶段性产物,但是很难判断这个阶段有多长。

    如果在相当长的一段时间内,AGI的上下文能力都在100万Token以内的话,Prompt Engineering将长期存在并非常重要。

    如果AGI的上下文能力达到10亿Token规模(和人类相当)那么就不再需要什么Prompt Engineering,取代Prompt Engineering将是纯粹的自然语言表达。

  • 中文对话AI的关键障碍

    近年来,随着OpenAI推出的chatGPT的火爆,越来越多的中国互联网巨头纷纷加入通用对话大语言模型(GPT)的研发领域。然而,对于这些大型模型,许多非业内人士可能并不了解其中的技术细节。实际上,这些模型的代码量并不大,结构的复杂也不过是很多层类似的Transformer不断重复而已。尽管训练大型模型的难度较大,但这并非无法克服的挑战。

    真正的难题在于高质量语料的匮乏。中文互联网自从强制备案以来,逐渐枯萎,严格的审查制度使得中文表达的有效性降低,进一步导致语言的小圈子化。此外,各大互联网巨头主推App,纷纷筑起了信息高墙,使得搜索引擎爬取信息变得极为困难,甚至不可能,进而加剧了信息孤岛化现象。

    在这种背景下,自媒体、营销号等无底线的抄袭和洗稿行为进一步破坏了创作者生态,使得优质长内容在中文互联网上几乎绝迹。目前,多学科、多专业的严肃长内容中文网站寥寥无几,知乎或许是其中的佼佼者。在这样的生态环境中,一切向钱看,各类文字创作如小说、故事、软文,往往成为割韭菜的盛宴。

    面对如此严峻的现状,我们不禁要问:如何获取足够多的优质语料来训练中文大语言模型呢?巧妇难为无米之炊,这句古老的谚语似乎反映了当前的困境。最终,人们可能只能依赖将英文语料翻译成中文再进行模型训练的方法,但这样做究竟意义何在?难道仅仅是为了增加一个步骤吗?

    事实上,大型语言模型本来就具有跨语言理解语义的能力,但翻译过程中往往会带来语义损失。一种语言文字的生命力,实际上源于其承载的文化,尤其是科技文化。随着GPT-4等大语言模型的加持,英语的主导地位将得到空前的加强,甚至有朝一日成为全球唯一的活语言,而其他语种将快速走向式微。

    这种情况和微软的dotnet平台上的C#语言与其他语言的演化过程颇为类似。

    以下省略200字。

  • 百度文心一言

    目前百度文心一言还没有对公众开放,不过,百姓网有一个 阿旺机器人 已经正式对公众开放,且开始销售会员。一年999元。有点贵。

    期待文心一言的API对公众开放!

  • AGI 通用人工智能

    本站将作为收集整理分享一些关于通用人工智能的信息。