分类： AGI

BLOOMChat: 开源可商用支持多语言的大语言模型，性能逼近GPT-4！
背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。
- BLOOMChat: BLOOMChat是在SambaNova的AI计算平台上训练的,目的是打造一个开源的、支持多语言、可商用的聊天LLM。实验表明BLOOMChat对多语言的支持明显优于其它开源模型。
- 数据和方法: BLOOMChat使用OpenChatKit、Dolly 2.0和OASST1等英语数据集进行BLOOM(176B)模型的微调。尽管只用英语数据微调,但BLOOMChat在其他语言的对话质量也得到明显提高。
- 实验效果: 让不同语言的native speaker评价BLOOMChat在其语言下的回答质量,BLOOMChat明显优于其他开源模型,但略逊于GPT-4。对BLOOMChat的回答进行评分,70%以上得到正确或可接受的评价。在WMT翻译任务上,BLOOMChat优于其他开源模型,但弱于GPT-4。
- BLOOMChat的局限性: 可能生成错误或无关信息,切换语言,重复内容,对代码或数学问题生成效果一般,可能产生不适当内容等。
BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。

sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)
2023 年 5 月 21 日
RMT 突破LLM百万Tokens上下文长度

Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用，以扩展 BERT 的上下文长度，这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构，我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记，同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息，并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性，这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理，并为记忆密集型应用程序启用大规模上下文处理。

2304.11062.pdf (arxiv.org)

2023 年 5 月 20 日
AGI将复活互联网精神

移动互联网的App时代，导致了信息的孤岛化。一个个超级App，想将自己打造成综合体，用户无论需要什么，都可以不用离开App。

App们通过阻止搜索引擎的爬虫进入自己的“花园”，将用户圈定在自己的领地，从根本上破坏了互联网的开放共享的精神。

不过，随着AGI时代的到来，用户和应用的交互方式发生了根本性的变革。应用对用户的意图的理解能力获得了突飞猛进的增强。这使得GUI交互不在重要，文本和语言交互即将重新成为主流。

虽然GUI重新被LUI（语言UI）替代，App的优势不再存在。更进一步的是HTML5的不断成熟，性能和交互能力方面App的优势也被削弱。而随着AGI和搜索的结合，新一代搜索（new Bing）将重新把用户的注意力拉回搜索引擎。App们辛苦建立的花园围墙即将倒塌。

自媒体行业将迎来一次巨大的变革，海量的新创作者将进入淘金，而其中的大部分人什么也赚不到。虽然是这样，但是却事实上丰富了内容的生产。可惜的是其中大部分都是无脑的洗稿。

免费用户将被抛弃。以前，免费用户的价值，除了带来广告主以外，还有一个就是支持App内的用户互动生态。但是随着AGI的普及，大部分用户可能更愿意和AGI交流，而不是和普通人类。免费用户的互动价值降低，会导致很多App去社区化，进而影响流量的广告价值。最终，很多App不得不选择将大量的免费用户驱赶到会员等付费用户池，或者直接关闭对免费用户的使用权。正如很多网站不登录就不能使用一样。

这一切也预示着互联网精神的复兴。在AGI的帮助下，搜索引擎将再次成为信息的核心入口，打破各种信息孤岛，让用户更便捷地获取所需信息。同时，AGI技术可以帮助用户筛选出高质量的原创内容。洗稿使得人类创作者生存困难，免费内容质量劣化，进入迫使用户购买付费的专业内容。这都将使互联网回归其开放、共享的初衷，促进知识的传播与创新。

2023 年 5 月 19 日
RWKV模型

RWKV-LM 是一个开源的LLM，作者是PENG Bo 。

论文：RWKV: Reinventing RNNs for the Transformer Era

chatRWKV 用RWKV做后端的类chatGPT项目。

RWKV cuda 支持AMD和CUDA平台的量化RWKV推理项目，无pytorch依赖。

rwkv.cpp 纯CPU部署RWKV高速量化推理。

RWKV Notebooks 一些相关的Jupyter Notebooks。

2023 年 5 月 17 日
思维链 — 展现解题过程的重要性

最近的大模型训练进展表明，正如人们学习数学的时候，解题思路很重要一样，大模型也可以通过生成解体思路来教会小模型很多。

思维链（CoT）训练大幅提升模型性能 (jieyibu.net)

2023 年 4 月 18 日
AI聊天机器人

Baize

Baize 7B – a Hugging Face Space by project-baize

2023 年 4 月 16 日
AIGC导致内容生产大爆发的后果

AIGC降低了内容生产的难度，很多人利用AIGC可以做到以前做不到的事情，例如一个不会画画的人，可以快速画出精美的照片级别的美图。

而对于国内的自媒体来说，洗稿变得特别容易。

AIGC的快速普及，将导致内容的生产者出现劣币驱逐良币的过程。

由于洗澡容易而图片又很难卖钱，大量的自媒体更加肆无忌惮的抄袭原创作者。结果就是谁写原创内容，谁就吃亏。

那么长此以往，除了少数纯非盈利的且不在乎被洗稿抄袭的作者以外，大部分都不再会认真创作有价值的内容。

从而完成AIGC驱动下的内容创作者的劣币驱逐良币。

由于内容质量的快速降低，且垃圾内容越来越多，最终传导到用户侧的结果就是，人们逐渐减少对垃圾内容的消费。

最终就是自媒体大批量的死亡。

在这个过程中，一批卖自媒体创作工具服务的可以赚到钱，广告平台可以赚到钱。但是以为有了AIGC加持，就可以赚到大钱的自媒体们，恐怕要失望了。

问题的本质是，自媒体的第一性原理是信息中介。而中介的作用在于把信息转化成受众容易理解和接受的模态，从而促进信息的传播。

但是AI的核心作用其实是促进信息的直达。

人人都可以有一个AI助手在身旁的时代，谁会漫无目的的看自媒体的二手三手四手的洗稿文呢？

2023 年 4 月 7 日
chatGPT对软件技术栈的冲击将逐渐显现

软件研发的技术栈是逐步迭代形成的，其第一性原理是：通过技术栈对系统的复杂性就行分层控制。

由此可知，如果系统复杂性由于chatGPT类AI的介入，导致原来控制不了的，现在非常好控制的话，那么一些原来看起来简单的技术栈又会复兴。

以网站前端研发为例子，从最早的纯HTML到jQuery在到react/vuejs等，逐步复杂，其学习成本和难度也逐渐增加，但是对于越来越复杂的网站来说这是必要的。因为重写一个页面的成本太高了。

以网站后端研发为例子，从最早的perl到PHP再到Java微服务，无不是为了控制复杂的逻辑，将复杂度逐层逐块分解，放在不同的系统里控制起来，以便促进系统的平稳演化。

但是，现在chatGPT来了，如果一个prompt就可以写好一个PHP页面的话，谁还在乎每隔几周让AI重写一遍？

chatGPT等AI对软件研发的最大冲击根源是，复用的标的物从source code变成了prompt。这是很容易被忽略了，现在说似乎太早，但是，等到GPT-5/6发布的时候，一切就会非常明朗了！

2023 年 4 月 2 日
Prompt Engineering的现在和未来

Prompt Engineering是现阶段AGI还不够智能的一个阶段性产物，但是很难判断这个阶段有多长。

如果在相当长的一段时间内，AGI的上下文能力都在100万Token以内的话，Prompt Engineering将长期存在并非常重要。

如果AGI的上下文能力达到10亿Token规模（和人类相当）那么就不再需要什么Prompt Engineering，取代Prompt Engineering将是纯粹的自然语言表达。

2023 年 4 月 1 日
中文对话AI的关键障碍

近年来，随着OpenAI推出的chatGPT的火爆，越来越多的中国互联网巨头纷纷加入通用对话大语言模型（GPT）的研发领域。然而，对于这些大型模型，许多非业内人士可能并不了解其中的技术细节。实际上，这些模型的代码量并不大，结构的复杂也不过是很多层类似的Transformer不断重复而已。尽管训练大型模型的难度较大，但这并非无法克服的挑战。

真正的难题在于高质量语料的匮乏。中文互联网自从强制备案以来，逐渐枯萎，严格的审查制度使得中文表达的有效性降低，进一步导致语言的小圈子化。此外，各大互联网巨头主推App，纷纷筑起了信息高墙，使得搜索引擎爬取信息变得极为困难，甚至不可能，进而加剧了信息孤岛化现象。

在这种背景下，自媒体、营销号等无底线的抄袭和洗稿行为进一步破坏了创作者生态，使得优质长内容在中文互联网上几乎绝迹。目前，多学科、多专业的严肃长内容中文网站寥寥无几，知乎或许是其中的佼佼者。在这样的生态环境中，一切向钱看，各类文字创作如小说、故事、软文，往往成为割韭菜的盛宴。

面对如此严峻的现状，我们不禁要问：如何获取足够多的优质语料来训练中文大语言模型呢？巧妇难为无米之炊，这句古老的谚语似乎反映了当前的困境。最终，人们可能只能依赖将英文语料翻译成中文再进行模型训练的方法，但这样做究竟意义何在？难道仅仅是为了增加一个步骤吗？

事实上，大型语言模型本来就具有跨语言理解语义的能力，但翻译过程中往往会带来语义损失。一种语言文字的生命力，实际上源于其承载的文化，尤其是科技文化。随着GPT-4等大语言模型的加持，英语的主导地位将得到空前的加强，甚至有朝一日成为全球唯一的活语言，而其他语种将快速走向式微。

这种情况和微软的dotnet平台上的C#语言与其他语言的演化过程颇为类似。

以下省略200字。

2023 年 3 月 31 日
百度文心一言

目前百度文心一言还没有对公众开放，不过，百姓网有一个阿旺机器人已经正式对公众开放，且开始销售会员。一年999元。有点贵。

期待文心一言的API对公众开放！

2023 年 3 月 31 日
AGI 通用人工智能

本站将作为收集整理分享一些关于通用人工智能的信息。

2023 年 3 月 31 日