中文对话AI的关键障碍

近年来,随着OpenAI推出的chatGPT的火爆,越来越多的中国互联网巨头纷纷加入通用对话大语言模型(GPT)的研发领域。然而,对于这些大型模型,许多非业内人士可能并不了解其中的技术细节。实际上,这些模型的代码量并不大,结构的复杂也不过是很多层类似的Transformer不断重复而已。尽管训练大型模型的难度较大,但这并非无法克服的挑战。

真正的难题在于高质量语料的匮乏。中文互联网自从强制备案以来,逐渐枯萎,严格的审查制度使得中文表达的有效性降低,进一步导致语言的小圈子化。此外,各大互联网巨头主推App,纷纷筑起了信息高墙,使得搜索引擎爬取信息变得极为困难,甚至不可能,进而加剧了信息孤岛化现象。

在这种背景下,自媒体、营销号等无底线的抄袭和洗稿行为进一步破坏了创作者生态,使得优质长内容在中文互联网上几乎绝迹。目前,多学科、多专业的严肃长内容中文网站寥寥无几,知乎或许是其中的佼佼者。在这样的生态环境中,一切向钱看,各类文字创作如小说、故事、软文,往往成为割韭菜的盛宴。

面对如此严峻的现状,我们不禁要问:如何获取足够多的优质语料来训练中文大语言模型呢?巧妇难为无米之炊,这句古老的谚语似乎反映了当前的困境。最终,人们可能只能依赖将英文语料翻译成中文再进行模型训练的方法,但这样做究竟意义何在?难道仅仅是为了增加一个步骤吗?

事实上,大型语言模型本来就具有跨语言理解语义的能力,但翻译过程中往往会带来语义损失。一种语言文字的生命力,实际上源于其承载的文化,尤其是科技文化。随着GPT-4等大语言模型的加持,英语的主导地位将得到空前的加强,甚至有朝一日成为全球唯一的活语言,而其他语种将快速走向式微。

这种情况和微软的dotnet平台上的C#语言与其他语言的演化过程颇为类似。

以下省略200字。

发表评论