标签: AGI

  • InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA

    InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现,实现了SOTA,有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。

    1. GPT-4尚未上线,但已被InstructBLIP超越,尤其在图像理解、推理和描述上表现更强。
    2. InstructBLIP基于BLIP-2进行微调得到,能进行多轮视觉对话,有更强的泛化能力。
    3. InstructBLIP通过收集11个任务类别下28个数据集,生成10-15个指令模板,得到更丰富的指令微调数据。
    4. InstructBLIP利用BLIP-2中的Q-Former,实现了指令感知的视觉特征提取方法。指令不仅输入到LLM,也输入到Q-Former,这有助提高模型从不同指令中学习的能力。
    5. 考虑数据集数量和大小差异,InstructBLIP使用加权采样和平滑方法进行训练。为某些数据集手动调整权重,提高其收敛性。
    6. InstructBLIP在13个数据集上取得SOTA,超过BLIP-2和Flamingo。在视频QA上未见过的数据集上,InstructBLIP超过SOTA47.1%。
    7. 消融研究显示,指令感知视觉特征提取和数据集平衡策略对性能有明显提升。特别是在需空间/时间视觉推理的任务上,指令输入Q-Former更为关键。
    8. 定性研究显示,InstructBLIP比GPT-4、LLaVA和MiniGPT-4有更全面、视觉化和逻辑的表现。InstructBLIP可以自适应生成不同长度的响应,解决用户意图。
    9. InstructBLIP通过指令微调和多任务训练,在特定数据集上有更好表现。与Flamingo和BLIP-2相比,InstructBLIP在微调时图像分辨率和视觉编码器保持不变,降低了训练参数,提高了效率。

    gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com)

    [2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (arxiv.org)

  • BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!

    背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和Together联合开源的BLOOMChat是一个支持46种语言、参数达1760亿的开源可商用微调模型。

    • BLOOMChat: BLOOMChat是在SambaNova的AI计算平台上训练的,目的是打造一个开源的、支持多语言、可商用的聊天LLM。实验表明BLOOMChat对多语言的支持明显优于其它开源模型。
    • 数据和方法: BLOOMChat使用OpenChatKit、Dolly 2.0和OASST1等英语数据集进行BLOOM(176B)模型的微调。尽管只用英语数据微调,但BLOOMChat在其他语言的对话质量也得到明显提高。
    • 实验效果: 让不同语言的native speaker评价BLOOMChat在其语言下的回答质量,BLOOMChat明显优于其他开源模型,但略逊于GPT-4。对BLOOMChat的回答进行评分,70%以上得到正确或可接受的评价。在WMT翻译任务上,BLOOMChat优于其他开源模型,但弱于GPT-4。
    • BLOOMChat的局限性: 可能生成错误或无关信息,切换语言,重复内容,对代码或数学问题生成效果一般,可能产生不适当内容等。

    BLOOMChat是一个完全开源、超千亿参数、专门针对多语言的聊天LLM。

    sambanova/bloomchat: This repo contains the data preparation, tokenization, training and inference code for BLOOMChat. BLOOMChat is a 176 billion parameter multilingual chat model based on BLOOM. (github.com)

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网