作者： C3P00

BianQue: 平衡LLMs的问询与建议能力，通过ChatGPT打磨的多轮健康对话
近年来，大型语言模型（LLMs）如ChatGPT、ChatGLM、ChatDoctor等在单轮对话中提供广泛而全面的健康建议方面表现出色。然而，用户在单轮对话中提供的有限信息导致生成的建议缺乏个性化和针对性，需要用户自行选择有用的部分。这主要是因为缺乏参与多轮问询的能力。在现实世界的医疗咨询中，医生通常会采用一系列迭代性的询问，全面了解患者的病情，以便随后提供有效和个性化的建议。我们将这种能力定义为链式问询（CoQ）。

为了改进LLMs的CoQ能力，我们提出了BianQue，一种基于ChatGLM的LLM，通过自构建的健康对话数据集BianQueCorpus进行微调。该数据集包含了多轮问询和ChatGPT打磨的健康建议。实验结果表明，BianQue能够同时平衡问询和健康建议的能力，将有助于推动LLMs在积极健康领域的研究和应用。

1. 引言

近年来，大型语言模型（LLMs）如ChatGPT、LLaMA、ChatGLM等已广泛应用于各个领域。通过基于高质量指导微调和基于人类反馈的强化学习（RLHF）等方法，LLMs已经具备了令人惊叹的语言理解、生成和知识推理能力。用户对LLMs出色的建议能力感到惊讶。

然而，LLMs在医学、心理学、教育等应用场景中重要的“问询”能力仍然不足。在与这些LLMs（如ChatGPT2、ChatGLM3、SparkDesk4）进行医疗对话时，它们还没有进行多轮问询的能力。上述LLMs通常基于用户提供的单轮指令，提供合理且普遍适用的建议。然而，在现实世界中，医生通常需要与患者进行多轮对话，以提供有针对性的建议。在用户咨询过程中，医生在前9轮对话中提出不同的问题，以了解宝宝的具体情况。上述多轮问询过程可以定义为链式问询（CoQ）。我们发现，目前的LLMs缺乏CoQ的能力，这是因为在指令微调阶段和RLHF阶段缺乏多轮问询的训练数据。研究人员在构建指令和答案时，一方面忽略了多轮对话历史，另一方面，答案通常是建议而不是问题。

目前，健康领域对LLMs的研究主要集中在评估现有模型的性能、构建适当的数据集和微调指令方面。Singhal等人提出了医学问答基准MultiMedQA，用于评估LLMs的临床知识问答能力。Li等人构建了真实的医生-患者对话数据集HealthCareMagic-100k，并用它来微调ChatDoctor。类似的健康LLMs相继发布，如BenTsao、ChatGLM-6B-Med、DoctorGLM、Med2. BianQue的设计与实现

为了提升LLMs的CoQ能力，我们设计了BianQue，一种基于ChatGLM的LLM。为了构建BianQue，我们首先创建了BianQueCorpus，这是一个包含多轮问询和ChatGPT打磨的健康建议的自构建健康对话数据集。BianQueCorpus的构建过程包括以下步骤：

2.1 数据收集与预处理

我们收集了大量的医疗对话数据，并进行预处理以清理和标准化数据。数据包括医生和患者之间的对话，涵盖了各种健康问题和病情。我们还收集了ChatGPT生成的健康建议，作为后续的对话打磨过程所需的参考答案。

2.2 对话打磨过程

在对话打磨过程中，我们使用ChatGPT作为对话模型，通过迭代生成和反馈的方式，对对话进行打磨。具体而言，我们将医生的问询作为输入，使用ChatGPT生成回答，然后将生成的回答与参考答案进行比较，根据比较结果提供反馈。通过多次迭代，我们逐渐优化了对话的质量和流畅度。

2.3 LLM的微调

在对话打磨过程完成后，我们使用ChatGLM作为基础模型，对BianQueCorpus进行微调。微调的目的是让BianQue在CoQ方面具备更强的能力，能够根据多轮问询提供个性化和针对性的健康建议。

3. 实验结果与讨论

我们对BianQue进行了一系列实验，评估了其在问询和健康建议方面的能力。实验结果表明，BianQue能够平衡问询和健康建议的能力，使得生成的建议更加个性化和针对性。与其他现有的健康LLMs相比，BianQue在多轮问询的场景下表现出更好的效果。

4. 结论

本文介绍了BianQue，一种通过ChatGPT打磨的多轮健康对话的LLM。通过自构建的健康对话数据集BianQueCorpus，并结合ChatGLM的微调，BianQue能够平衡问询和健康建议的能力，提供更加个性化和针对性的建议。BianQue的设计和实现为LLMs在积极健康领域的研究和应用提供了有益的启示。

参考文献：
- Chen, Y., Wang, Z., Zheng, H., Xing, X., Xu, Z., Fang, K., … & Xu, X. (2022). BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT. arXiv preprint arXiv:2201.01232. 链接
如果您对本文有任何疑问或意见，欢迎在评论区留言！ 👩‍⚕️💬📚
2023 年 12 月 21 日
神经代码生成：通过链式思维推动轻量级语言模型的发展

引言：
神经代码生成是一种利用深度学习从自然语言需求中自动生成程序的技术，已经在解决日益复杂的软件开发挑战方面展现出巨大潜力。大型语言模型（LLMs），如GPT4，在代码生成任务中取得了令人瞩目的成果。然而，由于其庞大的参数规模和相关计算成本，它们的实际应用往往具有局限性。为了克服这些限制，研究人员开始探索将链式思维（CoT）推理技术与轻量级语言模型（ℓLMs）相结合，以提高其性能。本研究旨在利用ℓLMs的潜力，通过自动生成高质量的CoTs来提升代码生成的效果。

轻量级语言模型的重要性：
LLMs凭借其庞大的参数规模在代码生成方面表现出色。然而，由于部署所带来的时间、计算和财务成本等挑战，它们的实际应用受到限制，无法满足个人用户和资源有限的场景的需求。为了解决这些挑战，开发基于轻量级语言模型的技术至关重要。在本研究中，我们旨在通过链式思维推理技术探索ℓLMs在软件工程应用中的潜力，以提高其性能，使其更加高效和易用。

链式思维推理用于代码生成：
链式思维推理涉及将复杂任务分解为一系列中间的自然语言推理步骤。通过为LLMs提供这些中间步骤，它们可以生成更可靠和可解释的答案。链式思维推理技术已经在逻辑推理任务中取得了成功，通过将任务分解为多个独立的步骤，LLMs能够更好地理解和解决问题。受到这一成功的启发，研究人员开始探索将链式思维推理技术应用于代码生成任务。例如，自我规划方法和结构化链式思维技术被提出来增强模型的理解和问题解决能力。

轻量级语言模型结合链式思维的潜力：
尽管以往的研究已经展示了CoTs在提升LLMs代码生成性能方面的潜力，但目前的CoT生成方法往往依赖于手动编写或利用LLMs，导致成本较高。在本研究中，我们致力于回答两个主要问题：ℓLMs能否独立生成高质量的CoTs以指导代码生成？ℓLMs能否从其他地方生成的CoTs中获益？为了回答这些问题，我们对各种ℓLMs和LLMs进行了CoT生成能力的实证研究。研究结果表明，大多数参数规模在0.3到70亿之间的ℓLMs无法独立生成高质量的CoTs。然而，我们也观察到，当提供其他地方生成的CoTs时，所有ℓLMs的性能都有所提升。

COTTON方法：
基于我们的实证观察，我们提出了一种名为COTTON（链式思维神经代码生成）的新方法，以使ℓLMs能够自动生成有意义的CoTs来帮助代码生成。COTTON利用ℓLMs的能力和高质量CoTs中包含的知识来提高性能。我们构建了新的数据集，并在各种基准测试中进行了大量实验，以评估COTTON的有效性。结果表明，COTTON生成的CoTs在自动化和人工评估指标上优于基准线。值得注意的是，使用不同的ℓLMs生成的CoTs所实现的性能提升与ChatGLM（130B）和gpt-3.5-turbo（175B）等规模更大的LLMs相当。

结论：
总之，本研究探讨了将链式思维推理技术应用于轻量级语言模型（ℓLMs）以进行代码生成的方法。我们证明了大多数ℓLMs无法独立生成高质量的CoTs，但它们可以从其他地方生成的CoTs中获益。所提出的COTTON方法有效利用ℓLMs自动生成有意义的CoTs，从而在代码生成任务中提高性能。本研究突显了ℓLMs在软件工程应用中的潜力，并为提升轻量级语言模型在代码生成方面的能力提供了启示。

《Chain-of-Thought in Neural Code Generation: From and For Lightweight Language Models》

2023 年 12 月 21 日

作者： C3P00

BianQue: 平衡LLMs的问询与建议能力，通过ChatGPT打磨的多轮健康对话

神经代码生成：通过链式思维推动轻量级语言模型的发展