DeepSeek-V2 是一个强大、经济高效的混合专家语言模型。它具有2360亿个总参数,每个标记激活的参数为210亿。相比于DeepSeek 670亿,DeepSeek-V2 在性能上更强大,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升了5.76倍[1]。
友情链接:ACEJoy
DeepSeek-V2的配置方法如下:
- 下载模型:DeepSeek-V2 可以从 HuggingFace 的官方网站下载[1]。
- 安装依赖:在配置 DeepSeek-V2 之前,确保已经安装了以下依赖项:
- Python 3.6 或更高版本
- PyTorch 1.7.0 或更高版本
- Transformers 4.0.0 或更高版本
- 导入模型:在 Python 代码中导入 DeepSeek-V2 模型,可以使用以下代码:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
model_name = "deepseek-ai/DeepSeek-V2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)
- 使用模型:使用导入的模型进行文本生成或其他自然语言处理任务。以下是一个简单的示例:
input_text = "你好,DeepSeek-V2!"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=50)
generated_text = tokenizer.decode(output, skip_special_tokens=True)
print(generated_text)
这些是配置 DeepSeek-V2 的基本步骤。根据具体的应用场景和需求,你可能需要进一步调整模型的参数和设置。
Learn more:
- GitHub – deepseek-ai/DeepSeek-V2: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- README.md · deepseek-ai/DeepSeek-V2 at main
- DeepSeek-V2/README.md at main · deepseek-ai/DeepSeek-V2 · GitHub
配置和使用 DeepSeek-V2:强大、经济高效的混合专家语言模型
DeepSeek-V2 是一款强大且经济高效的混合专家(Mixture-of-Experts, MoE)语言模型。相比于之前的 DeepSeek 67B,DeepSeek-V2 不仅性能更强,还显著降低了训练成本和资源消耗。本文将介绍如何配置和使用 DeepSeek-V2 模型。
模型简介
DeepSeek-V2 拥有 2360 亿个总参数,其中每个标记激活 210 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 在多个方面表现出色:
- 性能提升:模型性能显著提升。
- 成本节约:节省了 42.5% 的训练成本。
- 资源优化:KV 缓存减少了 93.3%。
- 吞吐量提升:最大生成吞吐量提升了 5.76 倍。
详细信息可以参考 DeepSeek-V2 的 GitHub 页面。
模型下载
DeepSeek-V2 可以从 HuggingFace 的官方网站下载。以下是下载链接:
环境依赖
在配置 DeepSeek-V2 之前,确保你的环境中已经安装了以下依赖项:
- Python 3.6 或更高版本
- PyTorch 1.7.0 或更高版本
- Transformers 4.0.0 或更高版本
导入和使用模型
导入模型
在 Python 代码中导入 DeepSeek-V2 模型,可以使用以下代码:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
model_name = "deepseek-ai/DeepSeek-V2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)
使用模型进行文本生成
使用导入的模型进行文本生成或其他自然语言处理任务。以下是一个简单的示例:
input_text = "你好,DeepSeek-V2!"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=50)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
详细配置和优化
使用 Huggingface 的 Transformers 进行推理
你可以直接使用 Huggingface 的 Transformers 库来进行模型推理。以下是一个示例代码:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/DeepSeek-V2"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
max_memory = {i: "75GB" for i in range(8)}
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
text = "An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
使用 vLLM 进行推理(推荐)
为了更高效地执行模型推理,可以使用 vLLM 解决方案。以下是示例代码:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
max_model_len, tp_size = 8192, 8
model_name = "deepseek-ai/DeepSeek-V2-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, tensor_parallel_size=tp_size, max_model_len=max_model_len, trust_remote_code=True, enforce_eager=True)
sampling_params = SamplingParams(temperature=0.3, max_tokens=256, stop_token_ids=[tokenizer.eos_token_id])
messages_list = [
[{"role": "user", "content": "Who are you?"}],
[{"role": "user", "content": "Translate the following content into Chinese directly: DeepSeek-V2 adopts innovative architectures to guarantee economical training and efficient inference."}],
[{"role": "user", "content": "Write a piece of quicksort code in C++."}],
]
prompt_token_ids = [tokenizer.apply_chat_template(messages, add_generation_prompt=True) for messages in messages_list]
outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)
generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)
许可证和引用
许可证
这个代码库使用 MIT 许可证。DeepSeek-V2 Base/Chat 模型的使用遵循模型许可证。DeepSeek-V2 系列(包括 Base 和 Chat)支持商业用途。
引用
如果你在研究中使用了 DeepSeek-V2,请引用以下文献:
@misc{deepseekv2,
title={DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model},
author={DeepSeek-AI},
year={2024},
eprint={2405.04434},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
联系方式
如果你有任何问题,请在 GitHub 提出 issue 或联系 service@deepseek.com。
更多信息请参考以下链接: