这是RISC-V跑大模型系列的第二篇文章,主要教大家如何将LLaMA移植到RISC-V环境里。
1. 环境准备
1)最新版Python
2)确保机器有足够的内存加载完整模型(7B模型需要13~15G)
3)下载原版LLaMA模型和扩展了的中文模型
2. 模型下载
从LLaMA原版模型地址上下载下述文件(我们使用的是7B):
最后文件下载完成后的结果如下:
3. 加载并启动
1)这一步需要下载llama.cpp,
python3 convert-pth-to-ggml.py models/7B/ 03)将.pth模型权重转换为ggml的FP32格式,生成文件路径为models/7B/ggml-model-f32.bin。
./main models/7B/ggml-model-f32.bin --color -f prompts/alpaca.txt -ins -c 256 --temp 0.2 -n 128 --repeat_penalty 1.3
-ins | 启动类ChatGPT对话交流的运行模式 |
-f | 指定prompt模板,alpaca模型请加载prompts/alpaca.txt |
-c | 控制上下文的长度,值越大越能参考更长的对话历史(默认:512) |
-n | 控制回复生成的最大长度(默认:128) |
-t | 控制batch size(默认:8),可适当增加 |
--repeat_penalty | 控制线程数量(默认:4),可适当增加 |
--temp | 温度系数,值越低回复的随机性越小,反之越大 |
--top_p, top_k | 控制解码采样的相关参数 |
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !