本地部署Llama 3.1大模型

2024-09-26 AIGC 0

Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本，上下文长度扩展至12.8万tokens，并增加了对八种语言的支持。

部署模型需要用到Ollama的一个工具，访问官方网站
https://ollama.com

点击下载，选择下载你对应的操作系统下的工具

运行下载下来的程序OllamaSetup.exe

打开CMD窗口，输入：ollama run llama3.1 开始部署llama3.1，需要4.7G的空间

部署完成

这样就可以在本地使用llama3.1大模型了，可以在CMD里面直接输入问题，测试一下效果：

>>> hello
Hello! It's nice to meet you. Is there something I can help you with or would you like to chat?

>>> 切换成中文对话
好的！我可以切换为中文对话。我们可以从哪里开始聊天呢？

>>> 能给我解释一下万有引力吗？
当然可以！万有引力是牛顿在17世纪提出的一种物理力，它使得任何两个物体之间都有一定程度的吸引力。牛顿第三定律描述了这个
现象：两块物体相互作用时，反作用的力量大小与作用力的大小相同，而且方向相反。

地球和月球之间就有万有引力的作用。在日常生活中，我们也可以感受到万有引力的影响，比如：

* 东西掉在地上的时候，它们会向下拉回去，这是因为地球对它们的吸引力。
* 水流在河道里向下流动，尽管水表面看起来平稳，但实际上是受到了地球的吸引力。
* 人类和其他物体之间也会相互吸引（但是很弱，不足以改变生活），因为我们都受到地球的万有引力。

牛顿的万有引力定律简化为：

F = G /* (m1 /* m2) / r^2

其中：

* F 是两物体之间的吸引力。
* G 是万有引力的常数。
* m1 和 m2 是两块物体的质量。
* r 是它们之间的距离。

这是一个非常重要的理论，它解释了很多自然现象，包括星球、行星和其他天体之间的运动。

效果是不是很不错呢？

对llama3.1进行微调，微调的核心原因是赋予大模型更加定制化的功能。通用大模型虽然强大，但在特定领域可能表现不佳。通过微调，可以使模型更好地适应特定领域的需求和特征。
这里介绍一款微调框架：unsloth

unsloth微调Llama 3, Mistral和Gemma速度快2-5倍，内存减少80% !unsloth是一个开源项目，它可以比HuggingFace快2-5倍地微调Llama 3、Mistral和Gemma语言模型，同时内存消耗减少80%。
github:https://github.com/unslothai/unsloth

参考：
unsloth微调llama3实战全过程 https://www.cnblogs.com/shanren/p/18251730