html5 微网站 免费,哪些网站可以做店淘客,服装网站建设的规划,建个网站费用环境基本要求
硬件配置
需要本地跑模型#xff0c;兼顾质量、性能、速度以及满足日常开发需要#xff0c;我们需要准备以下硬件#xff1a;
CPU#xff1a;I9内存#xff1a;128GB硬盘#xff1a;3-4TB 最新SSD#xff0c;C盘确保有400GB#xff0c;其它都可划成D盘…
环境基本要求
硬件配置
需要本地跑模型兼顾质量、性能、速度以及满足日常开发需要我们需要准备以下硬件
CPUI9内存128GB硬盘3-4TB 最新SSDC盘确保有400GB其它都可划成D盘GPU4080S即可有条件的上4090D或者双卡但是4080S已经足足够用了风扇华硕七彩10个 大功能水冷机箱别用什么海景房什么火山岩不实用太小建议直接就是买那种大号的半透明机箱一个就行了又大散热又好什么海景房火山岩都不如搞7彩风扇好看 软件配置
操作系统Win11/Linux CentOS8.2/Ubuntu 24安装nvidia驱动安装nvidia cuda核心安装nvidia cudnnpython 3.10chatbox用于作GUI聊天对话界面用
确保nvidia的驱动在安装后你还必须要有nvidia cuda核心
一般互联网开发人员不知道这是什么我们这样来装它。
先打开你的nvidia驱动装完后右下角的nvidia control panel找到以下这样的一个界面 一般4080s以上都是12.6.65及以上我们记成12.6.0。
于是打开以下网址下载nvidia cuda核心
https://developer.nvidia.com/cuda-12-6-0-download-archive?target_osWindowstarget_archx86_64target_version10target_typeexe_local 在此下载cuda 12.6。
确保nvidia CUDNN被安装
一定要先装完了cuda核心后再要装cudnn。
https://developer.nvidia.com/rdp/cudnn-archive#a-collapse897-120
我们进入nvidia开发者中心里下载它。
cuDNN下载完成后是一个压缩包解压完成后。请严格按照下面步骤去做它解压后包含bin,include,lib三个目录。 把cuda\bin\cudnn64_7.dll复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\bin 目录下. 把\cuda\ include\cudnn.h复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include 目录下. 把\cuda\lib\x64\cudnn.lib复制到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64 目录下.
安装Ollama
接着我们下载Ollamahttps://ollama.com/。
下载完后直接安装它。
安装完后右下角会有这么一个图标。 安装完后即启动了你也可以设置成开机不启动。
配置ollama
我我们使用ollama安装deek seek前一定要先做配置如果不配置它会在安装时把很多模型文件一股脑的装到你的
Windows 目录C:\Users%username%.ollama\modelsMacOS 目录~/.ollama/modelsLinux 目录/usr/share/ollama/.ollama/models
这样的话你的C盘或者是启动盘就吃紧了到时麻烦可就大了。
必配参数与解释
OLLAMA_MODELS
模型文件存放目录默认目录为当前用户目录我们把它指向了D盘的d:\ollama_models。
OLLAMA_HOST
Ollama 服务监听的网络地址默认为127.0.0.1如果允许其他电脑访问 Ollama如局域网中的其他电脑建议设置成0.0.0.0从而允许其他网络访问
OLLAMA_PORT
Ollama 服务监听的默认端口默认为11434如果端口有冲突可以修改设置成其他端口如8080等
OLLAMA_ORIGINS
HTTP 客户端请求来源半角逗号分隔列表若本地使用无严格要求可以设置成星号代表不受限制
OLLAMA_KEEP_ALIVE
大模型加载到内存中后的存活时间默认为5m即 5 分钟如纯数字如 300 代表 300 秒0 代表处理请求响应后立即卸载模型任何负数则表示一直存活我们可设置成24h即模型在内存中保持 24 小时提高访问速度
OLLAMA_NUM_PARALLEL
请求处理并发数量默认为1即单并发串行处理请求可根据实际情况进行调整
OLLAMA_MAX_QUEUE
请求队列长度默认值为512可以根据情况设置超过队列长度请求被抛弃
OLLAMA_DEBUG
输出 Debug 日志标识应用研发阶段可以设置成1即输出详细日志信息便于排查问题
OLLAMA_MAX_LOADED_MODELS
最多同时加载到内存中模型的数量默认为1即只能有 1 个模型在内存中
配置完成后启动一个terminal或者是命令行然后以下几条常用ollama命令供参考
Ollama常用命令
列出当前系统装了哪些模型
ollama list
NAME ID SIZE MODIFIED
gemma2:9b c19987e1e6e2 5.4 GB 7 days ago
qwen2:7b e0d4e1163c58 4.4 GB 10 days ago
安装和运行一个模型
ollama run deepseek-r1:14b
如果这个模型不存在它就会先下载这个模型至ollama_models指向的那个目录并作下载如上条命令就是安装和运行deep seek r1 14b的。
查看己安装的模型
ollama ps
删除一个模型
ollama rm
如
ollama rm gemma2:9b
安装完后Deek Seek使用ChatBox来做验证
下载网址 https://chatboxai.app/zh
建议安装1.9.6版。
配置 我们使用了一个生产的复杂场景3层推理分别试了让GPT3.5 TURBO16K以及GPT4O还有QWEN2 7B以及Deep Seek r1 14b分别作了回答。
无论是从GPU性能开销、回答正确性来看Deep Seek秒杀了Gpt4O不得不说Deep Seek是我们的国产之光。
这下我们实现了AI自由了。
附、其它ollama支持的模型 模型 参数大小使用命令 Llama 3.1 8B 4.7GB ollama run llama3.1 Llama 3.1 70B40GB ollama run llama3.1:70b Llama 3.1 405B231GB ollama run llama3.1:405b Gemma 2 9B 5.5GB ollama run gemma2 Gemma 2 27B16GB ollama run gemma2:27b qwen2 7B4.4GB ollama run qwen2 qwen2 72B41GB ollama run qwen2:72b glm4 9B 5.5GB ollama run glm4