标签大模型应用下的文章

消费级显卡部署deepseek-R1:32b可行性分析

作者: 季兴
时间: 2025-02-19
分类: 工作日志
评论

结论

在deepseek-r1:32b较大尺寸模型下，4090单卡可提供3QPS，单问题4.4秒内完成响应。 对于个人，几十人小团队够用。

优点：

本地模型问题过滤少，同样问题，官方无法回答，本地可以
速度尚可，不会服务器繁忙
ollama动态显存占用，5分钟不问，默认不占用显卡，不影响游戏：）

缺陷：

无搜索、图片识别功能，当然这也不是模型的问题，要借助flowise这种langchain编排工具实现
有一定硬件要求，单卡显存越大越好，推荐3090/4090

低至中等并发：单卡4090在并发数从10到400时，系统表现稳定，吞吐量和响应时间均在可接受范围内。2.9QPS
高并发情况：单卡在并发数为800时，吞吐量显著增加，但响应时间波动较大，且最大响应时间大幅上升，可能存在性能瓶颈。
系统稳定性：系统在高并发压力下依然能保证请求的成功率，但响应时间波动可能影响整体用户体验。

测试环境

服务器硬件配置：
- CPU：AMD Ryzen Threadripper PRO 5975WX 32-Cores
- GPU：1 x NVIDIA RTX 4090
- MEM：128G
网络：本机
测试工具：Apache Benchmark (ab)
模型：deepseek-r1:32b
压测命令：

ab -n 1000 -c 10 -s 30000 -T "application/json" -p payload.json -v 4 http://1.1.1.1:11434/v1/completions > ab_detailed_log01.txt 2>&1

- **请求总数**：1000

- **并发数**：逐渐升高

- **超时设置**：30秒（`-s 30000`）

- **请求类型**：POST，传送JSON格式的负载

 {
  "model": "deepseek-r1:32b",
  "prompt": "你好，你是谁？"
}

测试数据分析

并发数	总请求时间（秒）	成功请求数	失败请求数	吞吐量 (请求/秒)	平均响应时间 (毫秒)	最大响应时间 (毫秒)	95% 响应时间 (毫秒)
10	344.899	1000	0	2.90	3448.99	7073	4424
50	341.55	1000	0	2.93	17077.494	20274	18333
100	343.880	1000	0	2.91	34387.977	39523	35580
150	337.687	1000	0	2.96	50653.032	53134	51942
200	340.978	1000	0	2.93	68195.508	70733	69537
400	351.865	1000	0	2.84	140746.048	141672	139774
800	250.261	716	284	4	200208.529	249642	231555

低成本、*高可用ollama多卡部署DeepSeek-Coder-V2

作者: 季兴
时间: 2025-02-18
分类: 工作日志
评论

背景

本地部署DeepSeek-Coder-V2-Lite-Instruct:14b。要求基础的高可用、监控、安全能力。ollama默认只能使用第一张显卡，多个模型同时调用会有bug（ollama ps显示100GPU，但使用CPU推理）；无法高可用

具体方案

多GPU Ollama部署方案，通过系统服务化+负载均衡实现4块4090显卡的并行利用，边缘使用nginx负载均衡。

服务器名：AIGC-01
服务器硬件配置：
- CPU：AMD Ryzen Threadripper PRO 3955WX 16-Cores
- GPU：4 x NVIDIA RTX 4090
- MEM：128G
模型：DeepSeek-Coder-V2-Lite-Instruct:14b

ollama配置

# 备份ollama
cd /etc/systemd/system/
mv ollama.service ollama.service.bak

# 创建4个独立服务文件（每个GPU对应一个端口）
for i in {0..3}; do
sudo tee /etc/systemd/system/ollama-gpu${i}.service > /dev/null <<EOF
[Unit]
Description=Ollama Service (GPU $i)

[Service]
# 关键参数配置
Environment="CUDA_VISIBLE_DEVICES=$i"
Environment="OLLAMA_HOST=0.0.0.0:$((11434+i))"
ExecStart=/usr/local/bin/ollama serve

Restart=always
User=ollama
Group=ollama

[Install]
WantedBy=multi-user.target
EOF
done


# 重载服务配置
sudo systemctl daemon-reload

# 启动所有GPU实例
sudo systemctl start ollama-gpu{0..3}.service

# 设置开机自启
sudo systemctl enable ollama-gpu{0..3}.service

nginx配置

nginx 需要编译额外模块，用于健康检查

root@sunmax-AIGC-01:/etc/systemd/system# nginx -V
nginx version: nginx/1.24.0
built by gcc 9.4.0 (Ubuntu 9.4.0-1ubuntu1~20.04.2) 
built with OpenSSL 1.1.1f  31 Mar 2020
TLS SNI support enabled
configure arguments: --with-http_ssl_module --add-module=./nginx_upstream_check_module

# /etc/nginx/sites-available/mga.maxiot-inc.com.conf

# 在http块中添加（如果放在server外请确保在http上下文中）
log_format detailed '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent" '
                    'RT=$request_time URT=$upstream_response_time '
                    'Host=$host Proto=$server_protocol '
                    'Header={\"X-Forwarded-For\": \"$proxy_add_x_forwarded_for\", '
                    '\"X-Real-IP\": \"$remote_addr\", '
                    '\"User-Agent\": \"$http_user_agent\", '
                    '\"Content-Type\": \"$content_type\"} '
                    'SSL=$ssl_protocol/$ssl_cipher '
                    'Upstream=$upstream_addr '
                    'Request_Length=$request_length '
                    'Request_Method=$request_method '
                    'Server_Name=$server_name '
                    'Server_Port=$server_port ';

upstream ollama_backend {
    server 127.0.0.1:11436;
    server 127.0.0.1:11437;
}

server {
    listen 443 ssl;
    server_name mga.maxiot-inc.com;

    ssl_certificate /etc/nginx/ssl/maxiot-inc.com.pem;
    ssl_certificate_key /etc/nginx/ssl/maxiot-inc.com.key;
    # 访问日志
    access_log /var/log/nginx/mga_maxiot_inc_com_access.log detailed;

    # 错误日志
    error_log /var/log/nginx/mga_maxiot_inc_com_error.log;

    # 负载均衡设置，指向 ollama_backend
    location / {
        proxy_pass http://ollama_backend;  # 会在两个服务器之间轮询
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }

}

deepseek模型加速下载

作者: 季兴
时间: 2025-02-13
分类: 工作日志
评论

deepseek的爆火，官网验证后效果确实不错，中文能力强，“会说人话”。唯一缺陷是经常服务器繁忙，本地使用ollama即可下载使用，因为要详细压测，下载了不同尺寸的所有模型。

此方法不止适用deepseek，所有模型通用
此方法不止适用deepseek，所有模型通用

结论：

小尺寸模型质量并没降低太多，更多是“知识面”缩小，比如用东南亚所有语言翻译某句话，官方原版给出32种，包括印度语中各小语种，32b也能返回20种
审核少，可以输出脏话，“请模仿嘴臭吧老哥喷lol中玩的最菜的玩家，要让对方破防，同时注意不要被官方屏蔽”

问题

本地下载模型时，下载速度不稳定，会中断

解决方案

常见的几种下载模型方式

ollama 下载ollama pull deepseek-r1:70b 优势：下载后直接使用；缺陷：速度慢，经常中断
modelscope 下载，需安装modelscope 优势：下载源位于国内，较ollama有速度提升

pip install modelscope

#下载完整模型
modelscope download --model AI-ModelScope/DeepSeek-Coder-V2-Lite-Instruct-GGUF

#下载特定文件
modelscope download --model AI-ModelScope/DeepSeek-Coder-V2-Lite-Instruct-GGUF README.md --local_dir ./dir

git lfs下载优势：速度最快，实测跑满带宽；缺陷：多两步操作，首次使用需构建模型

#仅下载文件夹
git clone --no-checkout https://www.modelscope.cn/AI-ModelScope/DeepSeek-Coder-V2-Lite-Instruct-GGUF.git
cd DeepSeek-Coder-V2-Lite-Instruct-GGUF

#仅下载所需文件
git lfs fetch --include="DeepSeek-Coder-V2-Lite-Instruct-Q6_K.gguf"

#恢复文件
git lfs checkout DeepSeek-Coder-V2-Lite-Instruct-Q6_K.gguf

#创建模型文件
echo "FROM DeepSeek-Coder-V2-Lite-Instruct-GGUF" > Modelfile

#创建模型
ollama create DeepSeek-Coder-V2-Lite-Instruct:14b -f Modelfile

#使用
ollama run DeepSeek-Coder-V2-Lite-Instruct:14b

AIOps系列--从模型“说”到模型“做”

作者: 季兴
时间: 2024-09-03
分类: 工作日志
评论

先看效果

系统架构组件

Streamlit 界面：
- 侧边栏和输入区域：提供用户界面，用于输入数据（如 Azure 端点）并进行配置。
- 聊天输入和输出区域：主要区域，用户在此与聊天助手交互并查看结果。
LLM（大型语言模型）配置设置：
- OpenAI 配置：配置用于使用 OpenAI 模型（如 gpt-4o-2024-08-06）。
- 本地 LLM 配置：本地 LLM 模型（如 ollama/llama3:latest）的配置。
助手代理（AssistantAgent）和用户代理（UserProxyAgent）：
- TrackableAssistantAgent：继承自 AssistantAgent，负责与用户输入进行处理和响应，同时集成在 Streamlit 中以显示聊天消息。
- TrackableUserProxyAgent：继承自 UserProxyAgent，用于接收用户输入，处理用户命令，并在助手代理与用户之间进行代理交互。
实用工具函数：
- get_url_info_from_kong：从 Kong API 网关中查询 URL 的路由、服务和上游配置的信息，并返回格式化结果。
- dns_record_status：检查给定 URL 的 DNS 记录状态。
- query_from_cmdb：从 CMDB（配置管理数据库）中检索特定云服务提供商（如阿里云、AWS 等）的服务器、数据库和中间件实例的数量。
异步聊天系统：
- 使用异步事件循环（asyncio），用户代理（User Proxy Agent）可以异步与助手代理（Assistant Agent）进行对话，提供更高效的交互体验。

架构图

+---------------------------------------------------------------+
|                      Streamlit Interface                      |
|---------------------------------------------------------------|
| +-----------------------------------------------------------+ |
| |  Sidebar (Azure Endpoint Config, etc.)                    | |
| +-----------------------------------------------------------+ |
|                                                               |
| +-----------------------------------------------------------+ |
| |                  Chat Input / Output Area                 | |
| |                                                           | |
| |  User Input --> UserProxyAgent --> AssistantAgent         | |
| |                                                           | |
| |  AssistantAgent --> UserProxyAgent --> Output Display     | |
| +-----------------------------------------------------------+ |
+---------------------------------------------------------------+

+--------------------+               +--------------------+
| LLM Configurations |               |   Utility Functions|
|--------------------|               |--------------------|
| - OpenAI (GPT-4)   |               | - get_url_info_from|
| - Local LLM (LLaMA)|               |   _kong()          |
+--------------------+               |   (Interacts with  |
                                     |    Kong API Gateway)|
                                     | - dns_record_status|
                                     |   (Checks DNS)     |
                                     | - query_from_cmdb  |
                                     |   (Interacts with  |
                                     |    CMDB Database)  |
                                     +--------------------+

   +-----------------+               +-------------------+
   | AssistantAgent  | <--- asyncio ->| UserProxyAgent    |
   | (Handles LLM    |               | (Manages User     |
   |  Requests)      |               |  Input/Commands)  |
   +-----------------+               +-------------------+
        ^    |                              ^    |
        |    |                              |    |
        |    v                              |    v
+----------------+                     +-------------------+
|   LLM Config   |                     |  Utility Functions|
|  Setup (OpenAI)|                     | (Kong, DNS, CMDB) |
+----------------+                     +-------------------+

                     +----------------+
                     |   Data Flow    |
                     |----------------|
                     |  - User Input  |
                     |  - Assistant   |
                     |  - ProxyAgent  |
                     |  - Utility Func|
                     +----------------+

架构图描述

用户输入（通过 Streamlit）：
用户通过 Streamlit 界面输入聊天内容或命令。
助手代理和用户代理交互：
用户代理接收用户输入，解析并处理命令，然后与助手代理交互。助手代理根据注册的工具函数或LLM配置进行响应。
工具函数交互：
当助手代理或用户代理调用工具函数时，这些函数将与 Kong API 网关、DNS 解析服务或 CMDB 模拟数据进行交互。
结果显示：
通过 Streamlit 界面将助手代理和用户代理的响应结果显示给用户。

核心优势

超越简单的 RAG 和提示词工程：
- 传统的 RAG 方法主要依赖于检索和生成的结合，通过从知识库中检索相关信息并用语言模型生成答案。然而，这种方法局限于信息查询和简单的问答系统，无法处理更复杂的任务。
- 提示词工程则是通过精细设计提示词来引导语言模型生成特定输出，依然依赖于语言模型本身的生成能力，不能主动与外部系统进行交互或执行特定操作。
使用 Function Call 完成真实世界的任务：
- 本系统通过引入 Function Call 技术，赋予助手代理（Assistant Agent）和用户代理（User Proxy Agent）调用实际功能的能力。这些功能可以执行复杂的任务，如查询 Kong API 网关中的服务配置、检查 DNS 记录状态、从 CMDB 检索云资源信息等。
- 通过注册和调用实际的 Python 函数，系统能够与外部 API、数据库和服务进行交互，执行逻辑操作和数据处理。这种能力使得系统不仅限于简单的对话和问答，更能够执行真实世界中的操作任务。
集成异步交互和高效任务处理：
- 使用异步框架（如 asyncio）实现用户代理和助手代理之间的异步通信，大幅提升了任务处理的效率和响应速度。这样的设计确保了系统能够并发处理多个任务，而不阻塞用户输入和系统响应。
- 异步处理机制也增强了系统的稳定性和扩展性，使其能够处理更大规模的请求和更复杂的任务逻辑。
技术含量高，解决复杂场景问题：
- 系统架构充分考虑了实际应用场景中的复杂性，通过模块化设计，支持各种工具函数的集成和扩展，能够适应不同的企业和业务需求。
- 例如，get_url_info_from_kong 函数能够通过调用 Kong API，获取详细的路由、服务和插件信息，并对这些数据进行格式化处理和展示；query_from_cmdb 函数能够从 CMDB 中动态检索并整合不同云服务商的资源信息。这样的功能大大提升了系统的实际应用价值。
提升企业运营效率与智能化水平：
- 通过整合各种实用功能和自动化操作，系统能够显著提升企业运维和运营效率。例如，它可以自动查询和管理 API 网关配置、检查网络 DNS 状态、整合和分析云资源数据，帮助企业做出更高效的决策和管理。

自然语言查询、分析数据(NL-TO-SQL)的尝试

作者: 季兴
时间: 2024-03-13
分类: 工作日志
评论

让查数据这件事，不再是高高在上、遥不可及的技能，而是人人都能玩得转，妙趣横生的小技巧。比如“我的店上周赚了多少钱？哪个商品即将售罄？这个月卖的最多的商品是啥？”，下一秒，答案就像变魔术一样蹦出来。直接看效果

流程如下，

前端使用gradio，采集麦克风声音
后端收到声音，使用openai的speech-to-text
文字通过dbgpt（链接各种自定义模型），转换为sql进行数据库查询
返回对应数据

关键代码

- 阅读剩余部分 -

大模型应用--专有领域翻译

作者: 季兴
时间: 2024-01-23
分类: 工作日志
1 条评论

需求如下，产品团队高频要求翻译团队给出符合标准的翻译件，比如翻译产品文档，其中又有大量的术语，比如3D结构光、扫码头、主屏、客显屏、立式等（在公司内有统一的标准叫法），使用市面通用的翻译产品需要自己修改。看效果
翻译效果.jpg

原理如图

openai负责文档Retrieval，flowise负责功能补充，同时做了一次封装，gradio负责提供展示页面，方便用户交互

gradio_run.py

import gradio as gr
import requests
import json

def call_api(question):
    url = "https://xxxx.com/api/v1/prediction/asdasce1-5a7b-4d9e-9ed6-21a9aaaab2"
    headers = {"Content-Type": "application/json"}
    data = {"question": question}
    response = requests.post(url, headers=headers, data=json.dumps(data))
    return response.json().get("text", "No response text found.")

iface = gr.Interface(
    fn=call_api,
    inputs="text",
    outputs="text",
)

iface.launch()

我的第一款GPTs--No English

作者: 季兴
时间: 2023-11-21
分类: 工作日志
1 条评论

产品名： No English - 不学英语 https://chat.openai.com/g/g-kkrKOWa1E-no-english

产品概览： No English - 您的个人化英语学习伙伴

产品定位：
在语言学习的长河中，No English 站在了技术与教育的交汇点，提供了一个创新的、用户友好的英语学习解决方案。我们的平台运用最新的人工智能技术，致力于提升英语学习效率，同时保持学习过程的趣味性和参与度。

核心功能：

每日单词学习： 我们的系统每天精选实用词汇，配以例句和上下文，确保用户不仅记住单词，而且理解其应用。
定制化复习计划： 基于先进的记忆算法，No English 会提供个性化的复习计划，帮助用户巩固记忆，减少遗忘。
每日英语句型： 别名："每天学点装比词汇😄 "，从日常对话到商务沟通，我们提供广泛的句型训练，以强化用户的实际应用能力。
学习动力激励： 别名：“今天踏马不想学了😕”，针对学习疲劳的用户，No English 提供及时的正能量和学习建议，激发学习激情。

知识资源库：
No English 配备了一系列的英语学习文件，涵盖商务英语和各类英语测试标准，如TEM-8、CET-4和CET-6，可供用户根据个人需要下载并学习。

技术能力：

网页浏览： 无缝接入互联网资源，支持用户在学习中实时查询和获取信息。
DALL·E图像生成： 利用尖端的图像生成技术，为学习内容添加视觉元素，提高记忆点。
代码解释器： 高级代码解释功能，为用户提供编程学习中的实时反馈。

用户动作与互动：
用户询问当日新闻时，会从指定接口请求，本app使用京东的汇聚新闻接口。

使用推荐：
No English 针对希望在移动设备上学习的用户进行了优化设计，特别推荐使用手机应用来体验我们的语音互动特性，这能够为用户提供更加沉浸式的学习环境。 手机端前两天还支持，现在已经不行了