提示词缓存
Prompt Caching(提示词缓存)的主要用于优化大语言模型API,通过缓存重复的提示词前缀来降低延迟和输入token成本。
工作原理
- 缓存命中条件:按前缀哈希路由到特定机器,提供 prompt_cache_key 可优化路由、提升命中率,只有提示词的前缀部分完全匹配时才能命中缓存
- 路由机制:系统根据提示词前缀的哈希值将请求路由到特定服务器
- 缓存查找:匹配成功则使用缓存结果,否则处理完整请求并缓存前缀供后续使用
隐私与计费
- 数据隐私:缓存不跨组织共享,仅限同一组织成员访问
- 不影响输出:缓存仅针对输入提示词,不影响生成内容
- 计入TPM限制:缓存请求会计入速率限制
使用示例
import requests
url = "https://api.magikcloud.cn/v1/chat/completions"
payload = {
"model": "${ENDPOINT}", # 替换为你的接入点ID
"messages": [
{
"role": "system",
"content": "你是一位资深临床医师,拥有20年内科诊疗经验,擅长症状分析和鉴别诊断。诊断流程:1)主诉提炼 2)症状关联分析 3)初步鉴别诊断(列出3-5种可能)4)推荐检查项目 5)就医建议。重要提示:仅提供参考信息,不构成最终诊断,患者必须前往正规医院就诊。"
},
{
"role": "user",
"content": "最近一周反复头痛,伴有恶心和畏光,可能是什么问题?"
}
],
"max_tokens": 512,
"prompt_cache_key": "medical_symptom_analysis_v1" # 自定义前缀,用于缓存命中优化
}
headers = {
"Authorization": "Bearer ${API_KEY}", # 替换为你的 API Key
"Content-Type": "application/json"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
监控指标
可通过API响应中的 usage.prompt_tokens_details.cached_tokens 字段或监控面板监控缓存命中率和性能指标