原文作者:@VincentLogic
一、最底层:LLM大语言模型
-
历史脉络:Transformer架构由Google团队在2017年提出(论文《Attention Is All You Need》),但真正引爆全球的是OpenAI。
-
里程碑事件:2022年底:GPT-3.5横空出世,首个真正达到可用级别的大模型 2023年3月:GPT-4发布,将AI能力天花板拉到新高度 如今:GPT家族仍是标杆,但Claude、Gemini等后起之秀已在各自领域同台竞技
-
预测下一个概率最高的词:"特别"
-
将"特别"追加到输入后,再预测下个词:"得"
-
继续追加,预测:"棒"
-
最终输出完整回答:"特别的棒"
二、大模型的"翻译官":Token与Tokenizer
-
切分:将文本拆成最小片段(token)
-
映射:将每个token对应到数字(token ID)
-
中文例子:"程序员"被拆成"程序"+"员"两个token
-
英文例子:"helpful"被拆成"help"+"ful"两个token
-
极端情况:一个特殊字符可能需要3个token表示
-
1个token ≈ 0.75个英文单词
-
1个token ≈ 1.5~2个汉字
-
40万token ≈ 60~80万汉字(相当于一本厚书)
三、临时记忆体:Context与Context Window
-
用户当前问题
-
对话历史
-
正在输出的token
-
工具列表
-
System prompt等
-
GPT-4.5:105万token
-
Claude 3.1 Pro:100万token
-
Cloudopus 4.6:100万token
-
从文档中抽取与问题最匹配的片段
-
只将相关片段发给模型
-
既突破context window限制,又控制成本
四、指令的艺术:Prompt工程
-
User Prompt:用户输入的问题(如"帮我写一首诗")
-
System Prompt:开发者配置的人设和规则(用户不可见)
五、感知世界的钥匙:Tool与MCP
-
Tool本质是一个函数:输入参数 → 执行操作 → 返回结果
-
例如天气查询工具:输入(城市+日期) → 调用气象接口 → 返回天气数据
-
用户问题发给平台(传话筒)
-
平台将问题+可用工具列表发给大模型
-
大模型分析后生成工具调用指令
-
平台调用对应工具
-
工具返回结果给平台
-
平台将结果发给大模型
-
大模型整理成自然语言回答用户
-
大模型:选择工具 + 汇总结果
-
工具:执行具体操作
-
平台:串联整个流程
-
ChatGPT需按OpenAI规范接入
-
Claude需按Anthropic规范接入
-
Gemini需按Google规范接入 → 同一个工具要写三遍代码
-
全称:模型上下文协议
-
本质:统一的工具接入标准
-
价值:工具开发者只需按MCP规范写一次代码,即可在所有支持MCP的平台使用 → 类似手机统一用Type-C接口
六、自主智能体:Agent与Agent Skill
-
调用定位工具获取经纬度
-
调用天气工具查询天气
-
根据天气结果(如下雨),调用店铺工具搜索雨伞店
-
综合所有信息给出最终答案
-
下雨带伞、光照强戴帽子、空气差戴口罩...
-
要求回答格式:"先总结,再列带原因的物品清单"
-
本质:提前写好给Agent看的说明文档(Markdown格式)
-
结构:元数据层:名称(name)+描述(description) 指令层:目标、执行步骤、判断规则、输出格式、示例
-
在.cloudskills目录新建文件夹(名称=skill名)
-
文件夹内创建SKILL.md文件(注意:必须大写)
-
写入完整指令内容
-
Agent在匹配时自动加载执行
-
调用定位工具
-
调用天气工具
-
按预设规则判断需带物品
-
按指定格式输出结果
七、完整知识体系
-
LLM = 核心引擎
-
Token = 数据处理基本单元
-
Context = 临时记忆体(内容单位是token)
-
Context Window = 记忆体容量上限
-
Prompt = 具体指令(分User/System两类)
-
Tool = 感知外部世界的函数
-
MCP = 统一工具接入标准
-
Agent = 自主规划+工具调用的系统
-
Agent Skill = Agent的说明书
-
Cloud Code、Codex、Gemini CLI... 本质都是在这个框架下运作
-
无论技术如何迭代,核心原理不变
来源:https://x.com/VincentLogic/status/2041013815031267830



