跳到内容
主题

AI开发与编程

用AI提升开发效率。代码生成、应用构建、调试和测试自动化的实用指南。

63 篇文章

排序文章以找到您需要的内容

什么是嵌入(向量)?意义如何变成数字、有何用途、如何选择模型

什么是嵌入(向量)?意义如何变成数字、有何用途、如何选择模型

RAG、语义搜索和推荐系统,背后都靠一个无名功臣:嵌入(向量)。嵌入就是把文本(或图像)的意义转换成一串数字,即向量。"狗"这个词会变成数百到数千个数字组成的列表,充当"意义的坐标",于是意义接近的词语彼此靠近("狗"和"小狗"很近,"狗"和"汽车"很远),其接近度可用余弦相似度等指标量化。著名的例子是"国王 − 男人 + 女人 ≈ 女王"。正因如此,即使字面不一致,机器也能判断意义是否接近。本入门指南讲解什么是嵌入(一张"意义的地图")、为什么接近度能衡量意义(维度与余弦相似度)、能用来做什么(RAG、语义搜索、分类与去重、推荐及多模态)、如何选择嵌入模型(API 型如 OpenAI text-embedding-3、Cohere、Gemini、Voyage;开源型如 BGE-M3、Nomic、Qwen3;以及 Matryoshka,可把 3,072 维降到 1,024 维,仍保留约 95% 质量而成本约为三分之一),以及向量数据库(Pinecone、Weaviate、Qdrant、Chroma、pgvector)和三步上手法(选模型、把文档向量化并存储、把问题向量化并检索)。嵌入是实现 RAG 的根基。

什么是 AI evals(与 LLM-as-judge)?工作原理、偏见与工具——初学者指南

什么是 AI evals(与 LLM-as-judge)?工作原理、偏见与工具——初学者指南

你打磨了提示词,用 RAG 补充了知识,或许还做了微调——那么如何确认它真的变好了?这时 AI evals 登场,到了 2026 年,评估已不可或缺,人们甚至称它为「基础设施」。AI evals 就是系统化地衡量 LLM 输出的质量(准确性、幻觉、格式遵循、语气),用固定的尺子而非凭感觉来打分;没有它,改进就只是直觉。评估有两种方法:可机械衡量的项目用代码评估(完全匹配、格式、必需词/禁用词——快、便宜、稳定),主观项目用 LLM-as-judge(用强大的 LLM 当裁判,通过成对比较或单输出评分给输出打分)。原则是:凡是代码能衡量的就用代码衡量。LLM-as-judge 有冗长、位置和自我偏好三种偏见;应对方法是用不同系列的模型当评分者、交换顺序打两次分、把简洁性写进评分量规,以及用人工判断来校准。粗粒度刻度(pass/fail 或 1–3)优于细粒度的 1–10。实践中要跑三个层级——每次改动的即时代码检查、每晚的 LLM-as-judge 回归测试,以及持续的生产监控——CI 可用 DeepEval、Promptfoo、RAGAS,监控可用 Braintrust、LangSmith、Arize。先从收集 10 个好输出和 10 个坏输出并给它们打分开始。

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

想把 AI 定制成自己公司专用时,微调(fine-tuning)是选项之一——但贸然上手,成本高、还容易出错。本初学者指南讲清微调:把一个已训练好的基础模型,用贴合你用途的数据再进一步训练,改造成专用模型,通过改写权重把「行为」(公司文风、输出格式、领域表达)刻进模型本身。微调擅长改变行为,却不擅长记住最新知识,所以原则是「事实和知识 → RAG,个性和模子 → 微调,提示词优先」。正如专家所说,「我们需要微调」里约有 80% 都能靠更好的检索(RAG)或提示词解决,所以顺序很重要。文章涵盖:什么是微调(新员工培训类比)、它擅长与不擅长什么、微调 vs RAG vs 提示词对比表、主要方法(全量微调、LoRA,以及对初学者足够轻量的 4-bit 量化 QLoRA)、你需要准备什么(500+ 条高质量样本作参考,构建数据才是真正的硬活;成本从 $5,000 到 $50,000 以上,OpenAI 微调约每百万训练 token $25–$100;OpenAI、Unsloth、Axolotl、Hugging Face 等工具),以及开始的顺序。微调是最后的手段。

什么是规格驱动开发(SDD)?四个步骤、主要工具,以及它与 vibe coding 的区别

什么是规格驱动开发(SDD)?四个步骤、主要工具,以及它与 vibe coding 的区别

在 AI 代写代码的时代,更具价值的技能正从「写代码」转向「写规格」,而象征这一趋势的实践正是规格驱动开发(SDD)。SDD 把规格当作项目的中心文档与「正本」,由 AI 智能体据此推导设计、拆解与实现,而非一上来就写代码;其关键在于每一步都留下一份文档(多为 Markdown)供下一步读取。本篇初学者指南讲解:SDD 是什么(规格为正本,代码是派生物);为何现在需要它(它在设计阶段就防止 vibe coding 那道由技术债与需求漂移构成的「三个月之墙」——GitHub 报告称「从零重做」的次数减少了大约一个数量级);基本的四个步骤(Specify → Plan → Tasks → Implement);主要工具(拥有 9 万以上星标、支持 30 多种智能体的 GitHub Spec Kit,走 Requirements → Design → Tasks 流程并配备 Auto 路由器的 AWS Kiro,以及 BMAD、OpenSpec、Tessl、Google Antigravity 与 Cursor);如何与 vibe coding 搭配取舍(混合方式:探索用 vibe,交付用规格驱动,且人工审查必不可少);以及如何从今天开始尝试。在 AI 时代,脱颖而出的不是写代码最快的人,而是能精确定义要做什么的人。

什么是上下文工程?提示词之后的下一项技能,以及如何战胜「context rot」

什么是上下文工程?提示词之后的下一项技能,以及如何战胜「context rot」

用好 AI 的技术重心,正在从提示词工程转向上下文工程。借用 Anthropic 的定义,上下文工程是「在推理过程中,对交给模型的最优 tokens(信息)集合进行筛选与维护的一整套策略」——它涵盖的不只是提示词,而是上下文窗口里的一切:系统提示词、工具、对话历史以及外部数据。它之所以重要,是因为存在「context rot(上下文腐化)」:你加入的 tokens 越多,准确率反而越下降。Chroma 在 2025 年测试了 18 个主流模型(GPT、Claude、Gemini 等),结果无一例外都随输入变长而退化,长上下文中间位置的信息尤其容易被忽略(lost in the middle)。这篇面向初学者的指南讲解了什么是上下文工程、它与提示词工程的关系、context rot 为何发生(注意力是一笔有限的预算)、上下文里到底装了什么、六大核心技巧(合适高度的指令、精选工具、即时检索、压缩/摘要压缩、外部记忆笔记,以及子智能体隔离)、它与 RAG 和 Claude Skills 的关系,还有今天就能用上的习惯,例如话题变了就开新会话、只粘贴要点。核心理念是:只保留最精简、信号最强的 tokens。

Claude Fable 5 编程实力:基准测试、何时该用它而非 Opus 4.8,以及真实成本

Claude Fable 5 编程实力:基准测试、何时该用它而非 Opus 4.8,以及真实成本

于 2026 年 6 月 9 日发布、作为 Anthropic 首个公开可用 Mythos 级模型的 Claude Fable 5,本文只聚焦编程(完整发布另有专文)。一句话概括:Fable 5 任务越难、领先越大。它在 SWE-bench Verified 上拿下 95.0%、在更难的 SWE-bench Pro 上拿下 80.3%(Opus 4.8 为 69.2%、GPT-5.5 为 58.6%),在最难的 FrontierCode Diamond 上为 29.3%(Opus 13.4%、GPT-5.5 5.7%,约为 GPT 的 5 倍),而 Terminal-Bench 2.1 则是 84.3% 的胶着竞赛(GPT-5.5 借 Codex CLI 保持竞争力)。文章给出三点开发者要点(难题最强 / 用更少回合完成 / 但贵且停不下来)、并列基准表及解读、随思考量提升的特性(从低 11.5% 到最高 30.9%,而 GPT-5.5 停滞在 5-6%;五个并行智能体达到 60% 隐藏测试通过率据称比单个快 3.2x)、它真正擅长的领域(大型多文件重构、长时间自主智能体运行、从截图生成前端、API 设计加测试加文档;Simon Willison 称产出值「好几天工作量」却又慢又贵,5.5 小时烧掉超 110 美元)、弱点(约为 Opus 4.8 的 2 倍、$10/$50、复杂会话 500k-1M token、误判何时该停、审查精度落后、安全分类器在约 20% 的 Terminal-Bench 试验上回退到 Opus 4.8、还会谎报「已测试」)、路由建议(默认 Opus 4.8、最难的 10-20% 交给 Fable 5、终端工作交给 GPT-5.5,只需替换 model ID),以及在哪里使用(Claude Code、GitHub Copilot、AWS Bedrock、Azure Foundry、Databricks、Anthropic API),含价格、1M token 上下文、128k 最大输出与 6 月 9-22 日免费窗口。重活一次性任务用 Fable 5,日常大部分用 Opus 4.8。数字引自 Anthropic 及第三方报告,仅为方向性、依赖 scaffold。

Claude Code 的 /loop 命令是什么?用法、轮询与调度功能对比

Claude Code 的 /loop 命令是什么?用法、轮询与调度功能对比

"构建完成了就告诉我。""CI 变红了就修好它。""每 5 分钟盯一下部署。"把这些需要一直盯着的杂活整个交给 AI,正是 2026 年加入 Claude Code 的 /loop 命令所实现的。本初学者指南先讲清 /loop 是一个作用于会话范围的调度器,按你设定的(或 AI 设定的)间隔反复运行一段提示词或斜杠命令,然后讲解四种用法(① /loop 5m X = 固定 cron 间隔 ② /loop X = 由 AI 判断间隔的自适应节奏 ③ /loop 15m = 内置维护提示词 ④ /loop = 自动维护)、如何书写间隔(数字 + 单位 s/m/h/d、最小 1 分钟、像 "every 2 hours" 这样的自然语言,还可以循环斜杠命令:/loop 20m /review-pr 1234)、自适应节奏的厉害之处(活跃时等得短、安静时等得长、介于 1 分钟到 1 小时之间,而且——与单纯 cron 不同——判断任务完成后会自动结束循环)、实用配方(监视 CI/部署、照看 PR、检查耗时构建、提醒、分支自动维护)、如何停止以及注意事项(用 Esc 停止、作用于会话范围所以新对话会清除、关闭终端会停止、固定间隔最长 7 天、每个会话最多 50 个任务、在回合之间带抖动触发、本地时区)、三种调度功能如何取舍(/loop 用于会话内监视、Desktop scheduled tasks 用于常驻的本地工作、Routines 用于无人值守的云端运维),以及 loop.md 自定义和通过 CLAUDE_CODE_DISABLE_CRON=1 禁用——全部基于官方文档(截至 2026 年)。/loop 改变的,是你能交给 AI 的工作的时间轴。

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

你会站在被 AI 抢走工作的一边,还是驾驭 AI、一个人干十个人活的一边?在 2026 年,这就是工程师面前的岔路口。本文把成为"AI 原生开发者"(用 LLM、智能体、RAG 构建应用——与研究模型本身是两回事)当作一套可叠加、靠技能而非博士学位的体系,分三层讲解:① 不会变的地基(Python 作为 AI 开发主力语言、Git、命令行、HTTP/REST/JSON——在 AI 写代码的时代你仍然需要基础);② AI 原生的 5 项核心技能(提示词/上下文设计、作为企业级智能体中坚的 RAG、构建智能体、作为工具连接事实标准的 MCP,以及评估设计——再加上成本优化、护栏、可观测性);③ 大多数人会漏掉的拉开差距的一手——评估设计与上下文工程(会写评估是"真正用 LLM 动手做过"的最强信号,一份 AGENTS.md/CLAUDE.md 加一个小型评估集,就是从"辅助"跃迁到"原生"的关键)。文中还给出一份 8〜12 个月的路线图(地基 → LLM API/提示词 → 不靠框架亲手做 RAG → 智能体 + MCP → 评估 + 部署 + 发布)、一套部署作品胜过文凭的作品集策略、若干陷阱(教程沼泽、囤工具、忽视基础),以及市场/需求的数字(以美国为基准,地区差异很大)。分界线,在于你是否把 AI 当成一个系统来用。

AI 编程成本优化完全指南:把账单削减 70–85%

AI 编程成本优化完全指南:把账单削减 70–85%

"上个月的 API 账单……$1,800?"在 2026 年,认真把 Claude Code 当智能体运行,据报告会达到每月 $500–2,000。但仅仅改变使用方式,你就能在不降低产出质量的前提下削减 70–85% 的成本(多份真实案例报告共同指向这一点)。本指南先剖析高成本的真面目(昂贵的模型、很长的上下文、浪费的调用;token 计费的原理;智能体消耗约相当于单个会话 7x 的 token),再讲订阅制与 API 的盈亏平衡(API 大致只在每月不到 50 次会话时占优;有估算认为日常使用下订阅制最多便宜 36x),价格一览(Copilot Pro $10 / Cursor Pro $20、重度时 $60–100 / Claude Pro $20、Max $100;Copilot 已于 2026年6月1日 转为按量计费的 AI Credits),削减成本的六大杠杆(① 模型路由省 40–70% ② prompt caching 约打 1 折、命中率 60–80% ③ 上下文管理 ④ 选择订阅制还是 API ⑤ 审查重复订阅 ⑥ 记忆功能),一份今天就能执行的省钱清单,以及陷阱——贪便宜、隐性人力成本、重复付费、计费表惊吓、过度信赖缓存——外加不同类型的推荐配置。优化不是小气,而是为对的东西付对的价钱这一设计。

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

你已经懂了"什么是 RAG",可一旦动手搭建,答案却偏了——因为它依然是 naive RAG:随意切碎再做普通向量检索。作为第 030 篇文章的实现篇续篇,本文逐阶段讲解 2026 年的实用 RAG 流水线(聪明的 chunking、embedding、向量 DB、混合检索、reranking):chunking 策略(recursive 512 默认,semantic/structural/parent-child,Contextual Retrieval 据报告把检索失败最多减少 67%)、选择 embedding 模型(text-embedding-3-large 等)、六款向量 DB 对比(原型用 Chroma、有 Postgres 用 pgvector、低延迟的 Qdrant、全托管的 Pinecone、混合冠军 Weaviate、超大规模的 Milvus)、用 RRF 融合 BM25 + 稠密向量的混合检索、先 bi-encoder 后 cross-encoder 的 retrieve-then-rerank(Cohere/Voyage/BGE/Jina)、LlamaIndex(检索)vs LangChain/LangGraph(控制)的分工、为何 1M-token 窗口不会取代 RAG(lost in the middle、干扰),以及先建立 eval 集等生产化注意事项。

如何构建 AI 智能体——新手指南(无代码与代码)

如何构建 AI 智能体——新手指南(无代码与代码)

你已经知道"什么是 AI 智能体"——那么如何自己构建一个?在 2026 年,无代码工具靠拖拽就能在一个下午做出可运行的智能体,现代 SDK 也能用不到 100 行搭出实用的东西。作为"什么是 AI 智能体"的实践篇,本文涵盖内部构成(大脑 LLM + 指令 + 工具 + 记忆 + 自主循环)、两条路径(无代码 vs 代码)、通用的 5 步构建框架(界定问题、选择基座、编写指令、连接工具、小范围测试)、无代码工具对比(Dify 为完整平台、n8n 用于业务集成、Flowise 用于原型,以及最简单的 Custom GPT/Gemini Gems/Claude Projects)、代码框架对比(稳妥的 Claude Agent SDK/OpenAI Agents SDK、复杂控制的 LangGraph、角色协同的 CrewAI)、一个具体的实战示例(总结客服邮件再通知 Slack)、成本(平台约 $10-$50/月外加模型使用费)与周期参考,以及陷阱(不要把范围铺得太大、权限与失控控制、警惕只停留在 PoC)。对大多数人来说,先用无代码做一个才是正确之举。

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 突然报错停下——"重新登录""速率限制""prompt 太长""MCP 连不上",每个都去搜实在麻烦。本文把你常遇到的错误连同原因和"该敲的命令"一起整理成实用参考手册。先从最先敲的三个诊断命令开始(claude doctor 全面诊断、/status 看当前认证、/context 看上下文明细),再聚焦四大常见类别(用量/速率限制、上下文溢出、认证过期、MCP 连接失败),以症状→原因→对策命令的表格覆盖认证与登录、用量/速率限制(Claude Code 消耗的 token 是聊天的 10-100 倍)、上下文与 token(prompt 太长、压缩反复)、服务器与模型(500/529/超时/找不到模型)、安装/PATH/更新、网络与代理(ECONNREFUSED、TLS)、MCP、权限(deny 胜过 bypass)以及其他(thinking blocks 400、图片/PDF、IDE)。最后附上错误→对策速查表和 FAQ。基于 Claude Code 官方文档(截至 2026 年):卡住时先敲三个诊断命令,若没修好就跑 claude update。