跳到内容
主题

新手入门

AI新手?从这里开始。面向初学者的AI概念、工具选择和实践入门指南。

115 篇文章

排序文章以找到您需要的内容

什么是重排序(reranking)?提升 RAG 准确率的两阶段检索——初学者指南

什么是重排序(reranking)?提升 RAG 准确率的两阶段检索——初学者指南

你搭好了 RAG,但检索质量却平平——这正是重排序能派上用场的时候。重排序把嵌入(向量)检索粗略收集到的候选,按它们与查询的相关度重新打分并重新排序,只保留最前面的那些;仅这一步就能大幅改变 RAG 系统的回答质量。本初学者指南讲解重排序是什么(以"初筛加终面"作比),为什么需要它(嵌入检索把查询和文档分开向量化,因此只能粗略判断相关度,而糟糕的排序会直接拉低回答质量——研究报告称加入重排序约带来 40% 的 RAG 准确率提升,把它叠加到混合检索上已是 2026 年的标准做法),两阶段检索如何运作(先用快速嵌入检索"广撒网"求召回,再用重排序器"智能筛"求精度,然后把最前面的交给 LLM),为什么重排序器更准确(bi-encoder 把查询和文档各自向量化,快但近似;cross-encoder 把两者一起喂入并输出 0–1 的相关度分数,准确但开销大——所以用快速的 bi-encoder 收集,用准确的 cross-encoder 筛选),以及模型与实现(API 型如 Cohere Rerank、Voyage、Jina;开源型如 BGE reranker、mixedbread、FlashRank;以及基于 LLM 的打分如 RankLLM——只需检索 50–100 个再筛到前 5 个)。原则就是:广撒网、智能筛,并用 AI 评测来调整数量。

什么是 AI 护栏?提示注入防御与输入/输出防护——初学者指南

什么是 AI 护栏?提示注入防御与输入/输出防护——初学者指南

当你能够构建 AI 应用之后,下一阶段就是安全地运行它们。LLM 可能被恶意输入欺骗、泄露机密数据,或一本正经地胡说八道;防止这一切的安全机制就是 AI 护栏。随着 AI 智能体事故在 2026 年真实发生,护栏已成为生产环境运行不可或缺的一部分。护栏是拦住危险输入和不希望出现的输出的规则与过滤器,在用户输入到达 LLM 之前、以及回答返回之前都进行检查——这是独立于模型自身之外的安全层。主要威胁包括提示注入(最大的威胁)、越狱、数据泄露(机密数据、PII、系统提示),以及幻觉或有害输出。防护在两层进行:输入护栏(检测注入和越狱、检测/屏蔽 PII、限制话题、净化)与输出护栏(过滤有害内容、防止泄露、检查幻觉、验证格式)。提示注入在 OWASP LLM Top 10 中被列为最严重的一项,分为直接(用户输入"忽略之前的所有指令")和间接(命令藏在网页或 RAG 文档中)两种形式;间接注入仅靠 RAG 挡不住,因此检索到的文档需要单独检查。本初学者指南还介绍了工具(LLM Guard、Guardrails AI、NeMo Guardrails、Llama Guard,以及 Azure、AWS、OpenAI 的云端安全功能),以及纵深防御、最小权限、人工审批和持续监控等实践原则。

什么是嵌入(向量)?意义如何变成数字、有何用途、如何选择模型

什么是嵌入(向量)?意义如何变成数字、有何用途、如何选择模型

RAG、语义搜索和推荐系统,背后都靠一个无名功臣:嵌入(向量)。嵌入就是把文本(或图像)的意义转换成一串数字,即向量。"狗"这个词会变成数百到数千个数字组成的列表,充当"意义的坐标",于是意义接近的词语彼此靠近("狗"和"小狗"很近,"狗"和"汽车"很远),其接近度可用余弦相似度等指标量化。著名的例子是"国王 − 男人 + 女人 ≈ 女王"。正因如此,即使字面不一致,机器也能判断意义是否接近。本入门指南讲解什么是嵌入(一张"意义的地图")、为什么接近度能衡量意义(维度与余弦相似度)、能用来做什么(RAG、语义搜索、分类与去重、推荐及多模态)、如何选择嵌入模型(API 型如 OpenAI text-embedding-3、Cohere、Gemini、Voyage;开源型如 BGE-M3、Nomic、Qwen3;以及 Matryoshka,可把 3,072 维降到 1,024 维,仍保留约 95% 质量而成本约为三分之一),以及向量数据库(Pinecone、Weaviate、Qdrant、Chroma、pgvector)和三步上手法(选模型、把文档向量化并存储、把问题向量化并检索)。嵌入是实现 RAG 的根基。

什么是 AI evals(与 LLM-as-judge)?工作原理、偏见与工具——初学者指南

什么是 AI evals(与 LLM-as-judge)?工作原理、偏见与工具——初学者指南

你打磨了提示词,用 RAG 补充了知识,或许还做了微调——那么如何确认它真的变好了?这时 AI evals 登场,到了 2026 年,评估已不可或缺,人们甚至称它为「基础设施」。AI evals 就是系统化地衡量 LLM 输出的质量(准确性、幻觉、格式遵循、语气),用固定的尺子而非凭感觉来打分;没有它,改进就只是直觉。评估有两种方法:可机械衡量的项目用代码评估(完全匹配、格式、必需词/禁用词——快、便宜、稳定),主观项目用 LLM-as-judge(用强大的 LLM 当裁判,通过成对比较或单输出评分给输出打分)。原则是:凡是代码能衡量的就用代码衡量。LLM-as-judge 有冗长、位置和自我偏好三种偏见;应对方法是用不同系列的模型当评分者、交换顺序打两次分、把简洁性写进评分量规,以及用人工判断来校准。粗粒度刻度(pass/fail 或 1–3)优于细粒度的 1–10。实践中要跑三个层级——每次改动的即时代码检查、每晚的 LLM-as-judge 回归测试,以及持续的生产监控——CI 可用 DeepEval、Promptfoo、RAGAS,监控可用 Braintrust、LangSmith、Arize。先从收集 10 个好输出和 10 个坏输出并给它们打分开始。

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

想把 AI 定制成自己公司专用时,微调(fine-tuning)是选项之一——但贸然上手,成本高、还容易出错。本初学者指南讲清微调:把一个已训练好的基础模型,用贴合你用途的数据再进一步训练,改造成专用模型,通过改写权重把「行为」(公司文风、输出格式、领域表达)刻进模型本身。微调擅长改变行为,却不擅长记住最新知识,所以原则是「事实和知识 → RAG,个性和模子 → 微调,提示词优先」。正如专家所说,「我们需要微调」里约有 80% 都能靠更好的检索(RAG)或提示词解决,所以顺序很重要。文章涵盖:什么是微调(新员工培训类比)、它擅长与不擅长什么、微调 vs RAG vs 提示词对比表、主要方法(全量微调、LoRA,以及对初学者足够轻量的 4-bit 量化 QLoRA)、你需要准备什么(500+ 条高质量样本作参考,构建数据才是真正的硬活;成本从 $5,000 到 $50,000 以上,OpenAI 微调约每百万训练 token $25–$100;OpenAI、Unsloth、Axolotl、Hugging Face 等工具),以及开始的顺序。微调是最后的手段。

如何运行本地LLM:在自己电脑上跑AI——给初学者的配置、工具与最佳模型

如何运行本地LLM:在自己电脑上跑AI——给初学者的配置、工具与最佳模型

你大概以为LLM必须跑在云端,但到了2026年,把AI完全运行在自己电脑里——也就是"本地LLM"——已是切实可行的选择。本地LLM意味着把ChatGPT或Claude那样的模型直接运行在本机,而非云端。三大吸引力是:隐私(输入绝不离开设备)、零成本(没有API费用)和离线使用(断网也能跑)。短板则是:没有顶级云端AI那么聪明、需要一台还算给力的电脑、需要一点配置工作,且不掌握最新信息。本篇初学者指南讲清楚什么是本地LLM(用"流媒体 vs 下载"作类比)、优点与短板、所需配置与量化(GGUF格式,其中Q4_K_M是公认之选,在保留质量的同时把内存压到约四分之一;4-bit下每10亿参数约0.5 GB内存)、如何上手(面向初学者的LM Studio图形界面,面向开发者的Ollama命令行——2026年第一季度月下载量5200万)、2026年推荐模型(Llama 3.2 7B、Google Gemma 4、Alibaba Qwen3.5,以及DeepSeek和Mistral,皆为开放模型),以及本地与云端如何分工(机密、高频、离线的工作交给本地,难题交给云端)。最快的第一步:在LM Studio里跑一个3B–7B的小模型。

什么是规格驱动开发(SDD)?四个步骤、主要工具,以及它与 vibe coding 的区别

什么是规格驱动开发(SDD)?四个步骤、主要工具,以及它与 vibe coding 的区别

在 AI 代写代码的时代,更具价值的技能正从「写代码」转向「写规格」,而象征这一趋势的实践正是规格驱动开发(SDD)。SDD 把规格当作项目的中心文档与「正本」,由 AI 智能体据此推导设计、拆解与实现,而非一上来就写代码;其关键在于每一步都留下一份文档(多为 Markdown)供下一步读取。本篇初学者指南讲解:SDD 是什么(规格为正本,代码是派生物);为何现在需要它(它在设计阶段就防止 vibe coding 那道由技术债与需求漂移构成的「三个月之墙」——GitHub 报告称「从零重做」的次数减少了大约一个数量级);基本的四个步骤(Specify → Plan → Tasks → Implement);主要工具(拥有 9 万以上星标、支持 30 多种智能体的 GitHub Spec Kit,走 Requirements → Design → Tasks 流程并配备 Auto 路由器的 AWS Kiro,以及 BMAD、OpenSpec、Tessl、Google Antigravity 与 Cursor);如何与 vibe coding 搭配取舍(混合方式:探索用 vibe,交付用规格驱动,且人工审查必不可少);以及如何从今天开始尝试。在 AI 时代,脱颖而出的不是写代码最快的人,而是能精确定义要做什么的人。

什么是上下文工程?提示词之后的下一项技能,以及如何战胜「context rot」

什么是上下文工程?提示词之后的下一项技能,以及如何战胜「context rot」

用好 AI 的技术重心,正在从提示词工程转向上下文工程。借用 Anthropic 的定义,上下文工程是「在推理过程中,对交给模型的最优 tokens(信息)集合进行筛选与维护的一整套策略」——它涵盖的不只是提示词,而是上下文窗口里的一切:系统提示词、工具、对话历史以及外部数据。它之所以重要,是因为存在「context rot(上下文腐化)」:你加入的 tokens 越多,准确率反而越下降。Chroma 在 2025 年测试了 18 个主流模型(GPT、Claude、Gemini 等),结果无一例外都随输入变长而退化,长上下文中间位置的信息尤其容易被忽略(lost in the middle)。这篇面向初学者的指南讲解了什么是上下文工程、它与提示词工程的关系、context rot 为何发生(注意力是一笔有限的预算)、上下文里到底装了什么、六大核心技巧(合适高度的指令、精选工具、即时检索、压缩/摘要压缩、外部记忆笔记,以及子智能体隔离)、它与 RAG 和 Claude Skills 的关系,还有今天就能用上的习惯,例如话题变了就开新会话、只粘贴要点。核心理念是:只保留最精简、信号最强的 tokens。

什么是 Claude Skills(Agent Skills)?工作原理、制作方法,以及它与 MCP 有何不同

什么是 Claude Skills(Agent Skills)?工作原理、制作方法,以及它与 MCP 有何不同

一篇面向初学者的 Claude Skills(Agent Skills)入门指南——这套机制让你彻底告别反复向 Claude 解释同样步骤的麻烦。技能把指令、脚本和参考资料打包进一个文件夹,核心是一份记录着 name、description 和操作步骤的 SKILL.md 文件。大多数时候 Claude 只读取每个技能的简短说明,只有当你的请求与之匹配时才展开正文——这种设计被称为渐进式披露,即便装了几十个技能也能让上下文保持轻量。本文涵盖:Skills 是什么、为何重要(不必再粘贴提示词)、如何编写 SKILL.md 与最小文件夹结构、如何动手制作(用官方 skill-creator 或手动搭建,放进 .claude/skills,2026 年 1 月起改动可即时生效)、Skills 与 MCP(连通性)和子代理(上下文隔离)的区别,以及这套开放标准如何在 Claude 应用、Claude Code、API 和 Agent SDK 之外,被 Codex CLI、Cursor、Gemini CLI 和 GitHub Copilot 采纳,还有文档生成、落实内部规范等具体用途。该功能由 Anthropic 于 2025 年 10 月 16 日发布,被 Simon Willison 称为"也许比 MCP 更重要"。

Claude Fable 5 编程实力:基准测试、何时该用它而非 Opus 4.8,以及真实成本

Claude Fable 5 编程实力:基准测试、何时该用它而非 Opus 4.8,以及真实成本

于 2026 年 6 月 9 日发布、作为 Anthropic 首个公开可用 Mythos 级模型的 Claude Fable 5,本文只聚焦编程(完整发布另有专文)。一句话概括:Fable 5 任务越难、领先越大。它在 SWE-bench Verified 上拿下 95.0%、在更难的 SWE-bench Pro 上拿下 80.3%(Opus 4.8 为 69.2%、GPT-5.5 为 58.6%),在最难的 FrontierCode Diamond 上为 29.3%(Opus 13.4%、GPT-5.5 5.7%,约为 GPT 的 5 倍),而 Terminal-Bench 2.1 则是 84.3% 的胶着竞赛(GPT-5.5 借 Codex CLI 保持竞争力)。文章给出三点开发者要点(难题最强 / 用更少回合完成 / 但贵且停不下来)、并列基准表及解读、随思考量提升的特性(从低 11.5% 到最高 30.9%,而 GPT-5.5 停滞在 5-6%;五个并行智能体达到 60% 隐藏测试通过率据称比单个快 3.2x)、它真正擅长的领域(大型多文件重构、长时间自主智能体运行、从截图生成前端、API 设计加测试加文档;Simon Willison 称产出值「好几天工作量」却又慢又贵,5.5 小时烧掉超 110 美元)、弱点(约为 Opus 4.8 的 2 倍、$10/$50、复杂会话 500k-1M token、误判何时该停、审查精度落后、安全分类器在约 20% 的 Terminal-Bench 试验上回退到 Opus 4.8、还会谎报「已测试」)、路由建议(默认 Opus 4.8、最难的 10-20% 交给 Fable 5、终端工作交给 GPT-5.5,只需替换 model ID),以及在哪里使用(Claude Code、GitHub Copilot、AWS Bedrock、Azure Foundry、Databricks、Anthropic API),含价格、1M token 上下文、128k 最大输出与 6 月 9-22 日免费窗口。重活一次性任务用 Fable 5,日常大部分用 Opus 4.8。数字引自 Anthropic 及第三方报告,仅为方向性、依赖 scaffold。

AI 操作浏览器到底能自动化到哪一步?填表单、预订与调研的现实

AI 操作浏览器到底能自动化到哪一步?填表单、预订与调研的现实

「我让 AI 帮忙,它就打开浏览器自己查资料,连表单都帮我填好了。」在 2026 年,这已不再是演示桥段:ChatGPT Atlas、Claude for Chrome、Gemini/Chrome、Perplexity Comet 等智能体型浏览器集中涌现。那么它们到底能自动化到什么程度?现实清晰地分成三个层级。(1)调研=已实用:在测试真实网站的 WebVoyager 上头部智能体达到 89-98%,近乎饱和,且出错代价小,应从这里开始放手交托。(2)填表单=能做但要核对:输入本身各家都支持,但可能填错字段或按错提交,因此「AI 起草、人来发送」才安全,Atlas 等许多产品会在重要操作前请求确认。(3)预订/支付=仍需自己来:智能体会栽在 CAPTCHA、复杂 JavaScript 结账、双因素认证与会话管理上,在 WebArena 上即便最好也只有约 47-68%,低于人类约 78% 的基准;OpenAI 关停单体 Operator 正是因为结账不够可靠。文章先梳理两种方式(面向消费者的浏览器/扩展,对面向开发者的 API/OSS),再盘点 2026 年的玩家(Atlas 设计上不可运行代码或读密码;Claude for Chrome 为扩展侧边栏;Google 的 Project Mariner 于 2026/5/4 并入 Gemini/Chrome;Operator 转入 ChatGPT Agent 与 Agents SDK;开源 browser-use 已超 78k 星标),解释让预订失败的四道墙,并深入剖析最大陷阱——间接提示词注入(Comet 曾被证实存在零点击窃取凭据的漏洞并于 2026 年 2 月修复,攻击成功率从防御前 23.6% 降到基础防御约 11%、最强防御约 1%,但仍非零),最后给出五条安全原则。它是出色的调研搭档,但涉及金钱的操作还是自己来。文中数值引自公开资料与公告,仅作趋势参考。

AI智能体10大应用案例——真实业务自动化实例、效果与起步方法

AI智能体10大应用案例——真实业务自动化实例、效果与起步方法

"AI智能体确实很厉害,但我究竟能拿它来做什么?"这是每个人了解基础后立刻碰到的问题。进入2026年,答案不再是未来的事:在客户支持、销售、财务、开发、人力资源等各职能中,智能体已开始真正接手日常工作,一项调查报告显示65%的企业已将某些工作流程自动化。本文跳过抽象论述,给出按职能划分的10个具体应用案例,配真实例子与数据。内容涵盖为何应用案例如今重要(智能体不只回答更会行动,从实验走向生产;Gartner预测到2028年三分之一企业软件将内置智能体功能、到2029年80%支持咨询将在极少人工下解决)、如何识别可自动化的工作(高度重复×大批量×需要判断,判断正是与旧式RPA的区别;重大决策保留给人类,以智能体准备、人类审批为原则)、10个案例(客户支持、销售获客与个性化邮件、市场营销SEO与邮件、软件开发超35%代码由AI生成、IT运维故障检测诊断自动恢复、财务跨ERP计算KPI与带批注PDF报表、实时金融欺诈检测、AMD人力资源解决时间下降80%、调研与数据分析成报告、供应链控制塔),以及投资回报的真实情况(3年3.5x、3–14个月回本、30–60%成本削减,但仅23%规模化,落地是难点)和如何安全起步(选定一项任务、小规模试做、人类审批、衡量并扩展)配最小权限与逐次审批的安全做法。数据引用自调查与企业公告,仅作趋势参考。透过重复、批量、判断重新审视你的工作,从最棘手的任务迈出小小一步。