跳到内容

AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory
Claude AI开发与编程 新手入门

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

145 篇文章
AI 对咨询行业的冲击:什么会变、什么不变,以及如何生存

AI 对咨询行业的冲击:什么会变、什么不变,以及如何生存

咨询新人的成长仪式——通宵赶制 PPT、靠人工做没完没了的调研——正在崩裂。麦肯锡的「Lilli」能在几秒内扫描 10 万份以上文档并起草幻灯片;BCG 的「Deckster」一瞬间完成幻灯片美化;据一项分析,初级分析师约 80% 的调研与制作幻灯片工作都可能在几秒内被替代。作为继 #068(贸易公司)与 #094(营销)之后「分行业看 AI 影响」系列的下一篇,本文审视咨询业:用数字看现状(四大与战略咨询所自 2023 年以来向 AI 投入超 100 亿美元,PwC 三年投 10 亿美元,BCG 2025 年 144 亿美元营收约 25% = 约 36 亿美元来自 AI,HBS 一项针对 758 名 BCG 顾问的研究显示使用 AI 的人任务多 12.2%、快 25.1%、质量高 40% 以上)、AI 改变的五大领域(调研、PPT、分析、纪要,以及全新的 AI 战略服务——目前在大型公司是净就业创造者)、金字塔模型的崩塌(初级常规工作据某种说法约 80% 在几秒内被自动化;走向精干的「少数几人 + AI」团队,伴随人才管道的隐忧)、计费的剧变(生产率悖论——完成更快意味着在按小时计费下收费更少——以及 73% 客户更倾向按成果计费,推动转向按成果计费与固定价)、不变的本质性价值(界定问题、解读、判断、信任、执行——驾驭系统的顾问比系统本身更重要)、巨头如油轮 vs 精品所如快艇的两极分化(据估计小公司增长率最高可达 50%),以及面向有志者、从业者与客户企业的分角色建议。AI 抛出的问题是:你的价值是作业,还是判断?

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

2026 年 1 月的达沃斯论坛上,这一领域最顶尖的头脑围绕"AGI 近在眼前"与"其本质仍然遥远"激烈交锋——导火索正是 AGI(通用人工智能)。本文面向初学者,先从 AGI 是什么讲起——"一种像人类那样、能在任何领域自主学习并解决全新事物的万能型 AI"(不过截至 2026 年它仍是一个尚未实现的目标)——再梳理它与如今 ChatGPT 那类窄域 AI 的决定性区别(能否把知识"迁移"到不同领域;泛化与自主习得技能)、窄域 AI → AGI → ASI(超级智能)的三阶段拆解、专家时间线预测的巨大离散(Anthropic 的 Amodei 乐观地认为在几年内/2027 年前后,DeepMind 的 Hassabis 谨慎地认为到 2030 年约 50%,研究者调查中位数为 2047 年,Marcus 等怀疑派则认为遥远或不会到来——这种离散源于定义不同)、如今的 AI 还有多远(在 ARC-AGI 上低于人类基线,但凭借多模态与智能体正向门口逼近)、所期待的益处(加速疾病研究与科学)与风险(就业、滥用、对齐问题——被 Anthropic 与 UK AISI 定位为关键的决策节点),以及"ChatGPT 已经是 AGI 了""AGI = 具有意识"等常见误解。既不过度恐惧,也不过度幻想,在冷静观望接下来会发生什么的同时,先把手中的窄域 AI 用透。

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

你会站在被 AI 抢走工作的一边,还是驾驭 AI、一个人干十个人活的一边?在 2026 年,这就是工程师面前的岔路口。本文把成为"AI 原生开发者"(用 LLM、智能体、RAG 构建应用——与研究模型本身是两回事)当作一套可叠加、靠技能而非博士学位的体系,分三层讲解:① 不会变的地基(Python 作为 AI 开发主力语言、Git、命令行、HTTP/REST/JSON——在 AI 写代码的时代你仍然需要基础);② AI 原生的 5 项核心技能(提示词/上下文设计、作为企业级智能体中坚的 RAG、构建智能体、作为工具连接事实标准的 MCP,以及评估设计——再加上成本优化、护栏、可观测性);③ 大多数人会漏掉的拉开差距的一手——评估设计与上下文工程(会写评估是"真正用 LLM 动手做过"的最强信号,一份 AGENTS.md/CLAUDE.md 加一个小型评估集,就是从"辅助"跃迁到"原生"的关键)。文中还给出一份 8〜12 个月的路线图(地基 → LLM API/提示词 → 不靠框架亲手做 RAG → 智能体 + MCP → 评估 + 部署 + 发布)、一套部署作品胜过文凭的作品集策略、若干陷阱(教程沼泽、囤工具、忽视基础),以及市场/需求的数字(以美国为基准,地区差异很大)。分界线,在于你是否把 AI 当成一个系统来用。

AI 如何影响营销与广告:什么会变,什么不会变

AI 如何影响营销与广告:什么会变,什么不会变

2024 年底,Coca-Cola 用生成式 AI 制作的圣诞广告被批「没有灵魂」,这象征了 AI 给营销带来的拉锯战:「效率与效果」对「信任与情感」。本文先用数字看清现状(约 87% 的营销人使用生成式 AI,相比 2024 年的 51% 跃升;超过 71% 的广告支出由算法驱动;仅 2025 年第四季度 Google 就用 Gemini 制作了约 7000 万个创意素材;营销 AI 工具支出在 18 个月内约翻三倍)。文章涵盖 AI 改变的五大领域(① 内容创作 ② 广告创意 ③ 定向与投放/程序化 ④ 个性化/DCO ⑤ 分析与衡量)与报告中的效果(DCO 带来约 32% 更高 CTR、约 56% 更低 CPC,AI 文案 3.2 倍 ROI,第一方/情境定向高达 2 倍 ROAS——全部为公开发布值、依条件而定);不会改变的核心(战略、品牌、信任、突破性创意留在人类手中——AI 是放大器,底数为零答案也为零);SEO/AEO/LLMO 的地壳变动(附内部链接);风险(AI 广告上 82% 高管对 45% 消费者的认知落差、看似可信的捏造、品牌安全、权利/监管、无人看管的失控运行);营销人的工作如何转变(任务被拿走,判断变得更重;从生产者到总编辑兼战略家);以及从今天起的五步实践计划。AI 最大的影响是把人类的时间从做事中解放出来,用于决策。

AI 编程成本优化完全指南:把账单削减 70–85%

AI 编程成本优化完全指南:把账单削减 70–85%

"上个月的 API 账单……$1,800?"在 2026 年,认真把 Claude Code 当智能体运行,据报告会达到每月 $500–2,000。但仅仅改变使用方式,你就能在不降低产出质量的前提下削减 70–85% 的成本(多份真实案例报告共同指向这一点)。本指南先剖析高成本的真面目(昂贵的模型、很长的上下文、浪费的调用;token 计费的原理;智能体消耗约相当于单个会话 7x 的 token),再讲订阅制与 API 的盈亏平衡(API 大致只在每月不到 50 次会话时占优;有估算认为日常使用下订阅制最多便宜 36x),价格一览(Copilot Pro $10 / Cursor Pro $20、重度时 $60–100 / Claude Pro $20、Max $100;Copilot 已于 2026年6月1日 转为按量计费的 AI Credits),削减成本的六大杠杆(① 模型路由省 40–70% ② prompt caching 约打 1 折、命中率 60–80% ③ 上下文管理 ④ 选择订阅制还是 API ⑤ 审查重复订阅 ⑥ 记忆功能),一份今天就能执行的省钱清单,以及陷阱——贪便宜、隐性人力成本、重复付费、计费表惊吓、过度信赖缓存——外加不同类型的推荐配置。优化不是小气,而是为对的东西付对的价钱这一设计。

用 AI 制作演示幻灯片:工具、流程与提示词

用 AI 制作演示幻灯片:工具、流程与提示词

明天一早就要汇报,幻灯片却还空着——可只要输入一行主题,几分钟后 20 页草稿幻灯片就排在眼前。这就是 2026 年的 AI 幻灯片。本指南把做幻灯片拆成三个阶段(结构、讲稿、设计),并梳理两种思路:一站式生成(丢个主题,全都生成)vs. 分工协作(先在 ChatGPT/Claude/Gemini 里敲定结构和讲稿,再让专用工具做设计)。文中对比了主流工具(生成快的 Gamma、原生 .pptx 不错乱的 PowerPoint 内置 Copilot、协作强的 Google Slides 用 Gemini、最好看的 Beautiful.ai、模板丰富的 Canva,以及 2026 年 5 月上线的 ChatGPT PowerPoint 插件——没有绝对冠军,按出口来选),给出最可复用的 5 步流程(结构 → 讲稿 → 倒进设计工具 → 核实数字和出处 → 导出 .pptx/Slides)、三段可直接复制的提示词(大纲、充实一页含备注、改写成适配设计工具的格式)、让幻灯片打动人的六个要点(一页一条信息、把文字砍掉一半等),以及陷阱——.pptx 版式错乱、初稿臃肿、看似可信的数据捏造、机密外发,还有工具关停(以 Tome 于 2025 年 4 月结束幻灯片功能为教训)。AI 是瞬间产出草稿的伙伴;删减和核实是人的工作。

用 AI 从图片中提取文字(OCR):完整指南

用 AI 从图片中提取文字(OCR):完整指南

一张手写便条、一张纸质收据、截图里的英文、照片中的招牌——那些你一直靠手敲的重新录入工作,到了 2026 年,借助 AI 几乎已全无必要。本指南从 AI OCR 与传统 OCR 的区别(逐字识别 vs. 按含义理解整页)讲起,再按场景梳理三种选择(通用聊天 AI/Google Lens 等专用工具/Mistral OCR、PaddleOCR-VL 等 API 与开源)。文章对比 ChatGPT(GPT-5.5)、Gemini 3.1 Pro 和 Claude(Opus 4.8)的强项(手写 → GPT 系列、表格结构化 → Claude 系列、多页 → Gemini 长上下文、纯 OCR → 专用模型;没有绝对冠军),给出三条可直接套用的提示词(无损转写、表格转 Markdown、收据转 JSON,均带「不得捏造」规则)、各场景的最佳选择(手写、收据、PDF、复杂表格、竖排/古字、公式和代码)、六个准确率技巧(图像质量占八成),以及 AI OCR 唯一最大的弱点——看似合理地捏造读不出的内容(金额、日期、姓名务必与原件核对)——还有关于机密外发、版权和训练使用的隐私注意事项。你可以交给 AI 的,只有「读」;确认这件事,留给亲眼看过原件的人。

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

你已经懂了"什么是 RAG",可一旦动手搭建,答案却偏了——因为它依然是 naive RAG:随意切碎再做普通向量检索。作为第 030 篇文章的实现篇续篇,本文逐阶段讲解 2026 年的实用 RAG 流水线(聪明的 chunking、embedding、向量 DB、混合检索、reranking):chunking 策略(recursive 512 默认,semantic/structural/parent-child,Contextual Retrieval 据报告把检索失败最多减少 67%)、选择 embedding 模型(text-embedding-3-large 等)、六款向量 DB 对比(原型用 Chroma、有 Postgres 用 pgvector、低延迟的 Qdrant、全托管的 Pinecone、混合冠军 Weaviate、超大规模的 Milvus)、用 RRF 融合 BM25 + 稠密向量的混合检索、先 bi-encoder 后 cross-encoder 的 retrieve-then-rerank(Cohere/Voyage/BGE/Jina)、LlamaIndex(检索)vs LangChain/LangGraph(控制)的分工、为何 1M-token 窗口不会取代 RAG(lost in the middle、干扰),以及先建立 eval 集等生产化注意事项。

如何构建 AI 智能体——新手指南(无代码与代码)

如何构建 AI 智能体——新手指南(无代码与代码)

你已经知道"什么是 AI 智能体"——那么如何自己构建一个?在 2026 年,无代码工具靠拖拽就能在一个下午做出可运行的智能体,现代 SDK 也能用不到 100 行搭出实用的东西。作为"什么是 AI 智能体"的实践篇,本文涵盖内部构成(大脑 LLM + 指令 + 工具 + 记忆 + 自主循环)、两条路径(无代码 vs 代码)、通用的 5 步构建框架(界定问题、选择基座、编写指令、连接工具、小范围测试)、无代码工具对比(Dify 为完整平台、n8n 用于业务集成、Flowise 用于原型,以及最简单的 Custom GPT/Gemini Gems/Claude Projects)、代码框架对比(稳妥的 Claude Agent SDK/OpenAI Agents SDK、复杂控制的 LangGraph、角色协同的 CrewAI)、一个具体的实战示例(总结客服邮件再通知 Slack)、成本(平台约 $10-$50/月外加模型使用费)与周期参考,以及陷阱(不要把范围铺得太大、权限与失控控制、警惕只停留在 PoC)。对大多数人来说,先用无代码做一个才是正确之举。

ChatGPT vs Claude vs Gemini——按用途该如何选择

ChatGPT vs Claude vs Gemini——按用途该如何选择

"ChatGPT、Claude 还是 Gemini——我该订阅哪个?"在 2026 年,三者都在每月 $20 左右、都是一流水准,所以没有"就是它最强"的单一答案。正确的问题是"对你的用途来说哪个最合适"。基于跨来源的共识,本文涵盖基础信息(提供方、主力模型系列、免费/标准/高级价格)、性格差异(Claude=写作/分析/代码的匠人,ChatGPT=带生态与图像/语音的全能选手,Gemini=多模态、长上下文、Google 整合)、按用途的详细表格(写作、代码、通用、图像生成、语音、图像/PDF/视频理解、超长文本、Google 整合、调研、中文),如何按使用量挑选套餐,以及选不出一个时聪明的两工具组合(一个主轴+一个补短板)。领先者每隔几个月就轮换,所以与其追逐固定的"最强",不如各用所长,并用免费档在自己的任务上实测。

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 突然报错停下——"重新登录""速率限制""prompt 太长""MCP 连不上",每个都去搜实在麻烦。本文把你常遇到的错误连同原因和"该敲的命令"一起整理成实用参考手册。先从最先敲的三个诊断命令开始(claude doctor 全面诊断、/status 看当前认证、/context 看上下文明细),再聚焦四大常见类别(用量/速率限制、上下文溢出、认证过期、MCP 连接失败),以症状→原因→对策命令的表格覆盖认证与登录、用量/速率限制(Claude Code 消耗的 token 是聊天的 10-100 倍)、上下文与 token(prompt 太长、压缩反复)、服务器与模型(500/529/超时/找不到模型)、安装/PATH/更新、网络与代理(ECONNREFUSED、TLS)、MCP、权限(deny 胜过 bypass)以及其他(thinking blocks 400、图片/PDF、IDE)。最后附上错误→对策速查表和 FAQ。基于 Claude Code 官方文档(截至 2026 年):卡住时先敲三个诊断命令,若没修好就跑 claude update。

如何用 AI 自动生成会议纪要与转写

如何用 AI 自动生成会议纪要与转写

还在每周花一两个小时对着录音手动整理会议纪要?2026 年这些大多可以自动化。本文把纪要拆成四个阶段(录音 → 转写 → 摘要 → 提取决定事项/待办),对比两种思路(让 AI 列席的一体化工具,与录音 → 转写 AI → LLM 的自建组合),比较主流工具(Otter、Notta、Fireflies、tl;dv、Fathom、Granola,准确率均标注为厂商宣称值),介绍 Zoom/Teams/Meet 的内置 AI,演示用 Whisper 加 ChatGPT/Claude/Gemini 的自建路线及"不要凭猜测填补空缺"的提示词示例,给出提升准确率的五个技巧(音频质量、专有名词词典、说话人分离、语言匹配、模板化提示词),并讲清隐私/同意与过度信任的注意事项。最后一道防线在于人:务必亲眼核对决定事项和待办。

按分类浏览

GitHub Copilot

查看全部

Midjourney

查看全部

Stable Diffusion

查看全部

新手入门

查看全部

AI开发与编程

查看全部

开发环境与基础设施

查看全部

AI代理与自动化

查看全部

工作效率

查看全部

数据分析

查看全部

学习与教育

查看全部

副业与变现

查看全部

游戏开发

查看全部

AI安全与治理

查看全部

AI风险与社会影响

查看全部