跳到内容

AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory
Claude AI开发与编程 新手入门

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

145 篇文章
AI智能体10大应用案例——真实业务自动化实例、效果与起步方法

AI智能体10大应用案例——真实业务自动化实例、效果与起步方法

"AI智能体确实很厉害,但我究竟能拿它来做什么?"这是每个人了解基础后立刻碰到的问题。进入2026年,答案不再是未来的事:在客户支持、销售、财务、开发、人力资源等各职能中,智能体已开始真正接手日常工作,一项调查报告显示65%的企业已将某些工作流程自动化。本文跳过抽象论述,给出按职能划分的10个具体应用案例,配真实例子与数据。内容涵盖为何应用案例如今重要(智能体不只回答更会行动,从实验走向生产;Gartner预测到2028年三分之一企业软件将内置智能体功能、到2029年80%支持咨询将在极少人工下解决)、如何识别可自动化的工作(高度重复×大批量×需要判断,判断正是与旧式RPA的区别;重大决策保留给人类,以智能体准备、人类审批为原则)、10个案例(客户支持、销售获客与个性化邮件、市场营销SEO与邮件、软件开发超35%代码由AI生成、IT运维故障检测诊断自动恢复、财务跨ERP计算KPI与带批注PDF报表、实时金融欺诈检测、AMD人力资源解决时间下降80%、调研与数据分析成报告、供应链控制塔),以及投资回报的真实情况(3年3.5x、3–14个月回本、30–60%成本削减,但仅23%规模化,落地是难点)和如何安全起步(选定一项任务、小规模试做、人类审批、衡量并扩展)配最小权限与逐次审批的安全做法。数据引用自调查与企业公告,仅作趋势参考。透过重复、批量、判断重新审视你的工作,从最棘手的任务迈出小小一步。

Claude Fable 5 发布深度解读——功能、基准、价格、与 Mythos 的区别,以及全新的安全设计

Claude Fable 5 发布深度解读——功能、基准、价格、与 Mythos 的区别,以及全新的安全设计

2026 年 6 月 9 日,Anthropic 发布了 Claude Fable 5——首次以普通用户和开发者都能使用的形式,释放出内部长期被视为最强的前沿模型"Mythos"级别的能力。Anthropic 将其定位为面向大众提供的最强模型,宣传语为"为长时间、复杂的工作而打造"。本篇写得让初学者也能跟上,讲清 Fable 5 是什么(以安全形式向公众开放的 Mythos 级别能力,为跑完一场马拉松而非单次问答而优化;模型 ID 为 claude-fable-5)、它与孪生兄弟 Mythos 5 有何不同(内部完全相同,只有安全机制不同;公众使用的是 Fable)、基准测试成绩(SWE-Bench Pro 80.3% 对 Opus 4.8 的 69.2 和 GPT-5.5 的 58.6,Hex 长时间分析史上首次突破 90%,Cognition FrontierCode 与 Hebbia 金融均居首,视觉方面无需辅助即可玩 Pokémon 的全新 SOTA)、它在长时间自主运行上的真正强项(在数百万 token 中保持专注、12 小时运行、Stripe 在一天内完成 5000 万行 Ruby 迁移、文件记忆使游戏任务提升约 Opus 4.8 的 3 倍)、价格与可用渠道(每 1M token $10/$50、1M 上下文与 128K 输出、6 月 9–22 日各方案内免费),与 Opus 4.8 的直接对比(标准 $5/$25 对 $10/$50、SWE-Bench Pro 领先 +11.1 个百分点),重头戏般的全新安全设计(网络、生化与蒸馏分类器只在危险时回退、触发率不到 5%、保留 Mythos 级别流量 30 天),以及发布前几天还警告 AI 太危险的背景。数字均引用自 Anthropic 公告与报道,可能变动。

AI如何拉大会社员之间的能力差距?正在转移的衡量轴、抬高下限与上限,以及如何不被甩在后面

AI如何拉大会社员之间的能力差距?正在转移的衡量轴、抬高下限与上限,以及如何不被甩在后面

"AI抢走你的工作"是耳熟能详的说法,但一种更日常的变化正在悄悄发生:在同一家公司、同一岗位的同事之间,产出的差距正慢慢拉大——因为人群分化成了会用AI的人和不用或不会用的人。本文依据最新调查数据,梳理AI如何拉大会社员之间的能力差距,而这并非"聪明的人就赢"这么简单。它揭示:拉开差距的轴正从硬实力(知识、速度、经验)转向"会不会用好AI(AI素养)";AI同时存在两股相反的力量(在任务层面更多提升新手、压缩与老手的差距,而在整个职场,本就占优势者——高收入、资深岗位——更早更深入地采用AI,从而拉大差距);用数据看现状(某调查显示高收入者每天用AI超60%、低收入者仅16%,同岗位AI技能估算带来+56%薪资溢价,约39%的人感到过度依赖侵蚀能力——均为引用且因调查而异);4股拉大差距的力量(工具获取、时间与培训、试验自主权、学习意愿——前三股偏向资深岗位,唯独最后一股可由自己改变);三种类型(领先/原地踏步/被甩下,关键在于把省下的时间投向判断、规划与人);变成"会用却不思考"的过度依赖陷阱(把AI当粗稿去核实、别囫囵吞下);如何不被甩在后面(动手用、用在自己工作上、养成核实习惯、把省下的时间用于投资、分享、持续学习);以及组织视角(取得ROI的公司很少、层级间存在摩擦、要建立全员可学习的体系)。差距拉开在行动上的差别而非才能——这也令人充满希望,因为任何人今天就能开始学着用AI。

从零开始用AI在家赚钱的第一步——为家里蹲与啃老族准备的不见面起步法

从零开始用AI在家赚钱的第一步——为家里蹲与啃老族准备的不见面起步法

出门很难,跟人说话很吃力,现在也没有在工作——即便如此,把"在家、不见任何人、按自己的节奏"变成收入的机会,也随着AI实实在在地变宽了。这篇面向特定读者的指南,会尽可能诚实而温和地,为身为家里蹲(足不出户的隐居者)或啃老族的人,整理出从零开始用AI在家赚钱的第一步。文章首先约定不说"任何人都能轻松月入数千"(这通常是谎言或销售诱饵),并坦然写出现实的难度、所需时间与注意事项。内容涵盖:为何AI×居家很合适(不用见面就能完成、容易从零开始、按自己的节奏——AI作为伙伴降低那道墙);三个诚实的事实(不会立刻赚到钱,第一个目标是最初的几美元;AI是努力的放大器而非魔法,任何东西乘以零都是零;坚持下去的人、而非聪明的人才有成果);不用跟人说话也能赚钱的方式(写作、转写/字幕、AI图像素材、数据整理、翻译检查、数字产品——先选定一个);今天就能迈出的第一步(接触免费AI、选定一个领域、做一件练习作品——先做出东西再赚钱);如何积累小小的成功(作品集、一件低报酬活儿、积累评价、提高单价与接单量——收集成功而非金额,第一份工作最珍贵);如何坚持下去并保护好自己的心(不比较、把目标拆小、休息也没关系、放下完美主义、不要独自承担——就业支援与咨询服务);以及关于骗局/夸大宣传、完全交给AI的风险、税务/被扶养的注意事项(避开先掏钱的招揽、正规众包免费、查阅官方信息)。这不是"任何人都能轻松做到",但"连你也能迈出的一步"确实存在——请一点一点地找回"原来我也能做到"。

AI 智能体安全事故会发生什么?权限、泄露、误操作的基础

AI 智能体安全事故会发生什么?权限、泄露、误操作的基础

只要吩咐 AI 智能体"读一下这封邮件并回复",它就会自己思考、调用工具,真正把工作做完——但正因为它会自主行动,一类聊天型 AI 从未有过的事故也变得可能,到了 2026 年,这种危险开始从理论走向现实中的实际损害。本篇新手指南把 AI 智能体的安全事故归为三大类:权限、泄露、误操作。内容涵盖事故为何会发生(智能体不只是回答,而是会行动——这是关键词;可比作才华横溢但容易上当的新员工)、为什么智能体比聊天型 AI 风险更高(使用工具、自主运行、读取外部输入三者的相乘;OWASP 在 2026 年整理了智能体特有的风险并提倡"最小自主权")、事故1 权限(过度自主——只需读取却拥有发送/删除权限、继承人类账号的强大权限、失控时损害膨胀,以及一个成本优化智能体删除备份的报告案例)、事故2 泄露(把指令埋进外部内容的间接提示注入——报告中的真实案例:公开 Reddit 帖子里的不可见文字泄露一次性密码、客服工单中的隐藏指令经由 MCP 窃取 SQL 数据、IDE 智能体仅打开文档就窃取机密)、事故3 误操作(即使没有恶意也会发生的破坏性操作和错误连锁)、4 步攻击流程、五条基本防御(最小权限、人工审批、沙箱、设定边界、不信任外部输入),以及新手检查清单。座右铭:不要交出过多权力,让人工把危险操作拦下,不要过度信任外部文字。

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

输入一段文字,几秒钟就诞生一段带声音的视频——这在不久前还是科幻情节,到了 2026 年却变成现实,而局势正以惊人速度变化。曾主导话题的 OpenAI 的 Sora 已于 2026 年 4 月关停 App 与网页版(API 也将在 9 月跟进),取而代之的是 Google Veo、Kling 与 Runway 占据领先。这份截至当前(2026 年 6 月)、与具体工具无关的指南,涵盖什么是 AI 视频生成(从文字或图片生成动态影像,音频同步、1080p–4K 与图生视频已成标准)、2026 年的格局(Sora 关停——据报道背景为算力与成本压力及用户减少——以及当前领先者 Google Veo 3.1、Kling 3.0、Runway Gen-4.5,按秒计费为常态)、原理(扩散模型扩展到时间维度;文生视频与图生视频)、通用的 5 步流程(选工具、提示词/图片、设置时长/画幅/音频、生成并挑选、在剪辑中拼接)、核心的视频提示词技巧(主体 + 运动 + 运镜 + 风格 + 时长 + 音频,动词与运镜是关键,一镜一动、善用图生视频、多生成再挑选)、现在能做什么与还做不到什么(一次性做长片与完全一致性仍困难,按秒成本会累积),以及权利、水印与伦理要点(SynthID 与 C2PA 让 AI 来源标记成为无法移除的标准,纯 AI 输出受保护弱且各国有差异,商用取决于条款,真实人物的深度伪造是禁区)。不要追求一次性做出长片,而要做镜头再在剪辑中拼接。由于该领域变化迅速,请始终通过官方渠道确认最新信息。

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

"我不会画画,所以这跟我没关系"——这种对 AI 图像生成的成见恰恰说反了。只要用语言下达指令,几秒钟后你就能得到专业级的视觉作品。本篇跨工具指南讲解:什么是 AI 图像生成(用语言从零做出图像——考验的是表达沟通而非绘画的本领,可谓图像版的提示词工程);它的原理(扩散模型以你的提示词为线索,从随机噪点中雕刻出一幅画,每次都从零绘制,所以结果会抖动);在任何工具中都通用的 4 步工作流(选择工具、写提示词、生成并挑选、修整并完成——迭代是前提);核心的 6 部分图像提示词结构(主体、场景/背景、风格、光线/色彩、构图/视角、技术参数)外加负面提示词与画面比例——不过 GPT Image 和 Imagen 偏好平实的句子,而 Stable Diffusion 系列则吃词语罗列和负面提示词;7 个精通技巧(多跑几次、一点一点加、参考图、局部重绘、固定种子、放大、保存好用的提示词);AI 不擅长什么(手、文字、一致性、精细准确度)及其应对;以及工作中必备的版权、商用和伦理要点(依据美国版权局和 2025 年 Thaler 判例,纯 AI 产出的保护很弱,且各国有别;商用取决于各工具的条款;深度伪造和未经许可模仿画风是禁区;像 DALL-E 的 C2PA 来源元数据这样的标注正在普及)。该选哪个工具以及各工具的具体操作,链接到对比、Midjourney 和 Stable Diffusion 等文章。了解结构、多跑几次、把词语一点一点加上去——任何人都能逼近自己想要的那张图。

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

同样的 AI、同样的问题,有人说它没用,另一个人却惊叹它能干得几乎过头——造成这种差距的真正原因,往往不是 AI 的能力,而是提示词是怎么写的。本文把这项技能,即提示词工程,整理成一份实用大全,让初学者也能立刻上手。内容涵盖:什么是提示词工程(设计并改进你对 AI 的指令的技能,不是代码而是如何把话说好的功夫)、改变结果的三大原则(要具体、给出背景、指定输出,外加"要做 X"胜过"不要做 Y")、核心的好提示词 6 个要素(角色、背景、指令、示例、格式、约束——COSTAR、RCOF 等主流框架共同列出的要素,并非每次都要全部用上)、7 个实用技巧(赋予角色、展示范例/few-shot、逐步推理、固定输出格式、用分隔符理清结构、别一次问太多、迭代——其中最强的是迭代)、一个 Before/After 示例、进阶技巧(思维链、自洽性、提示词链、ReAct——不过 o 系列和 Claude 扩展思考这类推理模型会在内部执行 CoT,因此说清目标更管用)、7 个常见误区,以及各模型小窍门与输入安全。文内附有指向应用开发提示词技巧和输入注意事项的内部链接。把含糊变具体,把一股脑变对话——任何人今天就能开始进步。

什么是技术奇点?面向初学者的入门指南——机制、预测,以及它与 AGI 的区别

什么是技术奇点?面向初学者的入门指南——机制、预测,以及它与 AGI 的区别

2025 年 6 月,OpenAI 的 Sam Altman 在博客上写道:"我们已越过事件视界,起飞已经开始"(《温和的奇点》)。然而另一些研究者却干脆把这一想法斥为永远不会到来的东西。这篇初学者指南讲清:奇点(技术奇点)是"AI 超越人类智能并开始自我改进,从而使进步快得爆炸、再也无法被预测或控制的临界点"(截至 2026 年仍是假设,尚未实现)。文章涵盖其核心——智能爆炸 = 递归式自我改进,聪明的 AI 打造出更聪明的 AI,改进者从人类变成 AI;它与 AGI 和 ASI 有何不同(AGI/ASI 是智能的"状态",奇点是变得不可预测的"事件";AGI → 自我改进 → 骤然跃升至 ASI = 奇点);这个词的历史(I. J. Good 1965 年的"智能爆炸"→ Vinge 1993 年让它流行 → Kurzweil 以"2045"使其主流化);预测的巨大分散(Kurzweil 说 2045、Altman 说"已经开始"、Vinge,以及 Gary Marcus 和已故 Paul Allen 的"复杂性刹车"等怀疑者);突然的硬起飞 vs 渐进的软起飞;希望(疾病与科学上的突破)与风险(失控、对齐问题);深刻的怀疑(复杂性刹车、物理极限、完全是另一回事);以及"机器人统治""AGI 一到来就立刻发生""已确定在 2045 年"等常见误解。既不过度恐惧,也不过度幻想——充分用好今天的 AI,同时冷静地观望接下来可能到来的东西。

AI对律师、会计师与税务顾问的影响:什么会变,什么不变

AI对律师、会计师与税务顾问的影响:什么会变,什么不变

2023年,一位律师因一份由ChatGPT撰写的书状引用的判例全是AI捏造而受到制裁——这起事件在全球散播了对法律与AI的警惕。然而短短几年内采用率便迅猛增长,据称超过90%的律师在日常工作中使用某种AI。作为继 #068(贸易公司)、#094(市场营销)、#097(咨询业)之后「按行业看AI影响」系列的最新一篇,本文概览专业领域:用数字看清现状(62%的律师称每周节省6–20%的时间;Harvey与Thomson Reuters的CoCounsel在2026年第一季度处理了超过1000万份法律文件;税务/会计/审计事务所的生成式AI使用从2024年的8%升至2025年的21%;一项Stanford研究显示会计等领域初级职位较2022年下降13%,会计师+5%、记账员-5%)、AI按职业改变的工作(律师=判例检索、合同审查、义务提取;会计师=记账、凭证核对、抽样、风险识别;税务顾问=数据录入、起草报税表、法规检索——AI做基础工作,人类做最终决定)、幻觉这一最大陷阱(编造不存在的判例/法规——导致制裁和信任丧失;Harvey宣称引用核实准确率99.7%并标记其余,CoCounsel以判例数据库为依据故只引用真实判例)、不变的本质价值(最终判断、职业怀疑精神、伦理、灰色税务判断,以及决定性的、无法交给AI的签字与法律责任)、新人危机(学徒式日常工作的自动化)与新角色(AI合规官、税务提示工程师),以及面向执业者、立志者和客户的按立场建议(对照一手资料核实引用和数字;确认机密信息的处理)。监管与责任因国家而异;在日本,会计软件中的AI功能也已普及。AI抛出的问题:你出售的是工作,还是判断与责任?

Claude Code 的 /loop 命令是什么?用法、轮询与调度功能对比

Claude Code 的 /loop 命令是什么?用法、轮询与调度功能对比

"构建完成了就告诉我。""CI 变红了就修好它。""每 5 分钟盯一下部署。"把这些需要一直盯着的杂活整个交给 AI,正是 2026 年加入 Claude Code 的 /loop 命令所实现的。本初学者指南先讲清 /loop 是一个作用于会话范围的调度器,按你设定的(或 AI 设定的)间隔反复运行一段提示词或斜杠命令,然后讲解四种用法(① /loop 5m X = 固定 cron 间隔 ② /loop X = 由 AI 判断间隔的自适应节奏 ③ /loop 15m = 内置维护提示词 ④ /loop = 自动维护)、如何书写间隔(数字 + 单位 s/m/h/d、最小 1 分钟、像 "every 2 hours" 这样的自然语言,还可以循环斜杠命令:/loop 20m /review-pr 1234)、自适应节奏的厉害之处(活跃时等得短、安静时等得长、介于 1 分钟到 1 小时之间,而且——与单纯 cron 不同——判断任务完成后会自动结束循环)、实用配方(监视 CI/部署、照看 PR、检查耗时构建、提醒、分支自动维护)、如何停止以及注意事项(用 Esc 停止、作用于会话范围所以新对话会清除、关闭终端会停止、固定间隔最长 7 天、每个会话最多 50 个任务、在回合之间带抖动触发、本地时区)、三种调度功能如何取舍(/loop 用于会话内监视、Desktop scheduled tasks 用于常驻的本地工作、Routines 用于无人值守的云端运维),以及 loop.md 自定义和通过 CLAUDE_CODE_DISABLE_CRON=1 禁用——全部基于官方文档(截至 2026 年)。/loop 改变的,是你能交给 AI 的工作的时间轴。

如何用 AI 从视频/音频生成字幕和转写稿

如何用 AI 从视频/音频生成字幕和转写稿

给一小时的视频手动配字幕,过去要耗掉整整一天——听、暂停、敲字、对齐时间码。到了 2026 年,这种地狱只需"把视频丢进去,等几分钟"就完成了。本文聚焦于为视频和音频内容配字幕/转写(会议纪要见 #086,图片 OCR 见 #091),逐一讲解:AI 自动化的四个阶段(提取音频 → 含说话人分离的转写 → 加时间码生成 SRT/VTT → 翻译与排版);字幕(SRT/VTT)与转写稿的区别及各自的用途;工具对比(免费又保密的 Whisper、整体编辑的 Descript、高准确率多语言的 Sonix 与 Happy Scribe、对个人友好的 Notta、移动端 CapCut、最省事的 YouTube 自动字幕——许多底层都用 Whisper 系识别);最可复用的 4 步流程(准备 → 转写 → 校对 → 导出/挂载 SRT/VTT);按场景推荐(YouTube、播客、讲座、采访、机密、多语言);以音质占八成的六个准确率技巧(音质、语言设置、专有名词清单、查找替换、说话人分离、行长);多语言康庄大道(打磨原语言 → AI 翻译 → 母语者审校);以及易踩的坑——过度信任准确率、对噪声与术语吃力、版权、机密上传、时间码漂移。干净音频上准确率为 90~96%(已公布、视条件而定),人力下降 80~90%。工作交给 AI;收尾——核对专有名词、从头看一遍——交给你。

按分类浏览

GitHub Copilot

查看全部

Midjourney

查看全部

Stable Diffusion

查看全部

新手入门

查看全部

AI开发与编程

查看全部

开发环境与基础设施

查看全部

AI代理与自动化

查看全部

工作效率

查看全部

数据分析

查看全部

学习与教育

查看全部

副业与变现

查看全部

游戏开发

查看全部

AI安全与治理

查看全部

AI风险与社会影响

查看全部