跳到内容
AI工具

其他AI

发现和对比新兴AI工具。评测、功能介绍和实用指南。

40 篇文章

排序文章以找到您需要的内容

AI 对咨询行业的冲击:什么会变、什么不变,以及如何生存

AI 对咨询行业的冲击:什么会变、什么不变,以及如何生存

咨询新人的成长仪式——通宵赶制 PPT、靠人工做没完没了的调研——正在崩裂。麦肯锡的「Lilli」能在几秒内扫描 10 万份以上文档并起草幻灯片;BCG 的「Deckster」一瞬间完成幻灯片美化;据一项分析,初级分析师约 80% 的调研与制作幻灯片工作都可能在几秒内被替代。作为继 #068(贸易公司)与 #094(营销)之后「分行业看 AI 影响」系列的下一篇,本文审视咨询业:用数字看现状(四大与战略咨询所自 2023 年以来向 AI 投入超 100 亿美元,PwC 三年投 10 亿美元,BCG 2025 年 144 亿美元营收约 25% = 约 36 亿美元来自 AI,HBS 一项针对 758 名 BCG 顾问的研究显示使用 AI 的人任务多 12.2%、快 25.1%、质量高 40% 以上)、AI 改变的五大领域(调研、PPT、分析、纪要,以及全新的 AI 战略服务——目前在大型公司是净就业创造者)、金字塔模型的崩塌(初级常规工作据某种说法约 80% 在几秒内被自动化;走向精干的「少数几人 + AI」团队,伴随人才管道的隐忧)、计费的剧变(生产率悖论——完成更快意味着在按小时计费下收费更少——以及 73% 客户更倾向按成果计费,推动转向按成果计费与固定价)、不变的本质性价值(界定问题、解读、判断、信任、执行——驾驭系统的顾问比系统本身更重要)、巨头如油轮 vs 精品所如快艇的两极分化(据估计小公司增长率最高可达 50%),以及面向有志者、从业者与客户企业的分角色建议。AI 抛出的问题是:你的价值是作业,还是判断?

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

2026 年 1 月的达沃斯论坛上,这一领域最顶尖的头脑围绕"AGI 近在眼前"与"其本质仍然遥远"激烈交锋——导火索正是 AGI(通用人工智能)。本文面向初学者,先从 AGI 是什么讲起——"一种像人类那样、能在任何领域自主学习并解决全新事物的万能型 AI"(不过截至 2026 年它仍是一个尚未实现的目标)——再梳理它与如今 ChatGPT 那类窄域 AI 的决定性区别(能否把知识"迁移"到不同领域;泛化与自主习得技能)、窄域 AI → AGI → ASI(超级智能)的三阶段拆解、专家时间线预测的巨大离散(Anthropic 的 Amodei 乐观地认为在几年内/2027 年前后,DeepMind 的 Hassabis 谨慎地认为到 2030 年约 50%,研究者调查中位数为 2047 年,Marcus 等怀疑派则认为遥远或不会到来——这种离散源于定义不同)、如今的 AI 还有多远(在 ARC-AGI 上低于人类基线,但凭借多模态与智能体正向门口逼近)、所期待的益处(加速疾病研究与科学)与风险(就业、滥用、对齐问题——被 Anthropic 与 UK AISI 定位为关键的决策节点),以及"ChatGPT 已经是 AGI 了""AGI = 具有意识"等常见误解。既不过度恐惧,也不过度幻想,在冷静观望接下来会发生什么的同时,先把手中的窄域 AI 用透。

AI 如何影响营销与广告:什么会变,什么不会变

AI 如何影响营销与广告:什么会变,什么不会变

2024 年底,Coca-Cola 用生成式 AI 制作的圣诞广告被批「没有灵魂」,这象征了 AI 给营销带来的拉锯战:「效率与效果」对「信任与情感」。本文先用数字看清现状(约 87% 的营销人使用生成式 AI,相比 2024 年的 51% 跃升;超过 71% 的广告支出由算法驱动;仅 2025 年第四季度 Google 就用 Gemini 制作了约 7000 万个创意素材;营销 AI 工具支出在 18 个月内约翻三倍)。文章涵盖 AI 改变的五大领域(① 内容创作 ② 广告创意 ③ 定向与投放/程序化 ④ 个性化/DCO ⑤ 分析与衡量)与报告中的效果(DCO 带来约 32% 更高 CTR、约 56% 更低 CPC,AI 文案 3.2 倍 ROI,第一方/情境定向高达 2 倍 ROAS——全部为公开发布值、依条件而定);不会改变的核心(战略、品牌、信任、突破性创意留在人类手中——AI 是放大器,底数为零答案也为零);SEO/AEO/LLMO 的地壳变动(附内部链接);风险(AI 广告上 82% 高管对 45% 消费者的认知落差、看似可信的捏造、品牌安全、权利/监管、无人看管的失控运行);营销人的工作如何转变(任务被拿走,判断变得更重;从生产者到总编辑兼战略家);以及从今天起的五步实践计划。AI 最大的影响是把人类的时间从做事中解放出来,用于决策。

用 AI 制作演示幻灯片:工具、流程与提示词

用 AI 制作演示幻灯片:工具、流程与提示词

明天一早就要汇报,幻灯片却还空着——可只要输入一行主题,几分钟后 20 页草稿幻灯片就排在眼前。这就是 2026 年的 AI 幻灯片。本指南把做幻灯片拆成三个阶段(结构、讲稿、设计),并梳理两种思路:一站式生成(丢个主题,全都生成)vs. 分工协作(先在 ChatGPT/Claude/Gemini 里敲定结构和讲稿,再让专用工具做设计)。文中对比了主流工具(生成快的 Gamma、原生 .pptx 不错乱的 PowerPoint 内置 Copilot、协作强的 Google Slides 用 Gemini、最好看的 Beautiful.ai、模板丰富的 Canva,以及 2026 年 5 月上线的 ChatGPT PowerPoint 插件——没有绝对冠军,按出口来选),给出最可复用的 5 步流程(结构 → 讲稿 → 倒进设计工具 → 核实数字和出处 → 导出 .pptx/Slides)、三段可直接复制的提示词(大纲、充实一页含备注、改写成适配设计工具的格式)、让幻灯片打动人的六个要点(一页一条信息、把文字砍掉一半等),以及陷阱——.pptx 版式错乱、初稿臃肿、看似可信的数据捏造、机密外发,还有工具关停(以 Tome 于 2025 年 4 月结束幻灯片功能为教训)。AI 是瞬间产出草稿的伙伴;删减和核实是人的工作。

用 AI 从图片中提取文字(OCR):完整指南

用 AI 从图片中提取文字(OCR):完整指南

一张手写便条、一张纸质收据、截图里的英文、照片中的招牌——那些你一直靠手敲的重新录入工作,到了 2026 年,借助 AI 几乎已全无必要。本指南从 AI OCR 与传统 OCR 的区别(逐字识别 vs. 按含义理解整页)讲起,再按场景梳理三种选择(通用聊天 AI/Google Lens 等专用工具/Mistral OCR、PaddleOCR-VL 等 API 与开源)。文章对比 ChatGPT(GPT-5.5)、Gemini 3.1 Pro 和 Claude(Opus 4.8)的强项(手写 → GPT 系列、表格结构化 → Claude 系列、多页 → Gemini 长上下文、纯 OCR → 专用模型;没有绝对冠军),给出三条可直接套用的提示词(无损转写、表格转 Markdown、收据转 JSON,均带「不得捏造」规则)、各场景的最佳选择(手写、收据、PDF、复杂表格、竖排/古字、公式和代码)、六个准确率技巧(图像质量占八成),以及 AI OCR 唯一最大的弱点——看似合理地捏造读不出的内容(金额、日期、姓名务必与原件核对)——还有关于机密外发、版权和训练使用的隐私注意事项。你可以交给 AI 的,只有「读」;确认这件事,留给亲眼看过原件的人。

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

你已经懂了"什么是 RAG",可一旦动手搭建,答案却偏了——因为它依然是 naive RAG:随意切碎再做普通向量检索。作为第 030 篇文章的实现篇续篇,本文逐阶段讲解 2026 年的实用 RAG 流水线(聪明的 chunking、embedding、向量 DB、混合检索、reranking):chunking 策略(recursive 512 默认,semantic/structural/parent-child,Contextual Retrieval 据报告把检索失败最多减少 67%)、选择 embedding 模型(text-embedding-3-large 等)、六款向量 DB 对比(原型用 Chroma、有 Postgres 用 pgvector、低延迟的 Qdrant、全托管的 Pinecone、混合冠军 Weaviate、超大规模的 Milvus)、用 RRF 融合 BM25 + 稠密向量的混合检索、先 bi-encoder 后 cross-encoder 的 retrieve-then-rerank(Cohere/Voyage/BGE/Jina)、LlamaIndex(检索)vs LangChain/LangGraph(控制)的分工、为何 1M-token 窗口不会取代 RAG(lost in the middle、干扰),以及先建立 eval 集等生产化注意事项。

如何构建 AI 智能体——新手指南(无代码与代码)

如何构建 AI 智能体——新手指南(无代码与代码)

你已经知道"什么是 AI 智能体"——那么如何自己构建一个?在 2026 年,无代码工具靠拖拽就能在一个下午做出可运行的智能体,现代 SDK 也能用不到 100 行搭出实用的东西。作为"什么是 AI 智能体"的实践篇,本文涵盖内部构成(大脑 LLM + 指令 + 工具 + 记忆 + 自主循环)、两条路径(无代码 vs 代码)、通用的 5 步构建框架(界定问题、选择基座、编写指令、连接工具、小范围测试)、无代码工具对比(Dify 为完整平台、n8n 用于业务集成、Flowise 用于原型,以及最简单的 Custom GPT/Gemini Gems/Claude Projects)、代码框架对比(稳妥的 Claude Agent SDK/OpenAI Agents SDK、复杂控制的 LangGraph、角色协同的 CrewAI)、一个具体的实战示例(总结客服邮件再通知 Slack)、成本(平台约 $10-$50/月外加模型使用费)与周期参考,以及陷阱(不要把范围铺得太大、权限与失控控制、警惕只停留在 PoC)。对大多数人来说,先用无代码做一个才是正确之举。

ChatGPT vs Claude vs Gemini——按用途该如何选择

ChatGPT vs Claude vs Gemini——按用途该如何选择

"ChatGPT、Claude 还是 Gemini——我该订阅哪个?"在 2026 年,三者都在每月 $20 左右、都是一流水准,所以没有"就是它最强"的单一答案。正确的问题是"对你的用途来说哪个最合适"。基于跨来源的共识,本文涵盖基础信息(提供方、主力模型系列、免费/标准/高级价格)、性格差异(Claude=写作/分析/代码的匠人,ChatGPT=带生态与图像/语音的全能选手,Gemini=多模态、长上下文、Google 整合)、按用途的详细表格(写作、代码、通用、图像生成、语音、图像/PDF/视频理解、超长文本、Google 整合、调研、中文),如何按使用量挑选套餐,以及选不出一个时聪明的两工具组合(一个主轴+一个补短板)。领先者每隔几个月就轮换,所以与其追逐固定的"最强",不如各用所长,并用免费档在自己的任务上实测。

如何用 AI 自动生成会议纪要与转写

如何用 AI 自动生成会议纪要与转写

还在每周花一两个小时对着录音手动整理会议纪要?2026 年这些大多可以自动化。本文把纪要拆成四个阶段(录音 → 转写 → 摘要 → 提取决定事项/待办),对比两种思路(让 AI 列席的一体化工具,与录音 → 转写 AI → LLM 的自建组合),比较主流工具(Otter、Notta、Fireflies、tl;dv、Fathom、Granola,准确率均标注为厂商宣称值),介绍 Zoom/Teams/Meet 的内置 AI,演示用 Whisper 加 ChatGPT/Claude/Gemini 的自建路线及"不要凭猜测填补空缺"的提示词示例,给出提升准确率的五个技巧(音频质量、专有名词词典、说话人分离、语言匹配、模板化提示词),并讲清隐私/同意与过度信任的注意事项。最后一道防线在于人:务必亲眼核对决定事项和待办。

Cursor vs Claude Code vs GitHub Copilot vs Codex —— 四强工具怎么选

Cursor vs Claude Code vs GitHub Copilot vs Codex —— 四强工具怎么选

2026年,AI 编程工具的四强格局逐渐清晰——Cursor、Claude Code、GitHub Copilot 和 Codex。但把它们排成一列、试图评出唯一赢家只会让你选错,因为这四款属于不同类型。本文先点明关键——类型差异(Cursor = AI 编辑器,Copilot = IDE 集成插件,Claude Code = 本地 CLI 智能体,Codex = 云端异步智能体)——再讲清每款工具的真面目、同维度规格表(类型、入门与顶级价格、模型、上下文、强项)、如何解读2026年从固定月费转向"额度 + 按量(积分)"的变化、按你的类型推荐(省心 = Copilot $10+,编辑器体验 = Cursor,繁重多文件作业 = Claude Code,异步批处理 = Codex)、有能力开发者常用的"一款 IDE 侧 + 一款终端智能体"组合,以及关于价格与基准测试的如实提醒——全部基于官方资料与多家媒体。

多语言翻译该选 Claude Code 还是 Codex——附最佳模型推荐(2026)

多语言翻译该选 Claude Code 还是 Codex——附最佳模型推荐(2026)

"我想把文档翻译成多种语言。Claude Code 还是 Codex?"这个问题藏着陷阱:两者都不是翻译引擎——它们是智能体型的 CLI 工作环境,真正产出文本的是背后的模型。本文把问题拆为两个维度:工作环境(工具选择)和翻译质量(模型选择)。在工具一侧,Claude Code 凭借对本地文件的直接访问、1M token 上下文,以及强大的多文件一致编辑,适合仓库翻译;而 Codex(异步云端、PR 自动化、开源 CLI)适合放手批处理。在模型一侧,以 Anthropic 官方的各语言对英语相对分数(西班牙语 98.1% 直至日语 96.9%)作为一手数据,梳理出这些倾向:长文档语气一致性看 Claude,GPT-5.5 系列看自然度和惯用语,Gemini 3.1 Pro / Flash 系列看对低资源语言和方言的广度覆盖。文章还附上按语言/按用途的表格、翻译流水线的 5 条铁律(术语表、并行运行等),以及"基准不等于真实翻译质量"等诚实的注意事项——全部对应 2026 年的现状。

Claude Opus 4.8 发布——功能、基准测试与价格全解析

Claude Opus 4.8 发布——功能、基准测试与价格全解析

2026 年 5 月 28 日,Anthropic 在距前一代仅两个月时发布了 Claude Opus 4.8。这次的主角不是基准测试的提升,而是「变得更诚实」。本文基于 Anthropic 官方公告与系统卡,覆盖核心规格(claude-opus-4-8、1M tokens、128K 最大输出)、与 4.7 的正面基准对比(SWE-bench Pro 64.3 到 69.2%、USAMO 2026 69.3 到 96.7%、GraphWalks 1M 40.3 到 68.1%,而 GPQA Diamond 略有下滑)、价格(标准持平加上 fast mode 约快 2.5 倍、实际价格只有三分之一)、三项新功能(四级 effort 参数与自适应思考、可在研究预览中启动数十到数百并行子智能体的 dynamic workflows,以及 Messages API 中的 system 条目)、最大的跃升——诚实(无批判报告有缺陷结果为 0%、过度自信降低 10 倍、代码缺陷漏报约为四分之一)——以及值得诚实说明的退步(抗提示注入能力 6.0 到 9.6%、多语言并非领先),还有谁应该现在就升级。