跳到内容
主题

新手入门

AI新手?从这里开始。面向初学者的AI概念、工具选择和实践入门指南。

115 篇文章

排序文章以找到您需要的内容

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

什么是 AGI(通用人工智能)?一篇面向初学者的入门指南

2026 年 1 月的达沃斯论坛上,这一领域最顶尖的头脑围绕"AGI 近在眼前"与"其本质仍然遥远"激烈交锋——导火索正是 AGI(通用人工智能)。本文面向初学者,先从 AGI 是什么讲起——"一种像人类那样、能在任何领域自主学习并解决全新事物的万能型 AI"(不过截至 2026 年它仍是一个尚未实现的目标)——再梳理它与如今 ChatGPT 那类窄域 AI 的决定性区别(能否把知识"迁移"到不同领域;泛化与自主习得技能)、窄域 AI → AGI → ASI(超级智能)的三阶段拆解、专家时间线预测的巨大离散(Anthropic 的 Amodei 乐观地认为在几年内/2027 年前后,DeepMind 的 Hassabis 谨慎地认为到 2030 年约 50%,研究者调查中位数为 2047 年,Marcus 等怀疑派则认为遥远或不会到来——这种离散源于定义不同)、如今的 AI 还有多远(在 ARC-AGI 上低于人类基线,但凭借多模态与智能体正向门口逼近)、所期待的益处(加速疾病研究与科学)与风险(就业、滥用、对齐问题——被 Anthropic 与 UK AISI 定位为关键的决策节点),以及"ChatGPT 已经是 AGI 了""AGI = 具有意识"等常见误解。既不过度恐惧,也不过度幻想,在冷静观望接下来会发生什么的同时,先把手中的窄域 AI 用透。

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

如何成为最前沿的 AI 工程师(AI 原生开发者):技能与路线图

你会站在被 AI 抢走工作的一边,还是驾驭 AI、一个人干十个人活的一边?在 2026 年,这就是工程师面前的岔路口。本文把成为"AI 原生开发者"(用 LLM、智能体、RAG 构建应用——与研究模型本身是两回事)当作一套可叠加、靠技能而非博士学位的体系,分三层讲解:① 不会变的地基(Python 作为 AI 开发主力语言、Git、命令行、HTTP/REST/JSON——在 AI 写代码的时代你仍然需要基础);② AI 原生的 5 项核心技能(提示词/上下文设计、作为企业级智能体中坚的 RAG、构建智能体、作为工具连接事实标准的 MCP,以及评估设计——再加上成本优化、护栏、可观测性);③ 大多数人会漏掉的拉开差距的一手——评估设计与上下文工程(会写评估是"真正用 LLM 动手做过"的最强信号,一份 AGENTS.md/CLAUDE.md 加一个小型评估集,就是从"辅助"跃迁到"原生"的关键)。文中还给出一份 8〜12 个月的路线图(地基 → LLM API/提示词 → 不靠框架亲手做 RAG → 智能体 + MCP → 评估 + 部署 + 发布)、一套部署作品胜过文凭的作品集策略、若干陷阱(教程沼泽、囤工具、忽视基础),以及市场/需求的数字(以美国为基准,地区差异很大)。分界线,在于你是否把 AI 当成一个系统来用。

AI 如何影响营销与广告:什么会变,什么不会变

AI 如何影响营销与广告:什么会变,什么不会变

2024 年底,Coca-Cola 用生成式 AI 制作的圣诞广告被批「没有灵魂」,这象征了 AI 给营销带来的拉锯战:「效率与效果」对「信任与情感」。本文先用数字看清现状(约 87% 的营销人使用生成式 AI,相比 2024 年的 51% 跃升;超过 71% 的广告支出由算法驱动;仅 2025 年第四季度 Google 就用 Gemini 制作了约 7000 万个创意素材;营销 AI 工具支出在 18 个月内约翻三倍)。文章涵盖 AI 改变的五大领域(① 内容创作 ② 广告创意 ③ 定向与投放/程序化 ④ 个性化/DCO ⑤ 分析与衡量)与报告中的效果(DCO 带来约 32% 更高 CTR、约 56% 更低 CPC,AI 文案 3.2 倍 ROI,第一方/情境定向高达 2 倍 ROAS——全部为公开发布值、依条件而定);不会改变的核心(战略、品牌、信任、突破性创意留在人类手中——AI 是放大器,底数为零答案也为零);SEO/AEO/LLMO 的地壳变动(附内部链接);风险(AI 广告上 82% 高管对 45% 消费者的认知落差、看似可信的捏造、品牌安全、权利/监管、无人看管的失控运行);营销人的工作如何转变(任务被拿走,判断变得更重;从生产者到总编辑兼战略家);以及从今天起的五步实践计划。AI 最大的影响是把人类的时间从做事中解放出来,用于决策。

用 AI 制作演示幻灯片:工具、流程与提示词

用 AI 制作演示幻灯片:工具、流程与提示词

明天一早就要汇报,幻灯片却还空着——可只要输入一行主题,几分钟后 20 页草稿幻灯片就排在眼前。这就是 2026 年的 AI 幻灯片。本指南把做幻灯片拆成三个阶段(结构、讲稿、设计),并梳理两种思路:一站式生成(丢个主题,全都生成)vs. 分工协作(先在 ChatGPT/Claude/Gemini 里敲定结构和讲稿,再让专用工具做设计)。文中对比了主流工具(生成快的 Gamma、原生 .pptx 不错乱的 PowerPoint 内置 Copilot、协作强的 Google Slides 用 Gemini、最好看的 Beautiful.ai、模板丰富的 Canva,以及 2026 年 5 月上线的 ChatGPT PowerPoint 插件——没有绝对冠军,按出口来选),给出最可复用的 5 步流程(结构 → 讲稿 → 倒进设计工具 → 核实数字和出处 → 导出 .pptx/Slides)、三段可直接复制的提示词(大纲、充实一页含备注、改写成适配设计工具的格式)、让幻灯片打动人的六个要点(一页一条信息、把文字砍掉一半等),以及陷阱——.pptx 版式错乱、初稿臃肿、看似可信的数据捏造、机密外发,还有工具关停(以 Tome 于 2025 年 4 月结束幻灯片功能为教训)。AI 是瞬间产出草稿的伙伴;删减和核实是人的工作。

用 AI 从图片中提取文字(OCR):完整指南

用 AI 从图片中提取文字(OCR):完整指南

一张手写便条、一张纸质收据、截图里的英文、照片中的招牌——那些你一直靠手敲的重新录入工作,到了 2026 年,借助 AI 几乎已全无必要。本指南从 AI OCR 与传统 OCR 的区别(逐字识别 vs. 按含义理解整页)讲起,再按场景梳理三种选择(通用聊天 AI/Google Lens 等专用工具/Mistral OCR、PaddleOCR-VL 等 API 与开源)。文章对比 ChatGPT(GPT-5.5)、Gemini 3.1 Pro 和 Claude(Opus 4.8)的强项(手写 → GPT 系列、表格结构化 → Claude 系列、多页 → Gemini 长上下文、纯 OCR → 专用模型;没有绝对冠军),给出三条可直接套用的提示词(无损转写、表格转 Markdown、收据转 JSON,均带「不得捏造」规则)、各场景的最佳选择(手写、收据、PDF、复杂表格、竖排/古字、公式和代码)、六个准确率技巧(图像质量占八成),以及 AI OCR 唯一最大的弱点——看似合理地捏造读不出的内容(金额、日期、姓名务必与原件核对)——还有关于机密外发、版权和训练使用的隐私注意事项。你可以交给 AI 的,只有「读」;确认这件事,留给亲眼看过原件的人。

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

向量 DB / RAG 实现指南——从 naive RAG 到生产环境

你已经懂了"什么是 RAG",可一旦动手搭建,答案却偏了——因为它依然是 naive RAG:随意切碎再做普通向量检索。作为第 030 篇文章的实现篇续篇,本文逐阶段讲解 2026 年的实用 RAG 流水线(聪明的 chunking、embedding、向量 DB、混合检索、reranking):chunking 策略(recursive 512 默认,semantic/structural/parent-child,Contextual Retrieval 据报告把检索失败最多减少 67%)、选择 embedding 模型(text-embedding-3-large 等)、六款向量 DB 对比(原型用 Chroma、有 Postgres 用 pgvector、低延迟的 Qdrant、全托管的 Pinecone、混合冠军 Weaviate、超大规模的 Milvus)、用 RRF 融合 BM25 + 稠密向量的混合检索、先 bi-encoder 后 cross-encoder 的 retrieve-then-rerank(Cohere/Voyage/BGE/Jina)、LlamaIndex(检索)vs LangChain/LangGraph(控制)的分工、为何 1M-token 窗口不会取代 RAG(lost in the middle、干扰),以及先建立 eval 集等生产化注意事项。

如何构建 AI 智能体——新手指南(无代码与代码)

如何构建 AI 智能体——新手指南(无代码与代码)

你已经知道"什么是 AI 智能体"——那么如何自己构建一个?在 2026 年,无代码工具靠拖拽就能在一个下午做出可运行的智能体,现代 SDK 也能用不到 100 行搭出实用的东西。作为"什么是 AI 智能体"的实践篇,本文涵盖内部构成(大脑 LLM + 指令 + 工具 + 记忆 + 自主循环)、两条路径(无代码 vs 代码)、通用的 5 步构建框架(界定问题、选择基座、编写指令、连接工具、小范围测试)、无代码工具对比(Dify 为完整平台、n8n 用于业务集成、Flowise 用于原型,以及最简单的 Custom GPT/Gemini Gems/Claude Projects)、代码框架对比(稳妥的 Claude Agent SDK/OpenAI Agents SDK、复杂控制的 LangGraph、角色协同的 CrewAI)、一个具体的实战示例(总结客服邮件再通知 Slack)、成本(平台约 $10-$50/月外加模型使用费)与周期参考,以及陷阱(不要把范围铺得太大、权限与失控控制、警惕只停留在 PoC)。对大多数人来说,先用无代码做一个才是正确之举。

ChatGPT vs Claude vs Gemini——按用途该如何选择

ChatGPT vs Claude vs Gemini——按用途该如何选择

"ChatGPT、Claude 还是 Gemini——我该订阅哪个?"在 2026 年,三者都在每月 $20 左右、都是一流水准,所以没有"就是它最强"的单一答案。正确的问题是"对你的用途来说哪个最合适"。基于跨来源的共识,本文涵盖基础信息(提供方、主力模型系列、免费/标准/高级价格)、性格差异(Claude=写作/分析/代码的匠人,ChatGPT=带生态与图像/语音的全能选手,Gemini=多模态、长上下文、Google 整合)、按用途的详细表格(写作、代码、通用、图像生成、语音、图像/PDF/视频理解、超长文本、Google 整合、调研、中文),如何按使用量挑选套餐,以及选不出一个时聪明的两工具组合(一个主轴+一个补短板)。领先者每隔几个月就轮换,所以与其追逐固定的"最强",不如各用所长,并用免费档在自己的任务上实测。

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 常见错误与对策 — 完整参考手册

Claude Code 突然报错停下——"重新登录""速率限制""prompt 太长""MCP 连不上",每个都去搜实在麻烦。本文把你常遇到的错误连同原因和"该敲的命令"一起整理成实用参考手册。先从最先敲的三个诊断命令开始(claude doctor 全面诊断、/status 看当前认证、/context 看上下文明细),再聚焦四大常见类别(用量/速率限制、上下文溢出、认证过期、MCP 连接失败),以症状→原因→对策命令的表格覆盖认证与登录、用量/速率限制(Claude Code 消耗的 token 是聊天的 10-100 倍)、上下文与 token(prompt 太长、压缩反复)、服务器与模型(500/529/超时/找不到模型)、安装/PATH/更新、网络与代理(ECONNREFUSED、TLS)、MCP、权限(deny 胜过 bypass)以及其他(thinking blocks 400、图片/PDF、IDE)。最后附上错误→对策速查表和 FAQ。基于 Claude Code 官方文档(截至 2026 年):卡住时先敲三个诊断命令,若没修好就跑 claude update。

如何用 AI 自动生成会议纪要与转写

如何用 AI 自动生成会议纪要与转写

还在每周花一两个小时对着录音手动整理会议纪要?2026 年这些大多可以自动化。本文把纪要拆成四个阶段(录音 → 转写 → 摘要 → 提取决定事项/待办),对比两种思路(让 AI 列席的一体化工具,与录音 → 转写 AI → LLM 的自建组合),比较主流工具(Otter、Notta、Fireflies、tl;dv、Fathom、Granola,准确率均标注为厂商宣称值),介绍 Zoom/Teams/Meet 的内置 AI,演示用 Whisper 加 ChatGPT/Claude/Gemini 的自建路线及"不要凭猜测填补空缺"的提示词示例,给出提升准确率的五个技巧(音频质量、专有名词词典、说话人分离、语言匹配、模板化提示词),并讲清隐私/同意与过度信任的注意事项。最后一道防线在于人:务必亲眼核对决定事项和待办。

Claude Code “无法检查拉取请求的状态”——原因与修复

Claude Code “无法检查拉取请求的状态”——原因与修复

你在 Claude Code 里刚完成一个功能,正要按下“Create PR”,却弹出一条红色横幅:“无法检查拉取请求的状态。此信息可能已过期。”这不是代码缺陷——只是 Claude Code 向 GitHub 请求获取最新 PR 状态时那一次失败了,通常只是无害的同步延迟。本文讲解这个错误的确切含义、Claude Code 如何查看你的 PR(通过 gh CLI 查询,并说明内部实现没有官方文档)、5 个根本原因(认证过期、还没推送/PR、网络/代理、权限范围不足、临时性)、从 gh auth status 开始的 4 步排查顺序、命令速查表(gh auth login/refresh/pr status 等)、如何判断“可能已过期”何时可忽略何时需处理、gh pr create 替代方案、防止再次发生的清单,以及 FAQ。原则:在怀疑代码之前,先怀疑与 GitHub 的连接。

Claude Code 'thinking blocks cannot be modified' 400 错误——原因与解决方法

Claude Code 'thinking blocks cannot be modified' 400 错误——原因与解决方法

在 Claude Code 工作时突然出现、之后无论输入什么都反复触发的错误:"API Error: 400 thinking or redacted_thinking blocks in the latest assistant message cannot be modified"。这是 Anthropic 官方仓库上有多个 issue 的已知缺陷,大多数情况并非用户用错。本文讲解错误含义、extended thinking 思考块与加密 signature 的机制、签名不匹配的五个主因(会话恢复缺陷、流式交错、修复逻辑失控、第三方代理、自建应用改动历史)、面向 Claude Code 用户的三种恢复方法(Esc×2/rewind、新会话 /clear、JSONL 修复工具)、最重要的永久性修复(更新到最新版)、面向 API/SDK 开发者的三条预防原则(原样往返、整块移除、防御性守卫)、三种相似错误的区分,以及防止再次发生的检查清单。