其他AI工具评测与对比指南【2026】

LoRA 是什么？用一点点额外训练定制 AI

把庞大的 AI 从头重新训练太贵，但你又想为自己稍作调整；LoRA（Low-Rank Adaptation）通过冻结原始模型、只训练一个极小的附加部件（适配器），把可训练参数削减约 90%，实现了这个愿望。LoRA 让微调大幅更便宜、更快，并在 Stable Diffusion 等图像生成中作为添加角色或画风的小文件极受欢迎。本文用补丁的比喻来讲解。LoRA 是参数高效微调（PEFT）的代表：把庞大的原始权重冻结，在每一层插入一个小的附加矩阵，只训练它（W = W0 + BA，其中 W0 被冻结，BA 是新增的那一小部分）。它建立在这样一个发现之上：调整 AI 并不需要大的改动，低秩就足够。优势：可训练参数减少约 90%（在 GPT-3 规模下据报道少 10,000x）、更省 GPU 内存（约少 3x）、训练更快更便宜、合并适配器后不增加推理延迟、更不易过拟合。它最大的优势是适配器可更换：保留一个通用底座，按用途即时更换小巧的（几 MB）LoRA 文件（客户支持、公司语气、某个特定角色）。很多人第一次接触 LoRA 是在图像生成中，Stable Diffusion 上学会了角色、画风或主体的 LoRA 被广泛共享（添加画风、学会角色、轻巧易分享）。QLoRA 结合量化，在 4-bit 底座之上训练 LoRA，比标准 LoRA 省约 4x 内存，能在消费级 GPU（有时是 CPU）上微调庞大模型，且精度损失极小。相比全量微调（训练所有权重），LoRA 在训练的权重、成本、产出和适用场景上都不同；对大多数工作，LoRA 就足够。底座保持原样，风味小幅调出。文中数值引自公开资料，仅供参考。

2026/06/19

其他AI AI开发与编程新手入门

什么是量化？把 AI 模型缩小，在你自己的机器上运行

一个庞大的 70B 模型不再需要数据中心的 GPU 机架，而能在家里一台游戏 PC 上运行，这要归功于量化——它降低模型权重的数值精度，从而大幅缩小体积和内存。模型蒸馏是把知识转移到另一个更小的模型，而量化则是让同一个模型变轻。本文用照片压缩的比喻来讲解。量化把以 FP16/FP32 小数存储的权重替换成 INT8（8 位）或 INT4（4 位）整数，减少每个权重的字节数（FP32=4、INT8=1、INT4=0.5）；就像把 RAW 照片压成 JPEG，你牺牲一点点精度换来大幅减重，令人惊讶的是放弃的东西竟然这么少。在内存上，4-bit 约为 FP16 的四分之一：70B 模型从 ~140GB 降到 ~35GB，8B 模型在 4-bit 下约 ~4.5-5GB，能塞进中端 8GB VRAM 的 GPU 用于本地运行（LLM 的民主化）。在精度上，INT8 几乎无损，INT4 在一般问答/常识类任务上退化不到 4%，但在数学、代码生成和高难度推理上损失更明显（表现为困惑度小幅上升），所以要按任务选位宽。主要方法：GPTQ（精确 4-bit 的先驱）、AWQ（保护最重要的约 ~1% 权重，往往精度高 1-2% 且更快）、GGUF（llama.cpp/Ollama 格式，Q2_K-Q8_0，CPU+GPU 混合，用于本地）和 QLoRA（4-bit 基础加 LoRA，在消费级 GPU 上微调）。它与蒸馏（转移到另一个小模型）和微调（增添任务知识）不同，三者通常组合使用（量化蒸馏后的模型；在量化基础上微调）。开始时，用 Ollama 一条命令跑一个 GGUF 模型，按 VRAM 选 Q4/Q8，代码或精确计算避开 INT4。多数主流模型已以量化形式发布，下载即用。保留聪明，只去掉重量。文中数字引用自公开资料，仅供方向参考。

2026/06/19

其他AI AI开发与编程新手入门

什么是模型蒸馏？把大 AI 的知识转移到小 AI

庞大而高性能的 AI 聪明但又重又贵；模型蒸馏（知识蒸馏）通过把大教师模型的知识转移到小学生模型来解决这一问题，以十分之一的体积和速度保留教师 95% 以上的性能。本文用教师与学生的比喻讲解。关键在于软标签：普通训练只教"答案是猫"（硬标签），蒸馏则传递教师"90% 猫、8% 狗、2% 狐狸"这样的整个概率分布，其"犹豫程度"蕴含丰富信息；温度参数会软化概率以显现微妙关系（真实例子：GPT-4o mini 据说从 GPT-4o 蒸馏而来）。好处：又快又便宜、约 10 倍更紧凑且保留 95% 以上性能、可在边缘端运行、擅长用途专精。两种方式：白盒（完全访问权重和内部表示，转移更深，用于自家或 OSS 模型）与黑盒（只能看到输出/API 响应，把别家 API 当教师可能违反条款）。它与量化（压缩同一模型的权重精度）、微调（对现有模型针对任务追加训练）不同——蒸馏是把知识转移到另一个小模型，三者可组合。法律与 ToS 现实是 2026 年的重大议题：技术正当，但 OpenAI、Anthropic、Mistral、xAI 等都设有反蒸馏条款，禁止用输出打造竞争模型，因此用受限 API 蒸馏竞品可能违反条款。OpenAI 诉 DeepSeek 的纠纷（OpenAI 主张疑似 DeepSeek 相关账号绕过限制获取输出用于蒸馏，而 DeepSeek 条款据称允许蒸馏其输出）表明评估取决于适用谁的 API 条款，且 Claude Fable 5/Mythos 5 据报道会限制被判定为蒸馏的作业。要诀：用自家或已授权 OSS 模型当教师、用商用 API 前确认反蒸馏条款，并判断用途是否属于"开发竞争模型"。聪明靠大模型、运营靠小模型——但选谁当教师会改变技术与法律结果。数据引用自公开资料，仅供参考。

2026/06/19

其他AI AI开发与编程新手入门

什么是微调（fine-tuning）？微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

想把 AI 定制成自己公司专用时，微调（fine-tuning）是选项之一——但贸然上手，成本高、还容易出错。本初学者指南讲清微调：把一个已训练好的基础模型，用贴合你用途的数据再进一步训练，改造成专用模型，通过改写权重把「行为」（公司文风、输出格式、领域表达）刻进模型本身。微调擅长改变行为，却不擅长记住最新知识，所以原则是「事实和知识 → RAG，个性和模子 → 微调，提示词优先」。正如专家所说，「我们需要微调」里约有 80% 都能靠更好的检索（RAG）或提示词解决，所以顺序很重要。文章涵盖：什么是微调（新员工培训类比）、它擅长与不擅长什么、微调 vs RAG vs 提示词对比表、主要方法（全量微调、LoRA，以及对初学者足够轻量的 4-bit 量化 QLoRA）、你需要准备什么（500+ 条高质量样本作参考，构建数据才是真正的硬活；成本从 $5,000 到 $50,000 以上，OpenAI 微调约每百万训练 token $25–$100；OpenAI、Unsloth、Axolotl、Hugging Face 等工具），以及开始的顺序。微调是最后的手段。

2026/06/13

其他AI 开发环境与基础设施新手入门

如何运行本地LLM：在自己电脑上跑AI——给初学者的配置、工具与最佳模型

你大概以为LLM必须跑在云端，但到了2026年，把AI完全运行在自己电脑里——也就是"本地LLM"——已是切实可行的选择。本地LLM意味着把ChatGPT或Claude那样的模型直接运行在本机，而非云端。三大吸引力是：隐私（输入绝不离开设备）、零成本（没有API费用）和离线使用（断网也能跑）。短板则是：没有顶级云端AI那么聪明、需要一台还算给力的电脑、需要一点配置工作，且不掌握最新信息。本篇初学者指南讲清楚什么是本地LLM（用"流媒体 vs 下载"作类比）、优点与短板、所需配置与量化（GGUF格式，其中Q4_K_M是公认之选，在保留质量的同时把内存压到约四分之一；4-bit下每10亿参数约0.5 GB内存）、如何上手（面向初学者的LM Studio图形界面，面向开发者的Ollama命令行——2026年第一季度月下载量5200万）、2026年推荐模型（Llama 3.2 7B、Google Gemma 4、Alibaba Qwen3.5，以及DeepSeek和Mistral，皆为开放模型），以及本地与云端如何分工（机密、高频、离线的工作交给本地，难题交给云端）。最快的第一步：在LM Studio里跑一个3B–7B的小模型。

2026/06/13

Claude 其他AI 新手入门

Claude Fable 5 发布深度解读——功能、基准、价格、与 Mythos 的区别，以及全新的安全设计

2026 年 6 月 9 日，Anthropic 发布了 Claude Fable 5——首次以普通用户和开发者都能使用的形式，释放出内部长期被视为最强的前沿模型"Mythos"级别的能力。Anthropic 将其定位为面向大众提供的最强模型，宣传语为"为长时间、复杂的工作而打造"。本篇写得让初学者也能跟上，讲清 Fable 5 是什么（以安全形式向公众开放的 Mythos 级别能力，为跑完一场马拉松而非单次问答而优化；模型 ID 为 claude-fable-5）、它与孪生兄弟 Mythos 5 有何不同（内部完全相同，只有安全机制不同；公众使用的是 Fable）、基准测试成绩（SWE-Bench Pro 80.3% 对 Opus 4.8 的 69.2 和 GPT-5.5 的 58.6，Hex 长时间分析史上首次突破 90%，Cognition FrontierCode 与 Hebbia 金融均居首，视觉方面无需辅助即可玩 Pokémon 的全新 SOTA）、它在长时间自主运行上的真正强项（在数百万 token 中保持专注、12 小时运行、Stripe 在一天内完成 5000 万行 Ruby 迁移、文件记忆使游戏任务提升约 Opus 4.8 的 3 倍）、价格与可用渠道（每 1M token $10/$50、1M 上下文与 128K 输出、6 月 9–22 日各方案内免费），与 Opus 4.8 的直接对比（标准 $5/$25 对 $10/$50、SWE-Bench Pro 领先 +11.1 个百分点），重头戏般的全新安全设计（网络、生化与蒸馏分类器只在危险时回退、触发率不到 5%、保留 Mythos 级别流量 30 天），以及发布前几天还警告 AI 太危险的背景。数字均引用自 Anthropic 公告与报道，可能变动。

2026/06/10

其他AI 设计新手入门

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

输入一段文字，几秒钟就诞生一段带声音的视频——这在不久前还是科幻情节，到了 2026 年却变成现实，而局势正以惊人速度变化。曾主导话题的 OpenAI 的 Sora 已于 2026 年 4 月关停 App 与网页版（API 也将在 9 月跟进），取而代之的是 Google Veo、Kling 与 Runway 占据领先。这份截至当前（2026 年 6 月）、与具体工具无关的指南，涵盖什么是 AI 视频生成（从文字或图片生成动态影像，音频同步、1080p–4K 与图生视频已成标准）、2026 年的格局（Sora 关停——据报道背景为算力与成本压力及用户减少——以及当前领先者 Google Veo 3.1、Kling 3.0、Runway Gen-4.5，按秒计费为常态）、原理（扩散模型扩展到时间维度；文生视频与图生视频）、通用的 5 步流程（选工具、提示词/图片、设置时长/画幅/音频、生成并挑选、在剪辑中拼接）、核心的视频提示词技巧（主体 + 运动 + 运镜 + 风格 + 时长 + 音频，动词与运镜是关键，一镜一动、善用图生视频、多生成再挑选）、现在能做什么与还做不到什么（一次性做长片与完全一致性仍困难，按秒成本会累积），以及权利、水印与伦理要点（SynthID 与 C2PA 让 AI 来源标记成为无法移除的标准，纯 AI 输出受保护弱且各国有差异，商用取决于条款，真实人物的深度伪造是禁区）。不要追求一次性做出长片，而要做镜头再在剪辑中拼接。由于该领域变化迅速，请始终通过官方渠道确认最新信息。

2026/06/05

其他AI 设计新手入门

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

"我不会画画，所以这跟我没关系"——这种对 AI 图像生成的成见恰恰说反了。只要用语言下达指令，几秒钟后你就能得到专业级的视觉作品。本篇跨工具指南讲解：什么是 AI 图像生成（用语言从零做出图像——考验的是表达沟通而非绘画的本领，可谓图像版的提示词工程）；它的原理（扩散模型以你的提示词为线索，从随机噪点中雕刻出一幅画，每次都从零绘制，所以结果会抖动）；在任何工具中都通用的 4 步工作流（选择工具、写提示词、生成并挑选、修整并完成——迭代是前提）；核心的 6 部分图像提示词结构（主体、场景／背景、风格、光线／色彩、构图／视角、技术参数）外加负面提示词与画面比例——不过 GPT Image 和 Imagen 偏好平实的句子，而 Stable Diffusion 系列则吃词语罗列和负面提示词；7 个精通技巧（多跑几次、一点一点加、参考图、局部重绘、固定种子、放大、保存好用的提示词）；AI 不擅长什么（手、文字、一致性、精细准确度）及其应对；以及工作中必备的版权、商用和伦理要点（依据美国版权局和 2025 年 Thaler 判例，纯 AI 产出的保护很弱，且各国有别；商用取决于各工具的条款；深度伪造和未经许可模仿画风是禁区；像 DALL-E 的 C2PA 来源元数据这样的标注正在普及）。该选哪个工具以及各工具的具体操作，链接到对比、Midjourney 和 Stable Diffusion 等文章。了解结构、多跑几次、把词语一点一点加上去——任何人都能逼近自己想要的那张图。

2026/06/05

其他AI 工作效率新手入门

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

同样的 AI、同样的问题，有人说它没用，另一个人却惊叹它能干得几乎过头——造成这种差距的真正原因，往往不是 AI 的能力，而是提示词是怎么写的。本文把这项技能，即提示词工程，整理成一份实用大全，让初学者也能立刻上手。内容涵盖：什么是提示词工程（设计并改进你对 AI 的指令的技能，不是代码而是如何把话说好的功夫）、改变结果的三大原则（要具体、给出背景、指定输出，外加"要做 X"胜过"不要做 Y"）、核心的好提示词 6 个要素（角色、背景、指令、示例、格式、约束——COSTAR、RCOF 等主流框架共同列出的要素，并非每次都要全部用上）、7 个实用技巧（赋予角色、展示范例/few-shot、逐步推理、固定输出格式、用分隔符理清结构、别一次问太多、迭代——其中最强的是迭代）、一个 Before/After 示例、进阶技巧（思维链、自洽性、提示词链、ReAct——不过 o 系列和 Claude 扩展思考这类推理模型会在内部执行 CoT，因此说清目标更管用）、7 个常见误区，以及各模型小窍门与输入安全。文内附有指向应用开发提示词技巧和输入注意事项的内部链接。把含糊变具体，把一股脑变对话——任何人今天就能开始进步。

2026/06/05

其他AI 新手入门

什么是技术奇点？面向初学者的入门指南——机制、预测，以及它与 AGI 的区别

2025 年 6 月，OpenAI 的 Sam Altman 在博客上写道："我们已越过事件视界，起飞已经开始"（《温和的奇点》）。然而另一些研究者却干脆把这一想法斥为永远不会到来的东西。这篇初学者指南讲清：奇点（技术奇点）是"AI 超越人类智能并开始自我改进，从而使进步快得爆炸、再也无法被预测或控制的临界点"（截至 2026 年仍是假设，尚未实现）。文章涵盖其核心——智能爆炸 = 递归式自我改进，聪明的 AI 打造出更聪明的 AI，改进者从人类变成 AI；它与 AGI 和 ASI 有何不同（AGI/ASI 是智能的"状态"，奇点是变得不可预测的"事件"；AGI → 自我改进 → 骤然跃升至 ASI = 奇点）；这个词的历史（I. J. Good 1965 年的"智能爆炸"→ Vinge 1993 年让它流行 → Kurzweil 以"2045"使其主流化）；预测的巨大分散（Kurzweil 说 2045、Altman 说"已经开始"、Vinge，以及 Gary Marcus 和已故 Paul Allen 的"复杂性刹车"等怀疑者）；突然的硬起飞 vs 渐进的软起飞；希望（疾病与科学上的突破）与风险（失控、对齐问题）；深刻的怀疑（复杂性刹车、物理极限、完全是另一回事）；以及"机器人统治""AGI 一到来就立刻发生""已确定在 2045 年"等常见误解。既不过度恐惧，也不过度幻想——充分用好今天的 AI，同时冷静地观望接下来可能到来的东西。

2026/06/05

其他AI 工作效率新手入门

AI对律师、会计师与税务顾问的影响：什么会变，什么不变

2023年，一位律师因一份由ChatGPT撰写的书状引用的判例全是AI捏造而受到制裁——这起事件在全球散播了对法律与AI的警惕。然而短短几年内采用率便迅猛增长，据称超过90%的律师在日常工作中使用某种AI。作为继 #068（贸易公司）、#094（市场营销）、#097（咨询业）之后「按行业看AI影响」系列的最新一篇，本文概览专业领域：用数字看清现状（62%的律师称每周节省6–20%的时间；Harvey与Thomson Reuters的CoCounsel在2026年第一季度处理了超过1000万份法律文件；税务/会计/审计事务所的生成式AI使用从2024年的8%升至2025年的21%；一项Stanford研究显示会计等领域初级职位较2022年下降13%，会计师+5%、记账员-5%）、AI按职业改变的工作（律师＝判例检索、合同审查、义务提取；会计师＝记账、凭证核对、抽样、风险识别；税务顾问＝数据录入、起草报税表、法规检索——AI做基础工作，人类做最终决定）、幻觉这一最大陷阱（编造不存在的判例/法规——导致制裁和信任丧失；Harvey宣称引用核实准确率99.7%并标记其余，CoCounsel以判例数据库为依据故只引用真实判例）、不变的本质价值（最终判断、职业怀疑精神、伦理、灰色税务判断，以及决定性的、无法交给AI的签字与法律责任）、新人危机（学徒式日常工作的自动化）与新角色（AI合规官、税务提示工程师），以及面向执业者、立志者和客户的按立场建议（对照一手资料核实引用和数字；确认机密信息的处理）。监管与责任因国家而异；在日本，会计软件中的AI功能也已普及。AI抛出的问题：你出售的是工作，还是判断与责任？

2026/06/05

其他AI 工作效率新手入门

如何用 AI 从视频/音频生成字幕和转写稿

给一小时的视频手动配字幕，过去要耗掉整整一天——听、暂停、敲字、对齐时间码。到了 2026 年，这种地狱只需"把视频丢进去，等几分钟"就完成了。本文聚焦于为视频和音频内容配字幕/转写（会议纪要见 #086，图片 OCR 见 #091），逐一讲解：AI 自动化的四个阶段（提取音频 → 含说话人分离的转写 → 加时间码生成 SRT/VTT → 翻译与排版）；字幕（SRT/VTT）与转写稿的区别及各自的用途；工具对比（免费又保密的 Whisper、整体编辑的 Descript、高准确率多语言的 Sonix 与 Happy Scribe、对个人友好的 Notta、移动端 CapCut、最省事的 YouTube 自动字幕——许多底层都用 Whisper 系识别）；最可复用的 4 步流程（准备 → 转写 → 校对 → 导出/挂载 SRT/VTT）；按场景推荐（YouTube、播客、讲座、采访、机密、多语言）；以音质占八成的六个准确率技巧（音质、语言设置、专有名词清单、查找替换、说话人分离、行长）；多语言康庄大道（打磨原语言 → AI 翻译 → 母语者审校）；以及易踩的坑——过度信任准确率、对噪声与术语吃力、版权、机密上传、时间码漂移。干净音频上准确率为 90～96%（已公布、视条件而定），人力下降 80～90%。工作交给 AI；收尾——核对专有名词、从头看一遍——交给你。

2026/06/05