跳到内容
AI工具

其他AI

发现和对比新兴AI工具。评测、功能介绍和实用指南。

40 篇文章

排序文章以找到您需要的内容

LoRA 是什么?用一点点额外训练定制 AI

LoRA 是什么?用一点点额外训练定制 AI

把庞大的 AI 从头重新训练太贵,但你又想为自己稍作调整;LoRA(Low-Rank Adaptation)通过冻结原始模型、只训练一个极小的附加部件(适配器),把可训练参数削减约 90%,实现了这个愿望。LoRA 让微调大幅更便宜、更快,并在 Stable Diffusion 等图像生成中作为添加角色或画风的小文件极受欢迎。本文用补丁的比喻来讲解。LoRA 是参数高效微调(PEFT)的代表:把庞大的原始权重冻结,在每一层插入一个小的附加矩阵,只训练它(W = W0 + BA,其中 W0 被冻结,BA 是新增的那一小部分)。它建立在这样一个发现之上:调整 AI 并不需要大的改动,低秩就足够。优势:可训练参数减少约 90%(在 GPT-3 规模下据报道少 10,000x)、更省 GPU 内存(约少 3x)、训练更快更便宜、合并适配器后不增加推理延迟、更不易过拟合。它最大的优势是适配器可更换:保留一个通用底座,按用途即时更换小巧的(几 MB)LoRA 文件(客户支持、公司语气、某个特定角色)。很多人第一次接触 LoRA 是在图像生成中,Stable Diffusion 上学会了角色、画风或主体的 LoRA 被广泛共享(添加画风、学会角色、轻巧易分享)。QLoRA 结合量化,在 4-bit 底座之上训练 LoRA,比标准 LoRA 省约 4x 内存,能在消费级 GPU(有时是 CPU)上微调庞大模型,且精度损失极小。相比全量微调(训练所有权重),LoRA 在训练的权重、成本、产出和适用场景上都不同;对大多数工作,LoRA 就足够。底座保持原样,风味小幅调出。文中数值引自公开资料,仅供参考。

什么是量化?把 AI 模型缩小,在你自己的机器上运行

什么是量化?把 AI 模型缩小,在你自己的机器上运行

一个庞大的 70B 模型不再需要数据中心的 GPU 机架,而能在家里一台游戏 PC 上运行,这要归功于量化——它降低模型权重的数值精度,从而大幅缩小体积和内存。模型蒸馏是把知识转移到另一个更小的模型,而量化则是让同一个模型变轻。本文用照片压缩的比喻来讲解。量化把以 FP16/FP32 小数存储的权重替换成 INT8(8 位)或 INT4(4 位)整数,减少每个权重的字节数(FP32=4、INT8=1、INT4=0.5);就像把 RAW 照片压成 JPEG,你牺牲一点点精度换来大幅减重,令人惊讶的是放弃的东西竟然这么少。在内存上,4-bit 约为 FP16 的四分之一:70B 模型从 ~140GB 降到 ~35GB,8B 模型在 4-bit 下约 ~4.5-5GB,能塞进中端 8GB VRAM 的 GPU 用于本地运行(LLM 的民主化)。在精度上,INT8 几乎无损,INT4 在一般问答/常识类任务上退化不到 4%,但在数学、代码生成和高难度推理上损失更明显(表现为困惑度小幅上升),所以要按任务选位宽。主要方法:GPTQ(精确 4-bit 的先驱)、AWQ(保护最重要的约 ~1% 权重,往往精度高 1-2% 且更快)、GGUF(llama.cpp/Ollama 格式,Q2_K-Q8_0,CPU+GPU 混合,用于本地)和 QLoRA(4-bit 基础加 LoRA,在消费级 GPU 上微调)。它与蒸馏(转移到另一个小模型)和微调(增添任务知识)不同,三者通常组合使用(量化蒸馏后的模型;在量化基础上微调)。开始时,用 Ollama 一条命令跑一个 GGUF 模型,按 VRAM 选 Q4/Q8,代码或精确计算避开 INT4。多数主流模型已以量化形式发布,下载即用。保留聪明,只去掉重量。文中数字引用自公开资料,仅供方向参考。

什么是模型蒸馏?把大 AI 的知识转移到小 AI

什么是模型蒸馏?把大 AI 的知识转移到小 AI

庞大而高性能的 AI 聪明但又重又贵;模型蒸馏(知识蒸馏)通过把大教师模型的知识转移到小学生模型来解决这一问题,以十分之一的体积和速度保留教师 95% 以上的性能。本文用教师与学生的比喻讲解。关键在于软标签:普通训练只教"答案是猫"(硬标签),蒸馏则传递教师"90% 猫、8% 狗、2% 狐狸"这样的整个概率分布,其"犹豫程度"蕴含丰富信息;温度参数会软化概率以显现微妙关系(真实例子:GPT-4o mini 据说从 GPT-4o 蒸馏而来)。好处:又快又便宜、约 10 倍更紧凑且保留 95% 以上性能、可在边缘端运行、擅长用途专精。两种方式:白盒(完全访问权重和内部表示,转移更深,用于自家或 OSS 模型)与黑盒(只能看到输出/API 响应,把别家 API 当教师可能违反条款)。它与量化(压缩同一模型的权重精度)、微调(对现有模型针对任务追加训练)不同——蒸馏是把知识转移到另一个小模型,三者可组合。法律与 ToS 现实是 2026 年的重大议题:技术正当,但 OpenAI、Anthropic、Mistral、xAI 等都设有反蒸馏条款,禁止用输出打造竞争模型,因此用受限 API 蒸馏竞品可能违反条款。OpenAI 诉 DeepSeek 的纠纷(OpenAI 主张疑似 DeepSeek 相关账号绕过限制获取输出用于蒸馏,而 DeepSeek 条款据称允许蒸馏其输出)表明评估取决于适用谁的 API 条款,且 Claude Fable 5/Mythos 5 据报道会限制被判定为蒸馏的作业。要诀:用自家或已授权 OSS 模型当教师、用商用 API 前确认反蒸馏条款,并判断用途是否属于"开发竞争模型"。聪明靠大模型、运营靠小模型——但选谁当教师会改变技术与法律结果。数据引用自公开资料,仅供参考。

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

什么是微调(fine-tuning)?微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

想把 AI 定制成自己公司专用时,微调(fine-tuning)是选项之一——但贸然上手,成本高、还容易出错。本初学者指南讲清微调:把一个已训练好的基础模型,用贴合你用途的数据再进一步训练,改造成专用模型,通过改写权重把「行为」(公司文风、输出格式、领域表达)刻进模型本身。微调擅长改变行为,却不擅长记住最新知识,所以原则是「事实和知识 → RAG,个性和模子 → 微调,提示词优先」。正如专家所说,「我们需要微调」里约有 80% 都能靠更好的检索(RAG)或提示词解决,所以顺序很重要。文章涵盖:什么是微调(新员工培训类比)、它擅长与不擅长什么、微调 vs RAG vs 提示词对比表、主要方法(全量微调、LoRA,以及对初学者足够轻量的 4-bit 量化 QLoRA)、你需要准备什么(500+ 条高质量样本作参考,构建数据才是真正的硬活;成本从 $5,000 到 $50,000 以上,OpenAI 微调约每百万训练 token $25–$100;OpenAI、Unsloth、Axolotl、Hugging Face 等工具),以及开始的顺序。微调是最后的手段。

如何运行本地LLM:在自己电脑上跑AI——给初学者的配置、工具与最佳模型

如何运行本地LLM:在自己电脑上跑AI——给初学者的配置、工具与最佳模型

你大概以为LLM必须跑在云端,但到了2026年,把AI完全运行在自己电脑里——也就是"本地LLM"——已是切实可行的选择。本地LLM意味着把ChatGPT或Claude那样的模型直接运行在本机,而非云端。三大吸引力是:隐私(输入绝不离开设备)、零成本(没有API费用)和离线使用(断网也能跑)。短板则是:没有顶级云端AI那么聪明、需要一台还算给力的电脑、需要一点配置工作,且不掌握最新信息。本篇初学者指南讲清楚什么是本地LLM(用"流媒体 vs 下载"作类比)、优点与短板、所需配置与量化(GGUF格式,其中Q4_K_M是公认之选,在保留质量的同时把内存压到约四分之一;4-bit下每10亿参数约0.5 GB内存)、如何上手(面向初学者的LM Studio图形界面,面向开发者的Ollama命令行——2026年第一季度月下载量5200万)、2026年推荐模型(Llama 3.2 7B、Google Gemma 4、Alibaba Qwen3.5,以及DeepSeek和Mistral,皆为开放模型),以及本地与云端如何分工(机密、高频、离线的工作交给本地,难题交给云端)。最快的第一步:在LM Studio里跑一个3B–7B的小模型。

Claude Fable 5 发布深度解读——功能、基准、价格、与 Mythos 的区别,以及全新的安全设计

Claude Fable 5 发布深度解读——功能、基准、价格、与 Mythos 的区别,以及全新的安全设计

2026 年 6 月 9 日,Anthropic 发布了 Claude Fable 5——首次以普通用户和开发者都能使用的形式,释放出内部长期被视为最强的前沿模型"Mythos"级别的能力。Anthropic 将其定位为面向大众提供的最强模型,宣传语为"为长时间、复杂的工作而打造"。本篇写得让初学者也能跟上,讲清 Fable 5 是什么(以安全形式向公众开放的 Mythos 级别能力,为跑完一场马拉松而非单次问答而优化;模型 ID 为 claude-fable-5)、它与孪生兄弟 Mythos 5 有何不同(内部完全相同,只有安全机制不同;公众使用的是 Fable)、基准测试成绩(SWE-Bench Pro 80.3% 对 Opus 4.8 的 69.2 和 GPT-5.5 的 58.6,Hex 长时间分析史上首次突破 90%,Cognition FrontierCode 与 Hebbia 金融均居首,视觉方面无需辅助即可玩 Pokémon 的全新 SOTA)、它在长时间自主运行上的真正强项(在数百万 token 中保持专注、12 小时运行、Stripe 在一天内完成 5000 万行 Ruby 迁移、文件记忆使游戏任务提升约 Opus 4.8 的 3 倍)、价格与可用渠道(每 1M token $10/$50、1M 上下文与 128K 输出、6 月 9–22 日各方案内免费),与 Opus 4.8 的直接对比(标准 $5/$25 对 $10/$50、SWE-Bench Pro 领先 +11.1 个百分点),重头戏般的全新安全设计(网络、生化与蒸馏分类器只在危险时回退、触发率不到 5%、保留 Mythos 级别流量 30 天),以及发布前几天还警告 AI 太危险的背景。数字均引用自 Anthropic 公告与报道,可能变动。

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

输入一段文字,几秒钟就诞生一段带声音的视频——这在不久前还是科幻情节,到了 2026 年却变成现实,而局势正以惊人速度变化。曾主导话题的 OpenAI 的 Sora 已于 2026 年 4 月关停 App 与网页版(API 也将在 9 月跟进),取而代之的是 Google Veo、Kling 与 Runway 占据领先。这份截至当前(2026 年 6 月)、与具体工具无关的指南,涵盖什么是 AI 视频生成(从文字或图片生成动态影像,音频同步、1080p–4K 与图生视频已成标准)、2026 年的格局(Sora 关停——据报道背景为算力与成本压力及用户减少——以及当前领先者 Google Veo 3.1、Kling 3.0、Runway Gen-4.5,按秒计费为常态)、原理(扩散模型扩展到时间维度;文生视频与图生视频)、通用的 5 步流程(选工具、提示词/图片、设置时长/画幅/音频、生成并挑选、在剪辑中拼接)、核心的视频提示词技巧(主体 + 运动 + 运镜 + 风格 + 时长 + 音频,动词与运镜是关键,一镜一动、善用图生视频、多生成再挑选)、现在能做什么与还做不到什么(一次性做长片与完全一致性仍困难,按秒成本会累积),以及权利、水印与伦理要点(SynthID 与 C2PA 让 AI 来源标记成为无法移除的标准,纯 AI 输出受保护弱且各国有差异,商用取决于条款,真实人物的深度伪造是禁区)。不要追求一次性做出长片,而要做镜头再在剪辑中拼接。由于该领域变化迅速,请始终通过官方渠道确认最新信息。

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

"我不会画画,所以这跟我没关系"——这种对 AI 图像生成的成见恰恰说反了。只要用语言下达指令,几秒钟后你就能得到专业级的视觉作品。本篇跨工具指南讲解:什么是 AI 图像生成(用语言从零做出图像——考验的是表达沟通而非绘画的本领,可谓图像版的提示词工程);它的原理(扩散模型以你的提示词为线索,从随机噪点中雕刻出一幅画,每次都从零绘制,所以结果会抖动);在任何工具中都通用的 4 步工作流(选择工具、写提示词、生成并挑选、修整并完成——迭代是前提);核心的 6 部分图像提示词结构(主体、场景/背景、风格、光线/色彩、构图/视角、技术参数)外加负面提示词与画面比例——不过 GPT Image 和 Imagen 偏好平实的句子,而 Stable Diffusion 系列则吃词语罗列和负面提示词;7 个精通技巧(多跑几次、一点一点加、参考图、局部重绘、固定种子、放大、保存好用的提示词);AI 不擅长什么(手、文字、一致性、精细准确度)及其应对;以及工作中必备的版权、商用和伦理要点(依据美国版权局和 2025 年 Thaler 判例,纯 AI 产出的保护很弱,且各国有别;商用取决于各工具的条款;深度伪造和未经许可模仿画风是禁区;像 DALL-E 的 C2PA 来源元数据这样的标注正在普及)。该选哪个工具以及各工具的具体操作,链接到对比、Midjourney 和 Stable Diffusion 等文章。了解结构、多跑几次、把词语一点一点加上去——任何人都能逼近自己想要的那张图。

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

同样的 AI、同样的问题,有人说它没用,另一个人却惊叹它能干得几乎过头——造成这种差距的真正原因,往往不是 AI 的能力,而是提示词是怎么写的。本文把这项技能,即提示词工程,整理成一份实用大全,让初学者也能立刻上手。内容涵盖:什么是提示词工程(设计并改进你对 AI 的指令的技能,不是代码而是如何把话说好的功夫)、改变结果的三大原则(要具体、给出背景、指定输出,外加"要做 X"胜过"不要做 Y")、核心的好提示词 6 个要素(角色、背景、指令、示例、格式、约束——COSTAR、RCOF 等主流框架共同列出的要素,并非每次都要全部用上)、7 个实用技巧(赋予角色、展示范例/few-shot、逐步推理、固定输出格式、用分隔符理清结构、别一次问太多、迭代——其中最强的是迭代)、一个 Before/After 示例、进阶技巧(思维链、自洽性、提示词链、ReAct——不过 o 系列和 Claude 扩展思考这类推理模型会在内部执行 CoT,因此说清目标更管用)、7 个常见误区,以及各模型小窍门与输入安全。文内附有指向应用开发提示词技巧和输入注意事项的内部链接。把含糊变具体,把一股脑变对话——任何人今天就能开始进步。

什么是技术奇点?面向初学者的入门指南——机制、预测,以及它与 AGI 的区别

什么是技术奇点?面向初学者的入门指南——机制、预测,以及它与 AGI 的区别

2025 年 6 月,OpenAI 的 Sam Altman 在博客上写道:"我们已越过事件视界,起飞已经开始"(《温和的奇点》)。然而另一些研究者却干脆把这一想法斥为永远不会到来的东西。这篇初学者指南讲清:奇点(技术奇点)是"AI 超越人类智能并开始自我改进,从而使进步快得爆炸、再也无法被预测或控制的临界点"(截至 2026 年仍是假设,尚未实现)。文章涵盖其核心——智能爆炸 = 递归式自我改进,聪明的 AI 打造出更聪明的 AI,改进者从人类变成 AI;它与 AGI 和 ASI 有何不同(AGI/ASI 是智能的"状态",奇点是变得不可预测的"事件";AGI → 自我改进 → 骤然跃升至 ASI = 奇点);这个词的历史(I. J. Good 1965 年的"智能爆炸"→ Vinge 1993 年让它流行 → Kurzweil 以"2045"使其主流化);预测的巨大分散(Kurzweil 说 2045、Altman 说"已经开始"、Vinge,以及 Gary Marcus 和已故 Paul Allen 的"复杂性刹车"等怀疑者);突然的硬起飞 vs 渐进的软起飞;希望(疾病与科学上的突破)与风险(失控、对齐问题);深刻的怀疑(复杂性刹车、物理极限、完全是另一回事);以及"机器人统治""AGI 一到来就立刻发生""已确定在 2045 年"等常见误解。既不过度恐惧,也不过度幻想——充分用好今天的 AI,同时冷静地观望接下来可能到来的东西。

AI对律师、会计师与税务顾问的影响:什么会变,什么不变

AI对律师、会计师与税务顾问的影响:什么会变,什么不变

2023年,一位律师因一份由ChatGPT撰写的书状引用的判例全是AI捏造而受到制裁——这起事件在全球散播了对法律与AI的警惕。然而短短几年内采用率便迅猛增长,据称超过90%的律师在日常工作中使用某种AI。作为继 #068(贸易公司)、#094(市场营销)、#097(咨询业)之后「按行业看AI影响」系列的最新一篇,本文概览专业领域:用数字看清现状(62%的律师称每周节省6–20%的时间;Harvey与Thomson Reuters的CoCounsel在2026年第一季度处理了超过1000万份法律文件;税务/会计/审计事务所的生成式AI使用从2024年的8%升至2025年的21%;一项Stanford研究显示会计等领域初级职位较2022年下降13%,会计师+5%、记账员-5%)、AI按职业改变的工作(律师=判例检索、合同审查、义务提取;会计师=记账、凭证核对、抽样、风险识别;税务顾问=数据录入、起草报税表、法规检索——AI做基础工作,人类做最终决定)、幻觉这一最大陷阱(编造不存在的判例/法规——导致制裁和信任丧失;Harvey宣称引用核实准确率99.7%并标记其余,CoCounsel以判例数据库为依据故只引用真实判例)、不变的本质价值(最终判断、职业怀疑精神、伦理、灰色税务判断,以及决定性的、无法交给AI的签字与法律责任)、新人危机(学徒式日常工作的自动化)与新角色(AI合规官、税务提示工程师),以及面向执业者、立志者和客户的按立场建议(对照一手资料核实引用和数字;确认机密信息的处理)。监管与责任因国家而异;在日本,会计软件中的AI功能也已普及。AI抛出的问题:你出售的是工作,还是判断与责任?

如何用 AI 从视频/音频生成字幕和转写稿

如何用 AI 从视频/音频生成字幕和转写稿

给一小时的视频手动配字幕,过去要耗掉整整一天——听、暂停、敲字、对齐时间码。到了 2026 年,这种地狱只需"把视频丢进去,等几分钟"就完成了。本文聚焦于为视频和音频内容配字幕/转写(会议纪要见 #086,图片 OCR 见 #091),逐一讲解:AI 自动化的四个阶段(提取音频 → 含说话人分离的转写 → 加时间码生成 SRT/VTT → 翻译与排版);字幕(SRT/VTT)与转写稿的区别及各自的用途;工具对比(免费又保密的 Whisper、整体编辑的 Descript、高准确率多语言的 Sonix 与 Happy Scribe、对个人友好的 Notta、移动端 CapCut、最省事的 YouTube 自动字幕——许多底层都用 Whisper 系识别);最可复用的 4 步流程(准备 → 转写 → 校对 → 导出/挂载 SRT/VTT);按场景推荐(YouTube、播客、讲座、采访、机密、多语言);以音质占八成的六个准确率技巧(音质、语言设置、专有名词清单、查找替换、说话人分离、行长);多语言康庄大道(打磨原语言 → AI 翻译 → 母语者审校);以及易踩的坑——过度信任准确率、对噪声与术语吃力、版权、机密上传、时间码漂移。干净音频上准确率为 90~96%(已公布、视条件而定),人力下降 80~90%。工作交给 AI;收尾——核对专有名词、从头看一遍——交给你。