コンテンツにスキップ
トピック

AI開発・プログラミング

AIを使ったアプリ開発・コード生成・デバッグ・テスト自動化の実践テクニック。初心者から中級者まで役立つガイド。

63 件の記事

並び替えで記事を探せます

エンベディング(ベクトル)とは?意味の数値化の仕組み・用途・モデルの選び方を初心者向けに解説

エンベディング(ベクトル)とは?意味の数値化の仕組み・用途・モデルの選び方を初心者向けに解説

RAGも意味検索もレコメンドも、その裏側で必ず使われている縁の下の力持ちがエンベディング(embedding/ベクトル)だ。エンベディングとは、テキスト(や画像など)の意味を数字の並び=ベクトルに変換したもの。「犬」を数百〜数千個の数字の列に置き換え、その並びが「意味の座標」になる。意味の近い言葉どうしは空間上の近い位置に配置され(犬と子犬は近く、犬と自動車は遠い)、コサイン類似度などで近さを数値化できる——だから文字が一致しなくても機械が「意味が近いか」を判断できる。有名な「王様−男性+女性≒女王」のように意味の関係がベクトル演算で表れることも。本記事は、正体(意味の地図のたとえ)、なぜ近さで意味が測れるか、用途(RAG・意味検索・分類/重複検出・推薦、マルチモーダル)、埋め込みモデルの選び方(API型=OpenAI text-embedding-3/Cohere/Gemini/Voyage、OSS型=BGE-M3/Nomic/Qwen3、Matryoshkaで次元を後から圧縮し3072→1024で品質約95%維持・コスト約1/3)、ベクトルDB(Pinecone/Weaviate/Qdrant/Chroma/pgvector)と始め方(モデル選択→文書をベクトル化して保存→質問もベクトル化して検索)までを初心者向けに解説。RAG実装の土台であり、精度はAI評価で測りながら改善するとよい。

AI評価(Evals)とLLM-as-judgeとは?仕組み・バイアス対策・ツールを初心者向けに解説

AI評価(Evals)とLLM-as-judgeとは?仕組み・バイアス対策・ツールを初心者向けに解説

プロンプトを磨きRAGやファインチューニングをした後、「本当に良くなったのか」をどう確かめるか。主役になるのがAI評価(Evals)で、2026年には「評価はインフラ」と言われるほどAI開発に欠かせない工程になっている。AI評価とは、LLMの出力品質(正確さ・幻覚の有無・形式遵守・口調など)を、その場の感覚ではなく決まった物差しで点数化すること。評価がなければ改善は"勘"になる。方法は2つ——機械的に測れる項目は「コードベース評価」(完全一致・形式・必須語など、速く安く安定)、主観的な項目は「LLM-as-judge」(強力なLLMを審査員に使いAIの出力を採点。ペアワイズ比較と単体スコアリング)。原則はコードで測れるものはコードで。LLM-as-judgeには冗長・位置・自己びいきのバイアスがあり、対策は①別系統モデルで採点(自己びいき回避)②順番を入れ替えて二回採点(位置)③基準に簡潔さを明記(冗長)④人間の判断と突き合わせる較正、が要。採点は1〜10より「合格/不合格」など粗いほうが安定。実務では3層(変更ごとの即チェック→夜間の回帰テスト→本番の継続監視)で回し、ツールはDeepEval・Promptfoo・RAGAS(CI用)とBraintrust・LangSmith・Arize(監視用)を組み合わせるのが定番。まずは良い出力・悪い出力を各10件集めて採点するのが最初の物差し。

ファインチューニングとは?RAGとの違い・LoRA/QLoRA・いつ使うかを初心者向けに解説

ファインチューニングとは?RAGとの違い・LoRA/QLoRA・いつ使うかを初心者向けに解説

「AIを自社専用にカスタマイズしたい」ときに候補となるファインチューニング(fine-tuning)を初心者向けに解説。ファインチューニングとは、学習済みのベースモデルに自分の用途のデータを追加学習させ、専用モデルに作り替えること。文体・出力フォーマット・専門分野の言い回しといった"振る舞い(behavior)"をモデル自体に覚え込ませる(モデルの重みを書き換える)一方、頻繁に変わる最新情報や社内文書を事実として正確に保持するのは苦手。だから「知識・事実はRAG、振る舞い・型はファインチューニング、まずはプロンプト」が基本。専門家いわく「"FTが要る"の8割は検索(RAG)やプロンプトの改善で解決する」ため、順番を守ることが重要。本記事は、正体(新人研修のたとえ)、得意・苦手、RAG/プロンプトとの使い分け比較表、主な手法(フルファインチューニング/LoRA/QLoRA=4bit量子化で省メモリ・初心者におすすめ)、必要なもの(高品質データ500件以上が目安・データ作りが本番・コストは5,000〜50,000ドル超の例やOpenAIの訓練約25〜100ドル/100万トークン・ツールはOpenAI/Unsloth/Axolotl/Hugging Face等)、そして始める順番(プロンプト→RAG→それでも型が安定しない時だけFT)までを網羅。ファインチューニングは「最後の手段」。

仕様駆動開発(Spec-Driven Development)とは?バイブコーディングとの違いと4ステップを初心者向けに解説

仕様駆動開発(Spec-Driven Development)とは?バイブコーディングとの違いと4ステップを初心者向けに解説

AIにコードを書かせる時代、価値が高いのは「コードを書く力」より「仕様を書く力」になりつつある。それを象徴するのが仕様駆動開発(Spec-Driven Development、SDD)だ。SDDとは、仕様(spec)を開発の中心ドキュメントに据え、そこからAIエージェントに設計・分解・実装を導き出させる進め方。いきなりコードを書かせず、まず「何を・どう作るか」を構造化した文書にまとめる。重要なのは各ステップが文書(多くはMarkdown)を残し次が読むこと。本記事は、SDDの正体(仕様が"正"でコードは派生物)、なぜ今必要か(バイブコーディングが約3ヶ月でぶつかる技術的負債・要件ズレを設計段階で防ぐ。GitHubは作り直し回数が桁違いに減ったと報告)、基本の4ステップ(Specify→Plan→Tasks→Implement)、主要ツール(GitHub Spec Kit=9万超スター・30以上のエージェント対応、AWS Kiro=Requirements→Design→Tasks+Autoルーター、BMAD/OpenSpec/Tessl/Google Antigravity/Cursor)、バイブコーディングとの使い分け(探索はバイブ・出荷は仕様駆動のハイブリッド、人間のレビューは必須)、今日から試す方法までを初心者向けに解説する。AI時代に伸びるのは速くコードを書く人より、何を作るかを正確に定義できる人。

コンテキストエンジニアリングとは?プロンプトの次の必修スキルと「context rot」対策を初心者向けに解説

コンテキストエンジニアリングとは?プロンプトの次の必修スキルと「context rot」対策を初心者向けに解説

AI活用の主役がプロンプトエンジニアリングからコンテキストエンジニアリングへ移りつつある。コンテキストエンジニアリングとは、Anthropicの定義では「推論のあいだにモデルへ渡す最適なトークン(情報)の集合を選び・保つための戦略全般」で、指示文だけでなくシステムプロンプト・ツール・会話履歴・外部データなど、コンテキストウィンドウに入るすべてを設計・管理する技術。重要な理由は「context rot(コンテキストの劣化)」——トークンを増やすほどモデルの精度はむしろ落ちる現象で、2025年にChromaが18の主要モデルで検証し例外なく低下、長い文脈の中盤の情報ほど見落とされやすい(lost in the middle)。本記事は、正体とプロンプトエンジニアリングとの関係、context rotの仕組み(注意は有限の予算)、コンテキストに何が入るか、主要テクニック6つ(適切な粒度の指示・ツール厳選・ジャストインタイム取得・コンパクション要約圧縮・外部メモリ・サブエージェント分離)、RAGやClaude Skillsとの位置づけ、そして「話題が変わったら新セッション」「長文は要点だけ」など今日からできる実践までを初心者向けに解説する。最小で最も効くトークンだけを残すのが核心。

Claude Fable 5のコーディング性能を徹底解説——ベンチ・Opus 4.8との使い分け・コストの現実

Claude Fable 5のコーディング性能を徹底解説——ベンチ・Opus 4.8との使い分け・コストの現実

2026年6月9日に登場したClaude Fable 5(Anthropic初のMythosクラス一般公開モデル)を、リリース全体ではなく「コーディング」だけに絞って徹底解説する。結論はFable 5は難しいコーディングほど他を引き離すモデル。SWE-bench Verified 95.0%・より過酷なSWE-bench Pro 80.3%(Opus 4.8 69.2%・GPT-5.5 58.6%)・最難関のFrontierCode Diamond 29.3%(Opus 13.4%・GPT-5.5 5.7%=GPT比約5倍)と公開モデルで頭一つ抜けるが、Terminal-Bench 2.1は84.3%で僅差(GPT-5.5はCodex CLI経由で健闘)。本記事は開発者目線の3行サマリ(難問ほど強い/少ないターンで仕上げる/ただし高い・止まらない)、主要ベンチの比較表と読み方(難しいベンチほど差が大きい・ターミナルは接戦)、effortスケーリング(低11.5%→最大30.9%、GPT-5.5は5〜6%で頭打ち、長く複雑なほどリード拡大、5体並列で難問通過率が単体の3.2倍速で60%到達との報告)、実際の開発で得意な領域(マルチファイル大規模リファクタ・長時間の自律エージェント・スクショからフロント実装・API設計+テスト+ドキュメント、Simon Willison氏が数日分の仕事量と評価する一方で遅く高い・5.5時間で110ドル超)、弱点と注意点(料金はOpus 4.8の約2倍の$10/$50・複雑セッションは50万〜100万トークン、止め時を誤り走り続ける、コードレビュー精度はOpus劣後、安全分類器でOpus 4.8へフォールバック=Terminal-Benchで約2割、実行せず検証済みと報告するクセ)、Opus 4.8・GPT-5.5との使い分け(既定はOpus 4.8・難所の1〜2割をFable 5へエスカレーション・Codex中心の端末作業はGPT-5.5、モデルID切り替えで振り分け)、使える場所(Claude Code/GitHub Copilot/AWS Bedrock/Azure Foundry/Databricks/Anthropic API)と料金・コンテキスト100万トークン・出力12.8万・6/9〜22の無料期間までを網羅。重い一発はFable 5、日々の大半はOpus 4.8という振り分けが要点。数値はAnthropicおよび各社の公表資料・報道の引用で、足場依存のため傾向の参考。

Claude Codeの「/loop」とは?使い方・自動ポーリング・スケジューリング機能の使い分け

Claude Codeの「/loop」とは?使い方・自動ポーリング・スケジューリング機能の使い分け

「ビルドが終わったら教えて」「CIが赤くなったら直して」「デプロイを5分おきに見張って」——こういう張り付き仕事をAIに丸ごと預けられるのが、Claude Codeに2026年に追加された/loop(ループ)コマンドだ。本記事は初心者向けに、/loopとは「プロンプトやスラッシュコマンドを決めた間隔で(あるいはAIが自分で決めた間隔で)繰り返し実行するセッション内スケジューラ」であることを起点に、4つの使い方(①/loop 5m 〇〇=固定間隔でcron実行 ②/loop 〇〇=間隔をAIが判断するセルフペース ③/loop 15m=組み込みメンテプロンプト ④/loop=自動メンテ)、間隔の書き方(数字+単位s/m/h/d、最短1分、every 2 hours等の自然文、スラッシュコマンドもループ可=/loop 20m /review-pr 1234)、セルフペースの凄さ(動きがあれば短く・なければ長く1分〜1時間で待ち、完了したと判断すればループ自体を自動終了する点がただのcronと決定的に違う)、CI/デプロイ見張り・PRお守り・長時間ビルド確認・リマインド・ブランチ自動メンテといった実用レシピ、停止と注意点(Esc停止、セッション内のみで新しい会話だと消える、ターミナルを閉じると止まる、固定間隔は最長7日、1セッション最大50タスク、ターンの合間に発火しジッターあり、ローカルタイムゾーン基準)、そして3つのスケジューリング機能の使い分け(/loop=セッション内の監視、Desktop scheduled tasks=ローカル常駐、Routines=クラウドで無人運用)、loop.mdで省略時動作を自分仕様にするカスタマイズとCLAUDE_CODE_DISABLE_CRON=1での無効化までを、公式ドキュメント(2026年時点)に基づき解説する。/loopが変えるのはAIに任せられる仕事の時間軸だ。

最先端のAIエンジニア(AIネイティブ開発者)になるためにやるべきこと——スキル・学習ロードマップ・差がつく一手

最先端のAIエンジニア(AIネイティブ開発者)になるためにやるべきこと——スキル・学習ロードマップ・差がつく一手

「AIに仕事を奪われる側」になるか「AIを操って10人分働く側」になるか——2026年のエンジニアの分かれ道。本記事はLLM・エージェント・RAGでアプリを作る「AIネイティブ開発者」になる道を、博士号や難解な数学ではなくスキルの積み上げとして3層で示す。①変わらない土台(Python=作業の約9割・Git・コマンドライン・HTTP/REST/JSON、AIが書く時代こそ基礎が要る)②AIネイティブの中核5スキル(プロンプト/コンテキスト設計・RAG=企業エージェントの背骨・エージェント構築・MCP=ツール接続の事実上標準・評価eval、加えてコスト最適化/ガードレール/可観測性)③大多数が見落とす差がつく一手=評価設計とコンテキストエンジニアリング(evalを書けることが「実際にLLMで作った人」を分ける最大のシグナル、AGENTS.md/CLAUDE.mdと小さな評価セットが"アシスト→ネイティブ"の跳躍点)。さらに8〜12か月の学習ロードマップ(土台→LLM API/プロンプト→RAGをフレームワークなしで自作→エージェント+MCP→評価+デプロイ+公開)、学位よりデプロイ実績が効くポートフォリオ戦略、チュートリアル沼・道具収集・基礎軽視といった落とし穴、需要急伸と年収(米国基準・地域差大)まで実践的に解説する。境目は「AIを仕組みとして使うか」だ。

AIコーディングのコスト最適化大全——トークン課金の仕組みからサブスク選び・90%節約テクまで

AIコーディングのコスト最適化大全——トークン課金の仕組みからサブスク選び・90%節約テクまで

「先月のAPI請求が$1,800……?」——Claude Codeを本気でエージェント運用すると月$500〜2,000に達する報告もある2026年。だが使い方を変えるだけで、成果物の質を落とさずコストは70〜85%削減できる(複数の実測レポートが一致)。本記事はまず高コストの正体(高いモデル・長い文脈・無駄な回数、トークン課金の仕組み、エージェントは単発の約7倍消費)を解き、サブスク vs APIの損得分岐(API有利はおおむね月50セッション未満、毎日使うならサブスクが最大36倍安いとの試算も)、主要ツールの料金俯瞰(Copilot Pro $10/Cursor Pro $20・ヘビーは$60〜100/Claude Pro $20・Max $100、2026年6月1日にCopilotが従量課金=AIクレジットへ移行)、コストを下げる6つのレバー(①モデル使い分けで40〜70%減 ②プロンプトキャッシュは約90%引き・ヒット率60〜80% ③コンテキスト管理 ④サブスク/API選び ⑤重複サブスク棚卸し ⑥メモリ機能)、今日からできる節約チェックリスト、そして安物買いの銭失い・隠れた人件費・重複課金・メーターショック・キャッシュ過信といった落とし穴、用途別おすすめ構成までを実践的に解説する。最適化とはケチることではなく「適切なものに適切なだけ払う」設計だ。

ベクトルDB/RAG実践入門——素朴RAGから本番で効くRAGへ

ベクトルDB/RAG実践入門——素朴RAGから本番で効くRAGへ

「RAGとは」は分かった、でも作ると答えがズレる——原因は「雑に切って素朴にベクトル検索しただけ」の素朴RAGのままだから。本記事は030の実装編として、2026年の実用RAGパイプライン(賢いチャンク分割→埋め込み→ベクトルDB→ハイブリッド検索→再ランク)を各工程具体的に解説。チャンク分割の戦略(recursive 512デフォルト、semantic/structural/parent-child、Contextual Retrievalで検索失敗を最大67%削減との報告)、埋め込みモデル選び(text-embedding-3-large等)、ベクトルDB6種の比較(試作のChroma、Postgres併用のpgvector、低レイテンシのQdrant、フルマネージドのPinecone、ハイブリッド王者のWeaviate、超大規模のMilvus)、BM25+密ベクトルをRRFで融合するハイブリッド検索、bi-encoderで広く取りcross-encoderで精選するretrieve-then-rerank(Cohere/Voyage/BGE/Jina)、LlamaIndex(検索)とLangChain/LangGraph(制御)の住み分け、1MトークンでもRAGは置き換わらない理由(lost in the middle・注意散漫)、評価セットを最初に作る等の本番化注意点までを網羅する。

AIエージェントの作り方 入門——ノーコードとコード両面で徹底解説

AIエージェントの作り方 入門——ノーコードとコード両面で徹底解説

「AIエージェントとは」は分かった、では自分で作るには?2026年のいま、ノーコードならドラッグ&ドロップで午後のうちに1体動かせ、コードでも最近のSDKなら100行未満で実用的なものが組める。本記事は014(エージェントとは)の実践編として、まずエージェントの中身(頭脳LLM+指示+ツール+記憶+自律ループの5部品)を押さえ、ノーコード vs コードの2つの道、ツールが何であれ共通の作り方5ステップ(①課題を絞る→②基盤を選ぶ→③指示を書く→④ツールを繋ぐ→⑤小さくテスト)、ノーコードツール比較(総合のDify、業務連携のn8n、試作のFlowise、最も手軽なCustom GPT/Gemini Gems/Claude Projects)、コードフレームワーク比較(堅実のClaude Agent SDK/OpenAI Agents SDK、複雑制御のLangGraph、役割協調のCrewAI)、問い合わせ要約→Slack通知の具体的な作例、コスト(基盤月$10〜$50+モデル利用料)と期間の目安、スコープを欲張らない・権限と暴走対策・PoC止まり注意などのつまずきどころまでを実践的に解説。大半の人はまずノーコードで1体作るのが正解。

Claude Codeのよくあるエラーと解決法まとめ【大全】——診断コマンドと対処早見表

Claude Codeのよくあるエラーと解決法まとめ【大全】——診断コマンドと対処早見表

Claude Code作業中に突然出る「ログインし直せ」「レート制限」「プロンプトが長すぎる」「MCPが繋がらない」——種類が多くて都度ググるのも面倒だ。本記事はClaude Codeでよく出るエラーを、原因と「叩くべきコマンド」付きで一覧化した実務リファレンス(大全)。まず初手の診断3コマンド(claude doctor=総合診断 / status=認証状態 / context=コンテキスト内訳)を押さえ、頻出4系統(使用量・レート制限/コンテキスト超過/認証切れ/MCP接続失敗)を中心に、認証・ログイン系、使用量/レート制限系(Claude Codeはチャットの10〜100倍消費)、コンテキスト/トークン系(Prompt is too long・compaction thrashing)、サーバー/モデル系(500/529/timeout/model not found)、インストール/PATH/更新系、ネットワーク/プロキシ系(ECONNREFUSED・TLS)、MCP系、権限/ツール系(bypassでもdeny優先)、thinking blocks 400・画像/PDF・IDE連携まで、症状→原因→対処コマンドの表で網羅。最後にエラー→対処の早見表とFAQ。公式ドキュメント(2026年時点)準拠で、迷ったら診断3コマンド、直らなければclaude updateが基本型。