تخطي إلى المحتوى
المواضيع

وكلاء AI والأتمتة

افهم وكلاء الذكاء الاصطناعي وRAG وسير العمل الآلي. من المفاهيم إلى التطبيقات العملية.

34 مقالات

رتّب المقالات للعثور على ما تحتاجه

ما هي AI observability؟ مراقبة وتتبّع LLMs والوكلاء للمبتدئين

ما هي AI observability؟ مراقبة وتتبّع LLMs والوكلاء للمبتدئين

قلنا في "كيف تبني نظامًا متعدد الوكلاء" إنه يجب تجهيز القياس لكل عملية تسليم قبل إضافة الوكلاء؛ والتقنية التي تشغّل هذا القياس في الإنتاج هي AI observability. فهي تُظهر ما تفعله LLMs والوكلاء فعليًا في الإنتاج (أي نموذج وبأي prompt، وأي أدوات وعمليات بحث، وما الذي أُعيد، وكم استغرق وكلّف) حتى تتبّع رجوعًا إلى السبب. الفرق الحاسم عن مراقبة التطبيقات العادية: قد يعيد الذكاء الاصطناعي 200 OK في 50ms ومع ذلك يهلوس بثقة، فمعظم الإخفاقات إخفاقات جودة (هلوسة، استرجاع ضعيف، إجابات غير آمنة، مهام غير مكتملة) لا إخفاقات بنية تحتية. تقوم الـobservability على ثلاث ركائز: traces (طلب واحد كشجرة spans) وmetrics (زمن الاستجابة والتكلفة والـtokens) وlogs. والمعيار OpenTelemetry GenAI يلتقط الـprompts والاستجابات والـtokens واستدعاءات الأدوات بمخطط محايد قابل للتغذية في Datadog/Grafana. الفرق الأكثر خلطًا هو observability مقابل evals: الأولى تُظهر ما حدث، والثانية تقيس جودة الإجابة (الدقة وgroundedness والأمان). تنقسم المقاييس إلى تشغيلية (تكلفة، زمن استجابة، tokens) وجودة (هلوسة، groundedness الأهم لـRAG، أمان، إتمام المهمة)، مع كشف الهلوسة عبر LLM-as-a-judge ودرجات groundedness. الأدوات الرئيسية: LangSmith وLangfuse وArize Phoenix وMLflow وAgentOps وOpenTelemetry. ابدأ بالتقاط traces ثم صوّر المقاييس واربط evals قبل الإطلاق. للأنظمة متعددة الوكلاء المراقبة ضرورية لأن الإخفاقات تختبئ في سلاسل متعددة الخطوات.

كيف تبني نظام وكلاء متعددين: دليل عملي إلى نمط supervisor

كيف تبني نظام وكلاء متعددين: دليل عملي إلى نمط supervisor

بعد استيعاب المفهوم في «ما هو نظام الوكلاء المتعددين؟»، هذا هو الجزء العملي التالي. باستخدام نمط supervisor المعياري لعام 2026، يرشد المبتدئين عبر بناء من 5 خطوات. المبدأ الأساسي: ابنِ بوكيل واحد أولاً وأضِف الوكلاء بأقل قدر فقط بعد بلوغ حد ما (نحو 80% من الحالات تكفيها واحد؛ واستخدام نظام متعدد لعمل بسيط أحادي المسار يضخّم التكلفة 3-10x ويخفض الدقة -39-70% في المهام التسلسلية حسب أبحاث Google). ثلاث علامات للانتقال: فصل التخصصات، التوازي، فصل القرار. نمط supervisor (يتلقى المهمة الكلية، يقسّمها، يفوّضها إلى workers متخصصين، ويجمّع النتائج) هو ما تقاربت عليه وكلاء Claude Code الفرعيون وLangGraph Supervisor وOpenAI Agents SDK، لأوسع دعم ونمط فشل معروف وسهولة التدقيق. الخطوات الخمس: التقسيم، تعريف الـ workers، تصميم الـ supervisor، التسليم، القياس مع حدود قصوى وعمليات تقييم وحواجز أمان. الدرس: الموجّهات والأدوات وحزمة التقييم تحدد النجاح أكثر من إطار العمل.

ما هو النظام متعدد الوكلاء؟ التنسيق بين عدة وكلاء ذكاء اصطناعي مشروحاً للمبتدئين

ما هو النظام متعدد الوكلاء؟ التنسيق بين عدة وكلاء ذكاء اصطناعي مشروحاً للمبتدئين

«قسّم مهمة معقدة لا يقدر عليها وكيل ذكاء اصطناعي واحد على عدة وكلاء» هي الفكرة وراء الأنظمة متعددة الوكلاء. يشرح هذا الدليل المبسّط للمبتدئين الآلية والأنماط الرئيسية وأبرز أطر العمل، والأهم القاعدة الواقعية لاتخاذ القرار حول متى تستخدم عدة وكلاء ومتى يكفي وكيل واحد بلا مبالغة. يعمل في النظام متعدد الوكلاء عدة نماذج ذكاء اصطناعي بأدوار مختلفة معاً على مهمة كبيرة واحدة؛ فمقابل وكيل واحد يتولى كل شيء (يكفي لنحو 80% من حالات الاستخدام، رخيص وسهل التصحيح)، يقسّم العمل حسب التخصص للتنفيذ المتوازي والتدقيق المتبادل، مع تكلفة تنسيق واستهلاك رموز أعلى. الأنماط الأربعة المهيمنة للتنسيق هي: orchestrator-worker (قائد يفكّك ويوزّع العمال بالتوازي ثم يجمع؛ الأوسع استخداماً مع أثر قابل للتدقيق)، والتسليم المتسلسل (تمرير السياق للوكيل التالي)، والمحادثة الجماعية (تتناقش الوكلاء في خيط واحد مع مُحدِّد لمن يتحدث؛ مفيد للتحقق المتبادل)، وآلة الحالة الرسومية (الوكلاء عُقد والانتقالات حواف وحالة صريحة؛ قوي في التفرّعات ونقاط التحقق). تقلّصت أطر العمل في 2026 إلى LangGraph (الأوسع حضوراً في الإنتاج)، وCrewAI (أقل منحنى تعلّم، للنماذج الأولية)، وAutoGen/AG2 (النقاش والتحقق، للبحث)، وOpenAI Swarm (عمليات التسليم الخفيفة). لكنه ليس دواءً لكل داء: المهام المعقدة متعددة المجالات تشهد حتى +23% في معايير الاستدلال، لكن في المهام المتسلسلة أحادية المسار وجدت أبحاث Google −39-70% مقابل وكيل واحد، وغالباً ما يضاهي وكيل واحد بنفس القدرة الحوسبية أو يتفوّق، و7 من كل 10 عمليات نشر أضافت تكلفة دون عائد عند استهلاك ~15x من الرموز (متوسط العائد 2.5-3.5x، الربع الأعلى 4-6x عند التوجيه الجيد). المسار الموصى به: ابنِ بواحد أولاً، حدّد سقفاً ملموساً (أدوار متداخلة، عمل قابل للتوازي)، ثم أضف فريق نمط القائد بأدنى حدّ من 2-3 وكلاء مع حدّ أقصى للتكلفة والتسجيل، وقِس ما إذا كان مكسب الدقة يبرّر الزيادة. A2A (بروتوكول التواصل) وMCP (ربط الأدوات) تقنية أساسية تدعم متعدد الوكلاء. واحد لـ 80%، وتعدّد للأجزاء الصعبة فقط. الأرقام مقتبسة من استطلاعات وأبحاث ومرتبطة بالظروف، اتجاهية.

ما هو A2A (Agent2Agent)؟ كيف يختلف عن MCP، وبطاقات الوكيل، وكيف يعمل

ما هو A2A (Agent2Agent)؟ كيف يختلف عن MCP، وبطاقات الوكيل، وكيف يعمل

بعد أن أصبح وكلاء الذكاء الاصطناعي أمرًا شائعًا، صار التحدي التالي هو كيفية جعل الوكلاء يتعاونون فيما بينهم. إذا كان MCP يربط الوكيل بأدواته، فإن A2A (Agent2Agent) يربط الوكيل بوكيل آخر — معيار مفتوح يتيح لأنظمة الذكاء الاصطناعي المبنية على مزوّدين وأُطر عمل مختلفة أن تكتشف بعضها وتتواصل وتتعاون عبر اصطلاح مشترك. أطلقته Google في أبريل 2025، وتبرّعت به لمؤسسة Linux Foundation في يونيو، ووصل إلى الإصدار v1.0 في 2026. يغطّي هذا الدليل للمبتدئين ما هو A2A (بتشبيه آداب الشراكة التجارية)، ولماذا نحتاجه (وكلاء متخصّصون يتناوبون العمل — وكيل تخطيط ثم وكيل حجز فنادق ثم وكيل دفع)، وكيف يختلف عن MCP (MCP عمودي، الوكيل ↔ الأدوات؛ وA2A أفقي، الوكيل ↔ الوكيل؛ والجمع بينهما هو الإعداد القياسي ذو الطبقتين)، وكيف يعمل (تُستخدم بطاقة وكيل — ملف JSON يشبه «بطاقة العمل» عند /.well-known/agent-card.json — لاكتشاف القدرات، ثم تحمل المهمة (Task) الطلب عبر حالات مثل working وinput-required وcompleted، وتُعيد النتيجة (Artifact) المُخرَج، كل ذلك عبر HTTP وServer-Sent Events وJSON-RPC 2.0، مع إبقاء الوكلاء دواخلهم خفيّة)، ووضعه الحالي والتطبيق (حتى أبريل 2026: 150+ مؤسسة في بيئة الإنتاج، 22,000+ نجمة على GitHub، وحِزم تطوير بخمس لغات — Python وJavaScript وJava وGo و.NET — بمشاركة Microsoft وSalesforce وSAP وServiceNow). القاعدة المساعدة على التذكّر: الاتصال بالأدوات = MCP، والاتصال بالأنداد = A2A.

ما هي إعادة الترتيب؟ الاسترجاع على مرحلتين الذي يرفع دقة RAG — دليل المبتدئين

ما هي إعادة الترتيب؟ الاسترجاع على مرحلتين الذي يرفع دقة RAG — دليل المبتدئين

بنيت نظام RAG لكن جودة البحث متوسطة — وهنا بالضبط تساعد إعادة الترتيب. تعيد إعادة الترتيب تقييم المرشحين الذين جُمعوا بشكل تقريبي عبر البحث بالتضمين (المتجهات) حسب صلتهم بالاستعلام، ثم تعيد ترتيبهم وتُبقي الأفضل فقط؛ وهذه الخطوة الواحدة قد تُغيّر جذريًا جودة إجابات نظام RAG. يغطي هذا الدليل للمبتدئين ما هي إعادة الترتيب (بتشبيه الفرز الأولي والمقابلة النهائية)، ولماذا نحتاجها (البحث بالتضمين يحوّل الاستعلام والمستندات إلى متجهات بشكل منفصل، فيحكم على الصلة بخشونة فقط، والترتيب السيئ يخفض جودة الإجابة مباشرةً — وتذكر الأبحاث مكسبًا في دقة RAG يبلغ نحو 40% من إضافة إعادة الترتيب، وأصبح طبقها فوق البحث الهجين معيار 2026)، وكيف يعمل الاسترجاع على مرحلتين ("اجمع بسعة" بالبحث بالتضمين السريع من أجل الاستدعاء، ثم "صفِّ بذكاء" بالمُعيد للترتيب من أجل الدقة، ثم سلِّم الأعلى إلى نموذج اللغة الكبير)، ولماذا يكون المُعيد للترتيب أدق (المُرمِّز الثنائي bi-encoder يحوّل الاستعلام والمستند إلى متجهين على حدة وهو سريع لكنه تقريبي؛ والمُرمِّز المتقاطع cross-encoder يُدخلهما معًا ويُخرج درجة صلة 0–1، دقيق لكنه ثقيل — لذا تجمع بالمُرمِّز الثنائي السريع وتصفّي بالمُرمِّز المتقاطع الدقيق)، ثم النماذج والتنفيذ (نوع الـ API مثل Cohere Rerank وVoyage وJina؛ ومفتوح المصدر مثل BGE reranker وmixedbread وFlashRank؛ والتقييم بنموذج لغة كبير مثل RankLLM — فقط استرجع 50–100 وصفِّ إلى أعلى 5). المبدأ: اجمع بسعة، صفِّ بذكاء، واضبط الأعداد بتقييمات الذكاء الاصطناعي.

ما هي حواجز الأمان للذكاء الاصطناعي؟ الدفاع ضد حقن الأوامر وحماية الإدخال/الإخراج — دليل المبتدئين

ما هي حواجز الأمان للذكاء الاصطناعي؟ الدفاع ضد حقن الأوامر وحماية الإدخال/الإخراج — دليل المبتدئين

بعد أن تتمكّن من بناء تطبيقات الذكاء الاصطناعي، تأتي المرحلة التالية وهي تشغيلها بأمان. يمكن خداع نماذج اللغة الكبيرة بمدخلات خبيثة، أو تسريب بيانات سرية، أو الجزم بهراء بثقة؛ والآلية الأمنية التي تمنع ذلك هي حواجز الأمان للذكاء الاصطناعي، التي أصبحت جزءاً أساسياً من الإنتاج في 2026 مع وقوع حوادث وكلاء الذكاء الاصطناعي فعلياً. حواجز الأمان قواعد ومرشّحات تكبح المدخلات الخطيرة والمخرجات غير المرغوبة، فتفحص مدخلات المستخدم قبل أن تصل إلى النموذج والإجابة قبل أن تعود — طبقة أمان مستقلة منفصلة عن النموذج نفسه. التهديدات الرئيسية هي حقن الأوامر (الأكبر) وكسر القيود وتسريب البيانات (البيانات السرية، PII، موجّه النظام) والهلوسة أو المخرجات الضارة. تعمل الحماية على طبقتين: حواجز الإدخال (كشف الحقن وكسر القيود، كشف/إخفاء PII، تقييد المواضيع، التعقيم) وحواجز الإخراج (تصفية المحتوى الضار، منع التسريب، فحص الهلوسة، التحقق من التنسيق). حقن الأوامر — المصنّف الأكثر خطورة على OWASP LLM Top 10 — يأتي بصيغة مباشرة (يكتب المستخدم «تجاهل كل التعليمات السابقة») وغير مباشرة (أوامر مخفية في صفحة ويب أو مستند RAG)، والحقن غير المباشر لا يحجبه RAG وحده، لذا تحتاج المستندات المسترجعة إلى فحص خاص بها. يغطّي هذا الدليل للمبتدئين أيضاً الأدوات (LLM Guard، Guardrails AI، NeMo Guardrails، Llama Guard، وميزات الأمان السحابية من Azure وAWS وOpenAI) والمبادئ العملية للدفاع المتعمّق وأقل امتياز والموافقة البشرية والمراقبة المستمرة.

ما هو embedding (التضمين / المتجه)؟ كيف يصير المعنى أرقامًا، واستخداماته، واختيار النموذج

ما هو embedding (التضمين / المتجه)؟ كيف يصير المعنى أرقامًا، واستخداماته، واختيار النموذج

يعتمد RAG والبحث الدلالي والتوصيات جميعًا على بطل خفي: embedding (التضمين / المتجه). embedding هو معنى النص (أو الصورة) مُحوَّلًا إلى سلسلة من الأرقام — أي متجه. تصبح كلمة «كلب» قائمة من مئات إلى آلاف الأرقام تعمل بوصفها «إحداثيات للمعنى»، فتقع الكلمات المتقاربة في المعنى قرب بعضها (كلب وجرو متقاربان؛ كلب وسيارة متباعدان)، ويُقاس القرب بمقاييس مثل cosine similarity. مثال شهير: «ملك − رجل + امرأة ≈ ملكة». ولذلك يمكن للآلة أن تحكم على قرب المعنى حتى عندما لا تتطابق الحروف. يغطي هذا الدليل للمبتدئين ما هو embedding («خريطة للمعنى»)، ولماذا يقيس القرب المعنى (الأبعاد وcosine similarity)، وفيمَ يُستخدم (RAG والبحث الدلالي والتصنيف وإزالة التكرار والتوصيات والوسائط المتعددة)، وكيف تختار نموذج embedding (نوع API مثل OpenAI text-embedding-3 وCohere وGemini وVoyage؛ ونوع مفتوح المصدر مثل BGE-M3 وNomic وQwen3؛ إضافةً إلى Matryoshka التي يمكنها تقليص 3,072 بُعدًا إلى 1,024 مع الحفاظ على نحو 95% من الجودة بثلث التكلفة تقريبًا)، وقواعد بيانات المتجهات (Pinecone وWeaviate وQdrant وChroma وpgvector) مع بداية من ثلاث خطوات (اختر نموذجًا، حوّل الوثائق إلى متجهات وخزّنها، حوّل السؤال إلى متجه وابحث). التضمينات هي أساس تنفيذ RAG.

ما هي تقييمات الذكاء الاصطناعي (وLLM-as-judge)؟ كيف تعمل، والتحيّزات، والأدوات — دليل المبتدئين

ما هي تقييمات الذكاء الاصطناعي (وLLM-as-judge)؟ كيف تعمل، والتحيّزات، والأدوات — دليل المبتدئين

صقلت مطالباتك، وأضفت معرفة عبر RAG، وربما أجريت الضبط الدقيق — فكيف تتأكد أنه تحسّن فعلًا؟ هنا تتصدّر تقييمات الذكاء الاصطناعي المشهد، وبحلول 2026 صار التقييم جوهريًا إلى حدّ تسميته "بنية تحتية". تعني تقييمات الذكاء الاصطناعي قياس جودة مخرجات LLM بشكل منهجي (الدقة، الهلوسات، الالتزام بالصيغة، النبرة) على مقياس ثابت بدل الإحساس؛ وبدونها يبقى التحسين مجرد حدس. هناك طريقتان: التقييم القائم على الكود للعناصر القابلة للقياس آليًا (المطابقة التامة، الصيغة، الكلمات المطلوبة أو المحظورة — سريع ورخيص ومستقر)، وLLM-as-judge للعناصر الذاتية (استخدام نموذج LLM قوي بوصفه حَكَمًا لمنح درجات للمخرجات، عبر المقارنة الزوجية أو تسجيل مخرج واحد). والمبدأ: قِس بالكود كل ما يستطيع الكود قياسه. لـ LLM-as-judge تحيّزات الإطناب والموضع وتفضيل الذات؛ وحلولها استخدام عائلة نماذج مختلفة كمُقيّم، وتبديل الترتيب والتقييم مرتين، ووضع الإيجاز في معيار التصحيح، والمعايرة مقابل الحكم البشري. المقاييس الخشنة (pass/fail أو 1–3) تتفوّق على الدقيقة 1–10. وفي الممارسة، شغّل ثلاث طبقات — فحوصات كود فورية عند كل تغيير، واختبارات تراجع ليلية بـ LLM-as-judge، ومراقبة إنتاج مستمرة — مستخدمًا أدوات مثل DeepEval وPromptfoo وRAGAS لـ CI إضافةً إلى Braintrust وLangSmith وArize للمراقبة. ابدأ بجمع 10 مخرجات جيدة و10 سيئة وتقييمها.

ما هو التطوير المدفوع بالمواصفات (Spec-Driven Development / SDD)؟ الخطوات الأربع والأدوات والفرق عن vibe coding

ما هو التطوير المدفوع بالمواصفات (Spec-Driven Development / SDD)؟ الخطوات الأربع والأدوات والفرق عن vibe coding

في عصرٍ تكتب فيه الذكاء الاصطناعية الشيفرة، تنتقل المهارة الأعلى قيمة من «كتابة الشيفرة» إلى «كتابة المواصفات» — والممارسة التي تجسّد هذا التحوّل هي التطوير المدفوع بالمواصفات (Spec-Driven Development، SDD). يضع SDD المواصفات في قلب المشروع بوصفها مصدر الحقيقة، فيشتقّ منها وكيل الذكاء الاصطناعي التصميم والتقسيم والتنفيذ بدلًا من كتابة الشيفرة فورًا. والأساس أنّ كل خطوة تترك وثيقة (غالبًا Markdown) تقرؤها الخطوة التالية. يشرح هذا الدليل المبسّط للمبتدئين ما هو SDD (المواصفات هي المعيار، والشيفرة مشتقّ منها)، ولماذا صار مهمًّا الآن (إذ يمنع «جدار الأشهر الثلاثة» من الدَّيْن التقني وانجراف المتطلبات في vibe coding عند مرحلة التصميم — وتفيد GitHub بانخفاض دورات «إعادة التوليد من الصفر» بمقدار رتبة عشرية تقريبًا)، والخطوات الأربع الأساسية (Specify → Plan → Tasks → Implement)، والأدوات الرئيسية (GitHub Spec Kit بأكثر من 90,000 نجمة ودعم أكثر من 30 وكيلًا، و AWS Kiro بتدفّق Requirements → Design → Tasks وموجّه Auto، إضافةً إلى BMAD و OpenSpec و Tessl و Google Antigravity و Cursor)، ومتى تستخدمه مقابل vibe coding (مزجٌ: vibe للاستكشاف، والمدفوع بالمواصفات للإطلاق، مع مراجعة بشرية إلزامية)، وكيف تجربه اليوم. ففي عصر الذكاء الاصطناعي، لا يصعد مَن يكتب الشيفرة الأسرع، بل مَن يستطيع تحديد ما سيُبنى بدقّة.

ما هي هندسة السياق؟ المهارة التالية بعد الـ prompt، وكيف تتغلّب على «context rot»

ما هي هندسة السياق؟ المهارة التالية بعد الـ prompt، وكيف تتغلّب على «context rot»

يتحوّل مركز الثقل في العمل مع الذكاء الاصطناعي من هندسة الـ prompt إلى هندسة السياق. وباستعارة تعريف Anthropic، هندسة السياق هي «مجموعة الاستراتيجيات الخاصة بانتقاء وصيانة المجموعة المثلى من الرموز (tokens) (أي المعلومات) التي تسلّمها للنموذج أثناء الاستدلال» — وهي لا تشمل الـ prompt وحده، بل كلّ ما يدخل نافذة السياق: الـ system prompt، والأدوات، وسجلّ المحادثة، والبيانات الخارجية. وتهمّ بسبب «context rot»: كلّما أضفتَ مزيدًا من الـ tokens، تراجعت الدقّة فعليًا. فقد اختبرت دراسة Chroma لعام 2025 ثمانية عشر نموذجًا رائدًا (GPT وClaude وGemini وغيرها)، وتدهور كلّ واحد منها كلّما طال المدخل، مع كون المعلومات في منتصف السياقات الطويلة سهلة الإغفال على وجه الخصوص («lost in the middle»). يغطّي هذا الدليل المبسّط للمبتدئين ما هي هندسة السياق وعلاقتها بهندسة الـ prompt، ولماذا يحدث الـ context rot (الانتباه ميزانية محدودة)، وماذا يوجد فعليًا داخل السياق، وستّ تقنيات أساسية (تعليمات على المستوى الصحيح، وانتقاء الأدوات، والاسترجاع عند الطلب، والضغط بالتلخيص، وملاحظات الذاكرة الخارجية، والعزل عبر الوكلاء الفرعيين)، وعلاقتها بالـ RAG وبـ Claude Skills، وعادات يمكنك استخدامها اليوم مثل بدء جلسة جديدة حين يتغيّر الموضوع ولصق النقاط الأساسية فقط. والفكرة الجوهرية: أبقِ على أصغر قدر من الـ tokens الأعلى قيمةً فقط.

ما هي Claude Skills (مهارات الوكيل)؟ كيف تعمل، وكيف تبني واحدة، وما الفرق بينها وبين MCP

ما هي Claude Skills (مهارات الوكيل)؟ كيف تعمل، وكيف تبني واحدة، وما الفرق بينها وبين MCP

دليل مبسّط للمبتدئين حول Claude Skills (مهارات الوكيل)، الآلية التي تنهي عناء إعادة شرح الإجراء نفسه لـ Claude في كل مرّة. تغلّف المهارة التعليمات والنصوص البرمجية والمراجع داخل مجلّد واحد محوره ملف SKILL.md الذي يحتوي على اسم ووصف وخطوات. في معظم الوقت يقرأ Claude الوصف القصير لكل مهارة فقط، ولا يوسّع المحتوى إلا عندما يطابق طلبك ذلك الوصف — تصميمٌ يُسمّى الكشف التدريجي يبقي سياقك خفيفاً حتى مع تثبيت عشرات المهارات. يتناول هذا المقال ما هي Skills، ولماذا تهمّ (نهاية لصق الموجّهات في كل مرّة)، وكيفية كتابة SKILL.md وبنية مجلّد بسيطة، وكيفية بناء واحدة (عبر skill-creator الرسمية أو يدوياً، بوضعها في ‎.claude/skills، مع إعادة التحميل الفورية في يناير 2026)، والفرق بين Skills وبين MCP (الاتصال) والوكلاء الفرعيين (عزل السياق)، والمعيار المفتوح الذي تبنّته Codex CLI وCursor وGemini CLI وGitHub Copilot إلى جانب تطبيقات Claude وClaude Code وAPI وAgent SDK، إضافةً إلى استخدامات ملموسة مثل توليد المستندات وفرض القواعد الداخلية. أعلنت عنها Anthropic في 16 أكتوبر 2025، ووصفها Simon Willison بأنها "ربما أهمّ من MCP".

إلى أي مدى يستطيع الذكاء الاصطناعي أتمتة مهام المتصفح؟ واقع ملء النماذج والحجز والبحث

إلى أي مدى يستطيع الذكاء الاصطناعي أتمتة مهام المتصفح؟ واقع ملء النماذج والحجز والبحث

"طلبتُ من الذكاء الاصطناعي ففتح المتصفح وبحث بنفسه، بل وملأ نموذجًا أيضًا." في 2026 لم يعد هذا عرضًا مُجهَّزًا: ظهرت المتصفحات الوكيلة (ChatGPT Atlas وClaude for Chrome وGemini/Chrome وPerplexity Comet) دفعةً واحدة. فإلى أي مدى تؤتمت فعلاً؟ ينقسم الواقع بوضوح إلى ثلاث طبقات. (1) البحث = جاهز للإنتاج: على WebVoyager (مواقع حقيقية) تبلغ أفضل الوكلاء 89-98%، أي تشبُّع تقريبًا، ومن هنا تبدأ التفويض لأن الخطأ يكلّف القليل. (2) ملء النماذج = ممكن لكن تحقّق: الإدخال نفسه مدعوم، لكن الوكيل قد يخطئ في الحقول أو يضغط زر الإرسال الخطأ، لذا "الذكاء الاصطناعي يصوغ والإنسان يرسل" هو الآمن، وكثير من المنتجات مثل Atlas يطلب تأكيدًا قبل الإجراءات المهمة. (3) الحجز/الدفع = تولَّه بنفسك: يتعثّر الوكلاء عند CAPTCHA وتدفقات إتمام الدفع المعقّدة بـJavaScript والمصادقة الثنائية وإدارة الجلسات، وعلى WebArena (مهام معقّدة متعددة الخطوات) يسجّل حتى الأفضل ~47-68% مقابل خط أساس بشري ~78%؛ والسبب الذي دفع OpenAI لإغلاق Operator المستقل (2025/8/31) كان عدم موثوقية الدفع. يؤطّر المقال أولاً المقاربتين (متصفح/امتداد للمستهلك مقابل API/OSS للمطوّر)، ثم يرسم لاعبي 2026 (Atlas متصفح مخصّص لا يشغّل الكود ولا يقرأ كلمات المرور بحكم التصميم؛ Claude for Chrome امتداد بلوحة جانبية؛ مشروع Project Mariner من Google انتهى 2026/5/4 وأُدمج في Gemini/Chrome؛ Operator انتقل إلى ChatGPT Agent وAgents SDK؛ OSS browser-use بأكثر من 78k نجمة). ويشرح الجدران الأربعة التي تُفشل الحجز (دفاعات الروبوتات، إتمام الدفع المعقّد، 2FA، كلفة التراجع)، ثم يتعمّق في أكبر فخّ: حقن الأوامر غير المباشر (ثبت أن Perplexity Comet عرضة لسرقة بيانات اعتماد بصفر نقرات وأصلحها في فبراير 2026؛ نجاح هجوم بنسبة 23.6% قبل الدفاعات ينخفض إلى ~11% بالأساسية و~1% بالأقوى، وما يزال غير صفر). ويختم بخمسة مبادئ أمان (ابدأ بالقراءة فقط، يوافق إنسان على الإرسال/الدفع، لا تسلّم كلمات المرور أبدًا، لا تشغّله على مواقع غير موثوقة، أقلّ صلاحيات في ملف تعريف مخصّص). شريك بحث ممتاز؛ أمّا الإجراءات التي تحرّك المال فتولَّها بنفسك. الأرقام مقتبسة من مواد عامة وإعلانات كمؤشرات اتجاه.