شاومي تكشف عن أول نموذج روبوتي متقدم يجمع بين الرؤية والفهم اللغوي والحركة

الخميس 12/فبراير/2026 - 09:01 م

أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة، الذي يدمج بين القدرات البصرية، والفهم اللغوي، والتنفيذ الحركي، ويضم حوالي 4.7 مليار معلمة، والشركة تقول إن النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه بـ"الذكاء الفيزيائي".

ويعتمد النموذج على معمارية Mixture-of-Transformers (MoT)، وينقسم

1- النموذج البصري اللغوي (VLM)

يعمل كدماغ الروبوت، قادر على فهم التعليمات البشرية، بما في ذلك الغامضة منها، مثل طلب طي المنشفة.

يعالج اكتشاف الأشياء، والإجابة على الأسئلة البصرية، ويؤدي عمليات التفكير المنطقي.

2- خبير الحركة

يعتمد على Diffusion Transformer متعدد الطبقات (DiT)، وينتج تسلسلات حركية متناسقة تعرف باسم Action Chunks باستخدام تقنيات flow-matching.

يضمن الدقة العالية أثناء التعلم الحركي دون التأثير على القدرات الإدراكية للنموذج.

3- التدريب والتحسينات التقنية

النموذج يتدرب على بيانات متعددة الوسائط والحركة بشكل متزامن لتجنب فقدان القدرة على الفهم أثناء تعلم الحركات.

تقنية Action Proposal تمكّن VLM من التنبؤ بالحركات الممكنة أثناء معالجة الصور.

DiT يولد تسلسل الحركات بدقة من الضوضاء باستخدام ميزات key-value بدل الرموز اللغوية التقليدية.

لتقليل زمن الاستجابة، تم استخدام Inference Asynchronous وClean Action Prefix للحفاظ على حركة سلسة ومستقرة.

كما يعمل قناع الانتباه على شكل Λ لتوجيه التركيز نحو المدخلات البصرية الحالية بدل الاعتماد على الحالات السابقة.

4- الأداء والاختبارات

سجل النموذج نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على أكثر من 30 نموذجًا آخر.

على أرض الواقع، أظهر الروبوت ذي الذراعين تنسيقًا ممتازًا بين العين واليد في مهام مثل طي المنشفة وتفكيك المكعبات، مع التعامل مع الأجسام الصلبة والمرنة بسلاسة.