تطور الروبوتات: من المحاكاة إلى الواقع في بيئات ديناميكية
كجزء أساسي من التطور التكنولوجي، تلعب الروبوتات دورًا حيويًا في عدة مجالات، مثل الصناعة حيث تساهم في تعزيز الإنتاجية والجودة، وفي اللوجيستيات من خلال تسريع عمليات التغليف والتعبئة بدقة أكبر. كما تُستخدم في المجال الطبي لمساعدة الأطباء والجراحين في إجراء العمليات الدقيقة وتقديم الرعاية الصحية للمرضى الذين يحتاجون إلى عناية خاصة. بالإضافة إلى ذلك، تساهم الروبوتات في الجهود البيئية مثل جمع النفايات وتنظيف الشوارع.
ومع ذلك، على عكس الباحثين الذين يعملون على نماذج الذكاء الاصطناعي مثل شات جي بي تي، والذين يواجهون كميات هائلة من النصوص والصور ومقاطع الفيديو لتدريب أنظمتهم، يواجه الباحثون في مجال الروبوتات تحديات أكبر خلال تدريب الآلات الفيزيائية. حيث إن البيانات الخاصة بالروبوتات مكلفة، ونظرًا لعدم توفر أساطيل من الروبوتات تجوب العالم، لا تتوفر بيانات كافية بسهولة تتيح لهذه الروبوتات الأداء الجيد في بيئات ديناميكية مثل منازل الأفراد. ورغم أن بعض الباحثين اتجهوا إلى المحاكاة لتدريب الروبوتات، إلا أن هذه العملية تتطلب غالبًا مصمم جرافيك أو مهندس، مما يجعلها تتطلب جهدًا وتكاليف مرتفعة.
في هذا السياق، قدم فريق من الباحثين من جامعة واشنطن دراستين جديدتين عن أنظمة ذكاء اصطناعي تستخدم إما الفيديو أو الصور لإنشاء محاكاة تُدرب الروبوتات على العمل في بيئات حقيقية. حيث من المتوقع أن تُسهم هذه الأنظمة في تقليل كبير لتكاليف تدريب الروبوتات على العمل في البيئات المعقدة. وقد تم تقديم الدراسة الأولى في 16 يوليو/تموز الماضي، والدراسة الثانية في 19 من الشهر نفسه خلال مؤتمر “علوم وأنظمة الروبوتات” الذي عُقد في دلفت بهولندا.
نظام ريل تو (RialTo)
كشفت الدراسة الأولى عن نظام الذكاء الاصطناعي “ريل تو” الذي أنشأه “أبهيشيك غوبتا”، أستاذ مساعد في كلية “بول جي ألين” لعلوم وهندسة الحاسوب، والذي شارك في تأليف الورقتين مع فريق من معهد ماساتشوستس للتكنولوجيا.
يساعد النظام المستخدم على تسجيل فيديو لهندسة البيئة وأجزائها المتحركة عبر هاتفه الذكي، حيث يمكنه في المطبخ مثلًا تسجيل كيفية فتح الخزائن والثلاجة. ثم يستخدم النظام نماذج الذكاء الاصطناعي الموجودة، ويقوم شخص ما بإجراء بعض التعديلات السريعة عبر واجهة مستخدم رسومية لتوضيح كيفية حركة الأشياء.
ولإنشاء نسخة محاكاة من المطبخ المعروض في الفيديو، يتدرب روبوت افتراضي عن طريق التجربة والخطأ في البيئة الافتراضية، من خلال محاولاته المتكررة لأداء مهام مثل فتح الخزانة أو المحمصة. تُعرف هذه الطريقة بـ”التعلم المعزز”، حيث يتحسن أداء الروبوت في المهمة من خلال المرور بهذه العملية التعليمية، ويتكيف مع التغيرات في البيئة، مثل وجود كوب بجانب المحمصة. يمكن للروبوت بعد ذلك نقل تلك المعرفة إلى البيئة الفيزيائية، مما يجعله دقيقًا تقريبًا مثل الروبوت المدرب في المطبخ الحقيقي.
قال غوبتا: “نحن نسعى لتعليم الأنظمة كيفية التفاعل مع العالم الحقيقي من خلال المحاكاة.” وتستطيع الأنظمة تدريب الروبوتات في مشاهد المحاكاة هذه، مما يمكّن الروبوت من العمل بشكل أكثر فعالية في الفضاء المادي، وهو ما يُعتبر مفيدًا للسلامة. واعتبر غوبتا أنه لا يمكن قبول وجود روبوتات سيئة التدريب يمكن أن تكسر الأشياء أو تسبب الأذى للناس.
يواصل فريق ريل تو جهوده لنشر نظامه في منازل الناس بعد إجراء اختبارات واسعة في المختبر. وأشار غوبتا إلى رغبته في دمج كميات صغيرة من بيانات التدريب الواقعية مع الأنظمة لتحسين معدلات نجاحها.
نظام يو آر دي فورمر (URD Former)
في الدراسة الثانية، طور الفريق نظامًا يُدعى “يو آر دي فورمر”، الذي يركز بشكل أقل على الدقة العالية في مطبخ واحد، ويعمل بسرعة وبتكلفة منخفضة لإنشاء مئات من المحاكاة العامة للمطابخ. يقوم النظام بمسح الصور من الإنترنت، ويربطها بالنماذج الموجودة حول كيفية تحرك الأدراج والخزائن في المطبخ، ثم يتنبأ بمحاكاة استنادًا إلى الصورة الأولية. يتيح ذلك للباحثين تدريب الروبوتات بسرعة وبتكلفة منخفضة في مجموعة متنوعة من البيئات.
أشارت “زوي تشين”، المؤلفة الرئيسية لدراسة “يو آر دي فورمر”، إلى أنه “في المصنع، هناك الكثير من التكرار”. وأوضحت أن “المهام قد تكون صعبة التنفيذ، لكن بمجرد برمجة الروبوت، يمكنه الاستمرار في أداء المهمة بشكل متكرر. بينما في المنازل، كل شيء فريد ومتغير باستمرار، وهناك تنوع في الأشياء والمهام وتصاميم الأرضيات، بالإضافة إلى الأشخاص الذين يتحركون خلالها، مما يجعل الذكاء الاصطناعي مفيدًا حقًا لتدريب الروبوتات.”
في سياق متصل، نبهت ورقة الدراسة إلى أن هذه المحاكاة أقل دقة بشكل ملحوظ من تلك التي تنتجها “ريل تو”. وأشار غوبتا، مطور نظام “ريل تو”، إلى أن “الطريقتين يمكن أن تكملان بعضهما البعض، حيث يُعتبر “يو آر دي فورمر” مفيدًا حقًا للتدريب المسبق على مئات السيناريوهات، بينما يُعتبر “ريل تو” مفيدًا بشكل خاص عندما ترغب في نشر روبوت تم تدريبه بالفعل في منزل شخص ما وتحقيق نجاح بنسبة 95%.”
ما هو التعلم المعزز من منظور الروبوتات؟
يُعرّف التعلم المعزز (RL) كفرع من تعلم الآلة الذي يُدرّب البرمجيات على اتخاذ القرارات لتحقيق أفضل النتائج، من خلال استخدام أسلوب التعلم بالمحاولة والخطأ الذي يتبعه البشر لتحقيق أهدافهم.
هذا يعني أن البرامج التي تسعى لتحقيق أهداف محددة يتم تعزيزها، بينما يتم تجاهل الإجراءات التي تعوق تحقيق تلك الأهداف. تشبه هذه العملية التعلم المعزز لدى البشر والحيوانات في علم النفس السلوكي، حيث يتعلم الطفل أنه يحصل على الثناء من والديه عندما يساعد شقيقه، ويتلقى ردود فعل سلبية عندما يتصرف بشكل غير لائق.
تتكون عملية التعلم المعزز من ثلاث خطوات رئيسية:
- البيئة:
تبدأ الخطوة الأولى بإعداد بيئة التدريب، والتي غالبًا ما تكون بيئة محاكاة مع تحديد الملاحظات، والإجراءات (الخطوات التي يتخذها النظام للتنقل في البيئة)، والمكافآت (القيمة الإيجابية أو السلبية الناتجة عن إجراء ما). - التدريب:
تشمل الخطوة الثانية تحديد نظام التدريب الفعلي للوكيل، والذي يعتمد غالبًا على الشبكات العصبية العميقة لتحديد العلاقة بين الحالة والإجراء، نظرًا لقدرتها على التعامل مع التعقيد. تُستخدم خوارزميات التعلم المعزز غير المعتمدة على النموذج عادةً في الروبوتات، لأنها لا تتطلب نموذجًا حقيقيًا للبيئة، وهو ما يُعتبر مثاليًا في البيئات غير المعروفة. - النشر:
بعد تقييم السياسات المدربة بنجاح في بيئات التدريب الافتراضية، يتم نشرها في النظام الروبوتي الحقيقي. يعتمد نجاح هذه العملية على عدة عوامل، منها الفجوة بين العالم الافتراضي والعالم الحقيقي، وصعوبة المهمة التعليمية المقبلة، أو تعقيد منصة الروبوت نفسها.