ما هو التعلم المعزز؟
التعلم المعزز هو نوع من التعلم الآلي يعتمد على المكافآت والعقوبات. تشرح هذه المقالة تعريفها وكيفية عملها وتطبيقاتها الأساسية.
تعريف التعلم المعزز
تستخدم برامج الذكاء الاصطناعي (AI) باستمرار التعلم الآلي لتحسين السرعة والكفاءة. في التعلم المعزز ، يكافأ الذكاء الاصطناعي على الإجراءات المطلوبة ويعاقب على الإجراءات غير المرغوب فيها.
لا يمكن أن يحدث هذا التعلم إلا في بيئة خاضعة للرقابة. يقوم المبرمج بتعيين قيم إيجابية وسلبية (أو “نقاط”) لسلوكيات معينة ، ويمكن للذكاء الاصطناعي استكشاف البيئة بحرية للحصول على المكافآت وتجنب العقوبات.
من الناحية المثالية ، سيؤخر الذكاء الاصطناعي المكاسب قصيرة الأجل لصالح المكاسب طويلة الأجل ، لذلك إذا اختار بين ربح نقطة واحدة في دقيقة واحدة أو ربح 10 نقاط في دقيقتين ، فسيؤخر ذلك الإشباع ويذهب إلى القيمة الأعلى. في الوقت نفسه ، سوف يتعلم تجنب الإجراءات العقابية التي تجعله يخسر نقاطًا.
أمثلة على التعلم المعزز
التطبيقات الواقعية للذكاء الاصطناعي القائمة على التعلم المعزز محدودة إلى حد ما ، لكن الطريقة أظهرت نتائج واعدة في التجارب المعملية.
على سبيل المثال ، درب هذا التعلم الذكاء الاصطناعي على لعب ألعاب الفيديو. يتعلم الذكاء الاصطناعي كيفية تحقيق أهداف اللعبة من خلال التجربة والخطأ. على سبيل المثال ، في لعبة مثل Super Mario Bros. ، سيحدد الذكاء الاصطناعي أفضل طريقة للوصول إلى نهاية كل مستوى مع تجنب الأعداء والعقبات. لقد نجحت العشرات من برامج الذكاء الاصطناعي في التغلب على ألعاب محددة ، كما أن برنامج MuZero أتقن ألعاب الفيديو التي لم يكن مصممًا للعبها في الأصل.
تم استخدام هذا التعلم لتدريب برامج إدارة موارد المؤسسة (ERM) لتخصيص موارد الأعمال لتحقيق أفضل النتائج طويلة الأجل. تم استخدام خوارزميات التعلم المعزز لتدريب الروبوتات على المشي وأداء المهام البدنية الأخرى. أظهر هذا التعلم أيضًا نتائج واعدة في الإحصاء والمحاكاة والهندسة والتصنيع والبحث الطبي.
حدوده
يتمثل القيد الرئيسي لخوارزميات التعلم المعزز في اعتمادها على بيئة مغلقة. على سبيل المثال ، يمكن للروبوت استخدامه للتنقل في غرفة يكون كل شيء فيها ثابتًا. ومع ذلك ، لن يساعد هذا التعلم في التنقل في ممر مليء بنقل الأشخاص لأن البيئة تتغير باستمرار. سوف يصطدم الروبوت بالأشياء بلا هدف دون تطوير صورة واضحة لما يحيط به.
نظرًا لأن هذا التعلم يعتمد على التجربة والخطأ ، فإنه يمكن أن يستهلك المزيد من الوقت والموارد. على الجانب الإيجابي ، لا يتطلب التعلم المعزز الكثير من الإشراف البشري.
نظرًا لقيودها ، غالبًا ما يتم دمجه مع أنواع أخرى من التعلم الآلي. تستخدم المركبات ذاتية القيادة ، على سبيل المثال ، خوارزمياته جنبًا إلى جنب مع تقنيات التعلم الآلي الأخرى ، مثل التعلم الخاضع للإشراف ، للتنقل على الطرق دون اصطدام.
أنواع خوارزمياته
يمكن فصل خوارزميات التعلم المعزز إلى فئتين رئيسيتين: القائمة على النموذج أو الخالية من النماذج. تقوم الخوارزمية القائمة على النموذج بتطوير نموذج لبيئتها للتنبؤ بمكافآت الإجراءات المحتملة. في التعلم المعزز الخالي من النماذج ، يتعلم وكيل الذكاء الاصطناعي مباشرة من خلال التجربة والخطأ.
تعد الخوارزميات المستندة إلى النموذج مثالية لعمليات المحاكاة والبيئات الثابتة ، مثل خط التجميع ، حيث يكون الهدف هو تكرار نفس الإجراء بشكل متكرر. تتضمن أمثلة خوارزمياته القائمة على النموذج تكرار القيمة وتكرار السياسة ، حيث يتبع وكيل الذكاء الاصطناعي صيغة صارمة (أو “سياسة”) لتحديد أفضل مسار للعمل.
تعد الخوارزميات الخالية من النماذج مفيدة للمواقف الواقعية الأكثر ديناميكية. مثال على التعلم الخالي من النماذج هو خوارزمية Deep Q-Network (DQN) ، التي تستخدم شبكة عصبية للتنبؤ بالنتائج بناءً على الإجراءات والنتائج السابقة. تتراوح تطبيقات DQN من التنبؤ بسوق الأوراق المالية إلى تنظيم جودة الهواء في المباني الكبيرة.
هناك تنوع في هذا التعلم يسمى التعلم المعزز العكسي ، وهو عندما يتعلم عامل الذكاء الاصطناعي من خلال مراقبة تصرفات البشر.
أسئلة شائعة:
س1: ما هو Q-Learning؟
الجواب: Q-Learning هو مصطلح آخر للخوارزميات الخالية من النماذج. لا يحتاج هذا النوع المحدد من التعلم المعزز إلى نموذج للبيئة لعمل تنبؤات حوله ؛ تهدف إلى “تعلم” الإجراءات التي تتخذها دول مختلفة.
س2: ما هي السياسة في التعلم المعزز؟
الجواب: “policy” هي خطة يستخدمها نظام التعلم لحل المشكلات. إنها تحدد ما تفعله ومتى تستند إلى المعلومات الموجودة لديها والحل الذي تحاول تحقيقه.