L’apprentissage par renforcement est un domaine de l’apprentissage automatique qui implique de prendre les bonnes actions pour maximiser les récompenses dans des situations spécifiques. Dans ce didacticiel complet, vous acquerrez une base solide sur les sujets clés de l’apprentissage par renforcement. Les cours couvrent l’apprentissage Q, SARSA, l’apprentissage double Q, l’apprentissage Q profond et les méthodes de gradient stratégique. Ces algorithmes sont utilisés dans de nombreux environnements de gymnases ouverts à l’IA, y compris les envahisseurs spatiaux, les percées, etc. La partie apprentissage profond utilise Tensorflow et PyTorch. Ce cours commence par des algorithmes plus modernes, tels que les méthodes d’apprentissage en profondeur et de gradient stratégique, et démontre la puissance de l’apprentissage par renforcement. Ensuite, ce cours enseigne quelques concepts de base qui prennent en charge tous les algorithmes d’apprentissage par renforcement. Ceux-ci sont illustrés par l’écriture d’algorithmes antérieurs à l’apprentissage en profondeur, mais ils sont toujours à la base de la pointe. Ceux-ci ont été étudiés dans certains environnements plus traditionnels du gymnase OpenAI, tels que le problème des pôles. 💻Code : ⭐️ Contenu du cours⭐️⌨️ (00:00:00) Introduction⌨️ (00:01:30) Introduction à l’apprentissage Q profond⌨️ (00:08:56) Comment coder l’apprentissage Q profond dans Tensorflow⌨️ (00:52 ) :03) Pytorch Deep Q Learning Partie 1 : Q Network⌨️ (01:06:21) Pytorch Deep Q Learning Partie 2 : Codage des agents⌨️ (01:28:54) Pytorch Deep Q Learning Partie⌨️ (01:46: 39 ) Introduction à Strategy Gradient 3: Encodage de la boucle principale⌨️ (01:55:01) Comment utiliser le gradient de stratégie pour vaincre Lunar Lander ⌨️ (02:21:32) Comment utiliser le gradient de stratégie pour vaincre les envahisseurs de l’espace⌨️ (02:34 :41) ) Comment créer votre propre environnement d’apprentissage par renforcement Partie 1⌨️ (02:55:39) Comment créer votre propre environnement d’apprentissage par renforcement Partie 2⌨️ (03:08:20) Les bases de l’apprentissage par renforcement⌨️ (03:17) : 09) Processus décisionnel de Markov ⌨️ (03:23:02) Exploration du dilemme de l’exploitation des vulnérabilités ⌨️ (03:29:19) Apprentissage par renforcement dans Open AI Gym : SARSA ⌨️ (03:39:56) Apprentissage par renforcement dans Open AI Gym : Double Q Learning ⌨️ (03:54:07) Cours de synthèse Phil de Machine Learning wi. Découvrez sa chaîne YouTube : – Apprenez à coder gratuitement et obtenez un emploi en tant que développeur : lisez des centaines d’articles sur la programmation : et abonnez-vous chaque jour à de nouvelles vidéos sur la technologie :.