Details

Ce livre est structuré en cinq unités, offrant une expérience d'apprentissage holistique. Le voyage commence par une introduction aux algorithmes de bandits, explorant les concepts de base tels que les algorithmes Upper Confidence Bound (UCB) et Probably Approximately Correct (PAC). L'unité suivante introduit le cadre complet de l'apprentissage par renforcement (RL), allant au-delà des algorithmes de bandits pour considérer les interactions agent-environnement sur plusieurs étapes temporelles. Les processus de décision de Markov (PDM) sont présentés comme un cadre fondamental pour la modélisation des tâches de prise de décision séquentielle. La quatrième unité couvre les méthodes de programmation dynamique, les méthodes de différence temporelle (TD) et l'équation d'optimalité de Bellman en RL. Ces concepts permettent aux agents de planifier, d'apprendre et d'optimiser efficacement leurs actions. La dernière unité explore les techniques avancées de RL, telles que les traces d'éligibilité, l'approximation de fonction, les méthodes des moindres carrés, l'apprentissage Q ajusté, les réseaux Q profonds (DQN) et les algorithmes de gradient de politique.

Autorentext

Satyanarayana S. est un scientifique émérite, un professeur, un stratège en trading d'algos, un inventeur, un auteur et un chef d'entreprise né en Inde. Il est titulaire d'une maîtrise en sciences et ingénierie informatiques et d'un doctorat en algorithmes d'apprentissage automatique des graphes informatiques, obtenus respectivement à l'université Acharya Nagarjuna et à l'université Dravidian.

Klappentext

Ce livre est structuré en cinq unités, offrant une expérience d'apprentissage holistique. Le voyage commence par une introduction aux algorithmes de bandits, explorant les concepts de base tels que les algorithmes Upper Confidence Bound (UCB) et Probably Approximately Correct (PAC). L'unité suivante introduit le cadre complet de l'apprentissage par renforcement (RL), allant au-delà des algorithmes de bandits pour considérer les interactions agent-environnement sur plusieurs étapes temporelles. Les processus de décision de Markov (PDM) sont présentés comme un cadre fondamental pour la modélisation des tâches de prise de décision séquentielle. La quatrième unité couvre les méthodes de programmation dynamique, les méthodes de différence temporelle (TD) et l'équation d'optimalité de Bellman en RL. Ces concepts permettent aux agents de planifier, d'apprendre et d'optimiser efficacement leurs actions. La dernière unité explore les techniques avancées de RL, telles que les traces d'éligibilité, l'approximation de fonction, les méthodes des moindres carrés, l'apprentissage Q ajusté, les réseaux Q profonds (DQN) et les algorithmes de gradient de politique.

30 Tage Rückgaberecht

Weitere Informationen

Allgemeine Informationen
- Sprache Französisch
- Autor Satyanarayana S , Thayyaba Khatoon Md , N V Madhu Bindu
- Titel Apprentissage par renforcement
- Veröffentlichung 29.08.2023
- ISBN 6206403319
- Format Kartonierter Einband
- EAN 9786206403319
- Jahr 2023
- Größe H220mm x B150mm x T10mm
- Untertitel Livre de la nouvelle gnration
- Gewicht 233g
- Herausgeber Editions Notre Savoir
- Anzahl Seiten 144
- GTIN 09786206403319

Bewertungen

Schreiben Sie eine Bewertung

Nur registrierte Benutzer können Bewertungen schreiben. Bitte loggen Sie sich ein oder erstellen Sie ein Konto.

Apprentissage par renforcement

Details

Weitere Informationen

Bewertungen