Worin besteht der Zusammenhang und Unterschied zwischen dem Erlernen von Bestärkungen und der Minimierung kontrafaktischer Reue?


Antwort 1:

Counterfactual Regret Minimization (CRM) ist ein Algorithmus zur Ermittlung des Nash-Gleichgewichts in Spielen mit unvollständigen Informationen. Es lebt in der Welt der extensiven Spiele, einem spieltheoretischen Rahmen, der unvollständige Informationen zulässt. Beim Reinforcement Learning (RL) wird in der Regel das Markov-Entscheidungsprozess-Framework (Markov Decision Process, MDP) verwendet, das sehr ähnlich ist, jedoch keine unvollständigen Informationen zulässt.

CRM unterscheidet sich von herkömmlichen RL-Algorithmen darin, dass es nicht versucht, die erwartete Rendite zu maximieren. Stattdessen wird die Ausnutzbarkeit minimiert. Ein gutes Beispiel dafür ist die Stein-Papier-Schere. CRM wird lernen, zufällig zwischen den Optionen zu wählen und so im Durchschnitt nie zu verlieren - aber es wird auch im Durchschnitt nie gewinnen. Herkömmliche RL-Algorithmen versuchen stattdessen, Schwächen im Verhalten ihres Gegners auszunutzen, öffnen sich jedoch gleichzeitig für die potenzielle Ausnutzung / Täuschung.

Wenn Sie mehr über CRM erfahren möchten, kann ich Noam Brown wärmstens empfehlen, bei dem er CRM mit hervorragenden Ergebnissen auf Poker anwendet.

TLDR: CRM arbeitet mit unvollkommenen Informationsspielen und minimiert die Ausnutzbarkeit, anstatt die Belohnung zu maximieren.