Was ist der Unterschied zwischen Validierungssatz und Testsatz?


Antwort 1:

Der Validierungssatz enthält Eingabe- und Zielinformationen, die für den Algorithmus neu sind. Vor dem Validierungssatz sollte der Algorithmus mit einem anderen „Trainingssatz“ trainiert worden sein, der auch Eingabe- und Zielinformationen enthält. Sie können feststellen, ob der Algorithmus relevante neue Beispiele korrekt identifizieren kann, indem Sie ihn auf dem Validierungssatz ausführen. In dieser Phase können Sie neue Werte entdecken, die sich auf die Verarbeitung des Algorithmus auswirken. Nach der Validierung müssen Datenwissenschaftler häufig zum Trainingssatz zurückkehren und Werte und Hyperparameter im Trainingssatz anpassen, um den Algorithmus präziser und genauer zu machen.

Der Testsatz wird nach vielen Verbesserungen und Validierungen verwendet. Während der Validierungssatz Tags und Zielinformationen als Trainingsräder für den Algorithmus enthielt, enthielt der Test nur Eingabedaten. Datenwissenschaftler verwenden den Testsatz, um festzustellen, ob der Algorithmus Vorhersagen nur auf der Grundlage von Eingabedaten treffen kann, und um zu testen, ob der Algorithmus in realen Anwendungen verwendet werden kann.

Hier ist ein cooles Flussdiagramm, das den KI-Trainingsprozess zeigt und wo Validierung und Test-Set passen.

Quelle: Wie funktioniert KI-Training?


Antwort 2:

Während des Trainings überprüfen Sie Ihr Modell anhand des Validierungssatzes. Während sich der Validierungssatz niemals direkt auf Ihre Modellparameter auswirkt (wohingegen der Trainingssatz dies tut), wird die Leistung des Validierungssatzes verwendet, um Hyperparameter, frühzeitiges Anhalten und Überlegungen zur Architektur zu bestimmen. Wir wählen aus, welche der oben genannten Punkte die beste Leistung für den Validierungssatz erzielen .

In der Zwischenzeit wird der Testsatz erst überprüft, wenn das Modell fertig ist. Der Zweck des Testsatzes besteht darin, die Leistung zu melden. Wir können die Leistung des Validierungssatzes nicht melden, da wir die Hyperparameter ausgewählt und auf der Grundlage der Leistung des Validierungssatzes vorzeitig gestoppt haben, was zu einer Verzerrung dieser Maßnahme führt. Der Testsatz ist unser bester Weg, um zu messen, ob sich das Modell gut verallgemeinern lässt.


Antwort 3:

Wenn Sie die Leistung eines Systems melden möchten, können Sie die Beschriftungen im Testsatz erst in Ihrem letzten Bericht verwenden. Dies bedeutet, dass es sich nicht mehr um einen Testsatz handelt, wenn Sie sich die Beschriftungen im Testsatz ansehen und Ihr System entsprechend anpassen. Es wird ein Teil Ihres Trainingssets. Ein solcher Satz wird als "Validierungssatz" bezeichnet. Mit Blick auf die Leistung im Validierungssatz (unter Verwendung der dortigen Beschriftungen) passen Sie Ihr System an und optimieren es. Nachdem alles abgeschlossen ist, melden Sie die Leistung in einem völlig unabhängigen und unsichtbaren Testsatz.