Nun das Wissen kurz umgesetzt und schon gehts los.
Auf dem Trainingsset erreichen wir noch 3000 Iterationen die 80% Trefferquote, auf dem Validationset 77%. Das Validationsset ist langfristig das eigentlich spannendere da es zeigt welche Trefferquote unser Netz auf Daten erreicht die es nie gesehen hatte. Dass es auf dem Trainingsset einfacher ist richtig zu liegen läge in der Natur der Sache.
Zwar hat Chat-gpt im Prinzip schon das meiste irgendwo erklärt, aber um noch einmal den Unterschied zwischen loss und acc herauszuarbeiten. Loss enthält auch eine Gewichtung der Wahrscheinlichkeiten.
Bin ich mir beispielsweise zu 60% sicher dass ein Ereignis eintritt und dies wird bestätigt. Dann würde ich dennoch einen loss haben da dieser erst zufrieden wäre wenn ich dies auch mit 100% Sicherheit vorhergesagt hätte.
Die Accuracy ist hingegen sehr einfach, entweder ich liege richtig oder nicht, in diesem Fall lag ich richtig also hätte ich 100% Accuracy.
Da aber für den Wettbewerb keine Wahrscheinlichkeiten sondern konkret überlebt oder nicht-überlebt ausgegeben werden soll ist hier Accuracy das treffendere Maß für unser Endziel.
Ich habe aber noch alle Werte gespeichert und in ein einfaches Diagramm übertragen um einen besser Überblick zu haben.
Kurz nach der Initialisierung sieht man direkt eine Verbesserung vom loss auf beiden Sets. Auch die Accuracy springt von 40 auf 60%. Danach tut sich eine zeit lang nichts bei der Accuracy und auch der loss verbessert sich eher langsam. Dann um die 2200ste Iteration herum verbessert sich der loss plötzlich wieder stärker und die Accuracy verbessert sich noch einmal deutlich in den oberen 70iger Bereich. Danach verbessert sich das System noch langsam.
Der Trainingsloss sinkt im Prinzip permanent, aber der Validationsloss hat sein Minimum kurz vor der 10000sten Iteration erreicht. Danach steigt er wieder leicht was wohl an einem leichter überfitten der Daten liegt. Auch an der Accuracy sieht man dass die auf dem Validationsset bei 10000 noch ähnlich ist wie beim Trainingsset aber danach beginnen diese etwas auseinander zu laufen.
Mit anderen Worten 80% Treffergenauigkeit ist das was wir so erreichen können. Am besten war unser Netz ungefähr bei der 10000sten Iteration danach hat es staggniert.
Im Prinzip könnten wir noch Chat-gpt testen ob es diese Effekte zu deuten verstünde. Oder aber wir könnten die Aufgabe erst mal als erfolgreich erledigt ansehen und nun die Prognosen auf dem Testset machen bzw. Prognosen für selbsterstellte Passagiere.