Dissertation Bernhard Schottky

Generalisierungsverhalten von Mehrschichtnetzwerken

Betreuer: Dr. Uwe Krey

Abgabedatum: 28.10.96

Untersucht wurde das Verallgemeinerungsverhalten von Neuronalen Netzen in Tree-Architektur. Ein Input-Pattern wird von K (Sub-)Perzeptrons klassifiziert. Diese K Zwischenwerte (Internal Representation) werden von einer booleschen Entscheidungs-Funktion B auf den Endoutput abgebildet.

Untersucht wurde, wie ein Schülernetzwerk anhand von Trainingsbeispielen eine Lehrerregel lernen kann, die ebenfalls durch ein Netz gegeben ist. Dabei sind K und B für beide Netze fest gegeben (lernbare Probleme). Betrachtet wurden der Gibbs- und der Bayesalgorithmus. Die aus der Spinglasphysik übernommene Replika-Methode wurde zur Durchführung von Unordnungsmittelungen verwendet.

Die Lernkurven für unterschiedliche Architekturen (also K und B) zeigen für große Trainingssatzgrößen universelles Verhalten, bei wenig Trainingsbeispielen jedoch signifikante Unterschiede. Insbesondere können manche Netze erst ab einer kritischen Trainingssatzgröße nichttrivial generalisieren.

Desweiteren wurde u.a. der Einfluß von Rauschen (Output- und Input-Noise), Overfitting-Effekte, Mechanismen von Lernen mit Noise, Replika-Symmetrie-Brechung, Wahl der internen Repräsentationen untersucht.