Selbstorganisierende neuronale Karten
Ein übergreifendes Konzept kann zum einen Aspekte der Strukturbildung im Sehsystem und weiteren Bereichen des Gehirns erklären; zum anderen liefert es geeignete adaptive Verfahren für Datenreduktion und Steuerung in technischen Anwendungen.

Von Prof. Dr. Hans-Ulrich Bauer, Prof. Theo Geisel, Dr. Klaus Pawelzik und Fred Wolf

Die vielstufige und komplizierte Verarbeitung optischer Information in der Großhirnrinde beginnt relativ einfach, und zwar mit einer projektionsartigen Abbildung. Diese ist zwar in der Regel nicht geometrisch exakt, sondern verzerrend; aber zumindest die Beziehung der räumlichen Nähe bleibt erhalten: Benachbarte Nervenzellen (Neuronen) in der ersten Schicht des optischen Cortex, des auf Bildverarbeitung und -erkennung spezialisierten Teils der Hirnrinde, werden von benachbarten Sehzellen der Netzhaut erregt (Bild 1).

Nicht nur die visuelle Wahrnehmung folgt diesem Prinzip. So liegen auch die für verschiedene Finger zuständigen Hirnregionen in derselben Reihenfolge nebeneinander wie die Finger selbst.

Entsprechendes gilt auch dann, wenn Nachbarschaft nicht einfach räumlich, sondern in einem abstrakteren Sinne zu verstehen ist. Die auf die Erkennung von Kanten spezialisierten Zellen des visuellen Cortex sind so angeordnet, daß die von benachbarten Zellen bevorzugten Kantenorientierungen wenig voneinander abweichen; und die Neuronen, mit denen wir Tonhöhen erkennen, liegen wohlgeordnet in einer Reihe von den tiefsten bis zu den höchsten Tönen.

Aber das Prinzip der Nachbarschaftserhaltung gilt nicht universell. Das wäre auch gar nicht möglich, weil dann die abbildende Gehirnregion im Großen so zusammenhängend sein müßte wie das Abzubildende. Insbesondere ist die Oberfläche unseres Körpers nicht zusammenhängend repräsentiert, sondern in Stücken, als wäre die Haut des Menschen in Teilstücke zerschnitten und diese, geeignet verzerrt und verkleinert, auf dem somatosensorischen Cortex untergebracht worden (Bild 2). Auch bei der visuellen Wahrnehmung gibt es solche Schnittlinien. Das retinale Bild wird also zerlegt im Cortex repräsentiert.

Wie etablieren sich solch komplizierte Projektionsstrukturen im sich entwickelnden Gehirn? Woher weiß das einzelne Neuron, zu welchem Wahrnehmungselement (also zu welcher Stelle der Netzhaut, welchem Tastkörperchen auf der Kuppe des rechten Zeigefingers, welcher Tonhöhe) es eine bleibende Verbindung knüpfen soll? Wie und mit welchen Einschränkungen wird das Prinzip der Nachbarschaftserhaltung durch die Verschaltung der Neuronen verwirklicht?

Wir glauben, daß die dafür erforderliche Information nicht explizit im Erbgut niedergelegt ist; denn diese Verknüpfungsstrukturen sind so kompliziert, daß zu ihrer Beschreibung das komplette Genom des Menschen bei weitem nicht ausreichen würde. Vielmehr ist anzunehmen, daß das Erbgut nur allgemeine Anweisungen enthält, nach denen die Neuronen ihre Nachbarschaftsbeziehungen selbst organisieren.


Natürliche und künstliche neuronale Netze

In diesem Artikel geht es um die Prinzipien dieser Selbstorganisation neuronaler Netze. Dabei nehmen wir den Standpunkt der theoretischen Neurowissenschaft ein, die sich mittlerweile als eigenständiges Gebiet entwickelt hat. Ein Ziel dieser Forschungsrichtung besteht darin, ausgehend von natürlichen neuronalen Netzen durch die Untersuchung abstrahierter Modelle grundlegende Eigenschaften biologischer Informationsverarbeitung aufzudecken. Des weiteren sucht man nach Möglichkeiten, die am natürlichen Vorbild gewonnenen Prinzipien auf technische Anwendungen zu übertragen.

Inzwischen hat sich eine einheitliche Beschreibungsebene für natürliche wie künstliche neuronale Netze herauskristallisiert: Man beschreibt beide als Ensembles gekoppelter einfacher Modellneuronen, die auch Knoten des Netzes genannt werden. Die künstlichen neuronalen Netze folgen jeweils einem von wenigen allgemeinen Schemata, sogenannten Architekturen. Bei der Analyse dieser Netze treten neben mathematische Verfahren, etwa aus der nichtlinearen Dynamik und der statistischen Physik, vor allem Computersimulationen.

Beispiele für solche Standardmodelle sind Assoziativspeicher (siehe "Assoziatives Gedächtnis und Gehirntheorie" von Günther Palm, Spektrum der Wissenschaft, Juni 1988, Seite 54) oder mehrschichtige Perceptrons mit Backpropagation-Lernregel (siehe "Wie neuronale Netze aus Erfahrung lernen" von Geoffrey E. Hinton, Spektrum der Wissenschaft, November 1992, Seite 134). Beiden ist gemeinsam, daß das Ergebnis der Informationsverarbeitung in Form einer über eine Ausgangsschicht verteilten Erregung vorliegt. Sind etwa in einem Netz mit vier Ausgangsknoten die Elemente 1 und 3 aktiv, so kann dies eine Information A bedeuten, während Information B durch die Aktivität der Elemente 1, 2 und 4 codiert wird. Der räumlichen Anordnung der Knoten kommt dabei keine Bedeutung zu.

Neuronale Karten

Hingegen kommt es bei den neuronalen Netzen, die wir hier betrachten, sehr wohl auf die räumlichen Beziehungen an; man nennt sie wegen ihrer Abbildungseigenschaften neuronale Karten. Die zu verarbeitenden Eingangsreize werden zwar ebenfalls auf eine Schicht von Ausgangsknoten abgebildet, aber auf eine sehr einfache Art: Ein einzelner Reiz löst nichts weiter aus als eine lokalisierte Erregung in der Ausgangsschicht, deren Position die wesentliche Information über den Reiz enthält. Beispielsweise können nachfolgende Informationsverarbeitungsstufen an der Position einer Erregung im somatosensorischen Cortex ablesen, welche Stelle der Haut gereizt worden ist. Neuronale Karten verwenden also einen Ortscode.

Benachbarte Knoten in der Ausgangsschicht der Karte sprechen auf ähnliche Eingangsreize an. Bei der somatosensorischen Karte heißt "ähnlich" nichts weiter als benachbart im räumlichen Sinne; Entsprechendes gilt für die Abbildung der Netzhaut in visuellen Karten. Im auditorischen Cortex bezieht sich die Ähnlichkeit zweier Töne auf die Tonhöhe.

Eine Karte kann auch kompliziertere Verarbeitungsleistungen erbringen, indem sie ein im Ausgangsraum zu repräsentierendes Merkmal durch eine Art Rechenvorgang erst aus den Reizen extrahiert. Solche Karten heißen deshalb auch computational maps. Bei der Untersuchung des Hörsystems von Schleiereulen beispielsweise hat Mark Konishi vom California Institute of Technology (Caltech) in Pasadena mehrere dieser Karten gefunden. Nach einer mehrstufigen Auswertung von Laufzeit- und Intensitätsunterschieden der aus beiden Ohren eintreffenden Signale wird die Richtung einer Schallquelle im Raum als Ort der Erregung in einem Kern des Mittelhirns namens ICx codiert.

Im visuellen Cortex gibt es Karten, die eine Kombination aus Position eines Reizes auf der Retina und seiner Orientierung wiedergeben. Ein Neuron innerhalb einer solchen Karte reagiert also nur dann, wenn ein Reiz in einen bestimmten Bereich der Retina eintrifft und zugleich einer Kante mit einer bestimmten Orientierung entspricht. Wieder liegen zu benachbarten Richtungen gehörige Neuronen benachbart. Dies haben David Hubel und Torsten Wiesel (Nobelpreis 1981), damals an der Medizinischen Fakultät der Harvard-Universität in Cambridge (Massachusetts), mit Hilfe von Einzelelektrodenableitungen und durch systematisches Variieren der Elektrodenposition nachgewiesen (Spektrum der Wissenschaft, November 1979, Seite 106).

Inzwischen gibt es noch erheblich bessere Meßmethoden: Vor einigen Jahren haben die Arbeitsgruppen von Amiram Grinvald von der Rockefeller-Universität in New York sowie von Gary Blasdel und Guy Salama von der Universität Pittsburgh (Pennsylvania) die Methode der optischen Ableitungen entwickelt; dabei registriert eine Kamera das komplette Erregungsbild eines Cortexbereichs (Bild 5).


Abbildungen und Stetigkeit

Zur Beschreibung der Beziehung zwischen Reiz und Repräsentation ist der mathematische Abbildungsbegriff geeignet. Eine Abbildung ordnet jedem Element einer Menge genau ein Element einer anderen Menge zu. Da man sich abstrakte Dinge gerne geometrisch veranschaulicht, spricht man statt von Mengen von Räumen; jeder Punkt des einen Raums wird auf einen des anderen Raums abgebildet. Ein solcher Raum kann der gewöhnliche dreidimensionale Raum sein, die zweidimensionale Ausgangsschicht eines (natürlichen oder künstlichen) neuronalen Netzes oder auch die Menge aller hörbaren Tonhöhen. Eine neuronale Karte realisiert also eine Abbildung von einem Eingangsraum (der Menge der wahrnehmbaren Reize) in einen Ausgangsraum.

Diese Abbildung ist im Idealfall umkehrbar: Aus der Erregung eines Punktes im Ausgangsraum kann man eindeutig auf den erregenden Reiz (einen Punkt im Eingangsraum) rückschließen. Daß dieses Ideal in Lebewesen nur ungenau realisiert ist, spielt für unsere Betrachtungen keine Rolle.

Auch eine umkehrbare Abbildung muß keineswegs längentreu oder geometrisch sonst irgendwie einfach sein, sondern kann erhebliche, biologisch sinnvolle Verzerrungen enthalten. In der somatotopen Karte der Hautoberfläche (Bild 2) nehmen die Bereiche der Finger, der Lippen oder der Zunge viel mehr Platz ein, als ihrem Anteil an der Hautoberfläche zukommt. Durch diese vergleichsweise starke Vergrößerung können nahe beieinanderliegende Reize besser unterschieden werden.

Für die Analyse neuronaler Karten ist es nun zweckmäßig, nicht die Abbildung vom Reiz auf die Repräsentation, sondern die Umkehrabbildung zu betrachten. Diese ist nämlich weitgehend stetig: Wenn man in Gedanken ein kleines Stück auf einem visuellen cortikalen Areal entlangwandert, hüpft der korrespondierende Punkt auf der Netzhaut nicht beispielsweise vom oberen zum unteren Rand des Gesichtsfeldes.

Stetigkeit einer Abbildung und Stetigkeit ihrer Umkehrabbildung sind zwei verschiedene Dinge. Wenn man ein kleines Stück auf der Netzhaut entlangwandert, springt der entsprechende Erregungspunkt im Cortex unter Umständen sogar sehr weit (und das ist der springende Punkt). Solche Abweichungen von der naheliegenden Ordnung lassen Rückschlüsse darauf zu, wie neuronale Karten während der Entwicklung des Individuums zustande kommen.

Aus einer Vielzahl neurobiologischer Experimente, besonders am visuellen und somatosensorischen System, geht hervor, daß viele neuronale Karten erst unter dem Einfluß externer Reize ihre Struktur oder zumindest ihre Feinstruktur selbst organisieren. Die dafür erforderlichen Anweisungen im Erbgut sind nicht nur viel kürzer als eine explizite Strukturfestlegung; es ist sogar anzunehmen, daß die zahlreichen verschiedenen neuronalen Karten im Hirn dieselbe Selbstorganisationsregel, vielleicht mit kleinen Modifikationen, verwenden. Dazu paßt, daß die Anatomie der Großhirnrinde in großen Bereichen einheitlich ist.


Gemeinsame Erregung verbindet

Einen ersten Algorithmus zur Selbstorganisation visueller Karten hat Christoph von der Malsburg, damals am Max-Planck-Institut für biophysikalische Chemie in Göttingen, bereits vor zwei Jahrzehnten vorgestellt. Dabei ging er von drei weitgehend akzeptierten Grundannahmen aus:

- Die Verbindungsstellen (Synapsen) zwischen den Neuronen verändern ihre Wirksamkeit aufgrund der Aktivität beider Verbindungspartner. Diese Regel, die Donald Hebb bereits 1949 vorgeschlagen hat (Spektrum der Wissenschaft, November 1993, Seite 54), bildet die Basis für die Lernfähigkeit neuronaler Netze;

- neuronale Aktivität breitet sich nicht nur in die nächstfolgende Schicht, sondern auch innerhalb einer Schicht ein kleines Stück seitwärts aus, und

- cortikale Neuronen und ihre Verbindungsstellen konkurrieren miteinander: Neuronen mit stärkerer Erregung unterdrücken die schwächeren. Im Extremfall unterdrückt das mit der maximalen Erregung (das Siegerneuron) alle anderen.

Auf ähnlichen Grundüberlegungen basieren zahlreiche neuere Modelle, deren Resultate mit experimentellen Ergebnissen immer besser übereinstimmen. Eines von ihnen, das durch seine einfache algorithmische Formulierbarkeit und seine numerische Robustheit besonders hervorsticht, ist die selbstorganisierende Merkmalskarte, die Teuvo Kohonen von der Technischen Universität in Helsinki 1982 vorgestellt hat (Kasten Seite 42). Für diesen Algorithmus konnten mathematisch rigorose Ergebnisse zur Strukturbildung hergeleitet werden; zudem machte Kohonen diesen Typ neuronaler Netze auch für technische Anwendungen populär. Ein wesentlicher Vorteil ist, daß die Struktur der Karte allein durch Präsentation von Beispielreizen entsteht, ohne daß ein Lehrer Auskunft über den bisherigen Erfolg des Lernens geben müßte. Dadurch findet die Karte problemangepaßte Datentransformationen beispielsweise für die Visualisierung von Daten aus hochdimensionalen Räumen in einer nahezu automatischen Weise (vergleiche Spektrum der Wissenschaft, Juni 1995, Seite 34).

Eine Kohonen-Karte überträgt die Nachbarschaftsbeziehungen unter ihren Knoten in Nachbarschaftsbeziehungen innerhalb des Eingangsraums, indem während der Lernphase (gedachte) Kräfte wirken, die einem gewissen Gleichgewichtszustand zustreben. Dieser entspricht einer Abbildung vom Eingangs- in den Ausgangsraum, deren Umkehrung stetig ist oder zumindest diesem Ideal so nahe kommt wie nur möglich. Auch manche biologischen Karten weisen in Rückwärtsrichtung ein höheres Maß an Stetigkeit auf als in Vorwärtsrichtung.

Die mathematischen Komplikationen, die sich für den Stetigkeitsbegriff daraus ergeben, daß im allgemeinen der Eingangsraum kontinuierlich, der Ausgangsraum aber diskret ist (beispielsweise nur die Kreuzungspunkte eines Gitters enthält), wollen wir hier nicht diskutieren. Statt dessen betrachten wir die Konsequenzen für die Stetigkeit, die sich aus den Dimensionen und den Abmessungen von Ein- und Ausgangsraum ergeben.

Wenn beide einander ähnlich sind, beispielsweise beide ungefähr von rechteckiger Form mit dem gleichen Seitenverhältnis, treten keine Schwierigkeiten auf. Der Kohonen-Algorithmus erzeugt eine Karte, die in Vorwärts- und Rückwärtsrichtung nachbarschaftserhaltend ist. Das gilt ebenso in dem noch einfacheren Fall der Abbildung einer Linie auf eine Kette von Neuronen (Bild 4 a).

Interessantere Strukturen können auftreten, wenn Eingangs- und Ausgangsraum in ihren Dimensionen und Abmessungen nicht zusammenpassen. So stehen ein quadratischer Eingangsraum und eine Kette von Neuronen in einem Dimensionskonflikt. Die Karte müßte so etwas wie eine stetige, umkehrbare Abbildung von einer Linie auf eine Fläche finden. Das aber ist ein extrem kompliziertes Gebilde; als vor etwa 100 Jahren die Mathematiker Giuseppe Peano (1858 bis 1939) und David Hilbert (1862 bis 1943) ein erstes Beispiel präsentierten, galt diese flächenfüllende, inzwischen nach Peano benannte Kurve als ein abschreckendes Monster (Bild 3; vergleiche Spektrum der Wissenschaft, März 1992, Seite 72).

Tatsächlich liefert Kohonens Karte in diesem Falle eine Struktur, die je nach der Diskretisierung und nach der Größe des Parameters s (siehe Kasten) mehr oder weniger genau eine Peano-Kurve approximiert (Bild 4 e). Hier zeigt sich deutlich, daß die Umkehrung einer stetigen Abbildung nicht stetig sein muß: Es haben zwar alle im Ausgangsraum benachbarten Neuronen auch benachbarte rezeptive Felder im Eingangsraum, aber nicht alle benachbarten Reize im Eingangsraum werden auf benachbarte Neuronen abgebildet.

Wenn aber das Rechteck nicht quadratisch, sondern sehr langgestreckt ist, kann eine Kette von Neuronen es gleichsam nicht von einer Linie unterscheiden (Bild 4 c). Das liegt daran, daß anders als bei der mathematisch definierten Peano-Kurve nur endlich viele Punkte ihren Platz finden müssen. Hingegen nimmt in einem quadratähnlichen Rechteck die Kette die mäandrierende Peano-Struktur an (Bild 4 d). Irgendwo zwischen schmal und breit muß das Verhalten der Kette umspringen.

Vor einigen Jahren gelang es Helge Ritter und Klaus Schulten, damals an der Technischen Universität München, dieses kritische Längenverhältnis mathematisch zu bestimmen. Es ist proportional zur Reichweite s der Nachbarschaftsfunktion und umgekehrt proportional zur Anzahl der Knoten. Das gilt analog auch für andere Dimensionskonflikte, etwa bei der Abbildung eines dreidimensionalen Eingangsraums auf ein zweidimensionales, quadratisches Gitter.


Falten und Verwerfungen in natürlichen Karten

Was haben diese theoretischen Überlegungen mit der Realität zu tun? Auch die Struktur biologischer Karten läßt sich als Konsequenz eines Konflikts zwischen Ein- und Ausgangsdimension erklären. Das primäre visuelle cortikale Areal V1 beispielsweise ist im wesentlichen zweidimensional (auf den geschichteten Aufbau des Cortex kommt es hier nicht an). In diesem Areal sind aber in topographischer Weise Neuronen angeordnet, deren rezeptive Felder durch mehr als zwei Parameter charakterisiert sind: Zu den zwei Ortsdimensionen für das Zentrum des rezeptiven Feldes auf der Retina kommen die Vorzugsorientierung des Feldes, der Grad dieser Bevorzugung (die Orientierungsspezifität) sowie die Okularität, ein Maß dafür, zu welchem Anteil die einzelnen Augen zu der Information beitragen. Insgesamt ist also ein fünfdimensionaler Merkmalsraum auf den nur zweidimensionalen Ausgangsraum abzubilden.

Anscheinend gleicht dieser Raum dem fünfdimensionalen Analog einer Pizzaschachtel: Es gibt zwei Dimensionen großer Ausdehnung, nämlich die für den retinalen Ort, während die drei anderen nur wenig ausgedehnt sind. Im Rahmen dieser Analogie fanden mehrere Arbeitsgruppen, darunter die von Richard Durbin von der Universität Stanford (Kalifornien) und von Graeme Mitchison vom King's College in Cambridge (England), Klaus Obermayer und Klaus Schulten - damals an der Universität von Illinois in Urbana-Champaign - sowie Gary Blasdel an der Harvard-Universität, in Simulationsstudien selbstorganisierte neuronale Karten, die in zahlreichen Details mit den im Hirn gefundenen Karten übereinstimmen (Bild 5). Unter diesen Umständen paßt sich nämlich eine Kohonen-Karte (ebenso wie andere, ähnliche Algorithmen zur Selbstorganisation neuronaler Karten) im wesentlichen den zwei Ortsdimensionen an, allerdings mit mäanderartigen Abweichungen in Richtung der übrigen Dimensionen. Unter Nutzung der oben dargestellten theoretischen Ergebnisse konnten Obermayer, Blasdel und Schulten außerdem die Bedingungen, unter denen Kolumnen gleicher Okulardominanz oder Orientierung im Modell auftreten, auch mathematisch charakterisieren.

Selbst wenn Eingangs- und Ausgangsraum die gleiche Dimension haben, können Karten so verzerrt sein, daß Nachbarschaften verletzt werden. In neurophysiologischen Experimenten haben bereits vor zwei Jahrzehnten John Allman und Jon Kaas an der Universität von Wisconsin in Madison Beispiele für solche Karten im visuellen System vermessen - zunächst bei Affen. Bewegt sich ein Reiz kontinuierlich durch das Gesichtsfeld, dann verläuft die dadurch hervorgerufene Erregungsspur ebenfalls auf einer ununterbrochenen Linie durch die Areale V2 und V3. Wenn der Reiz jedoch den äußeren Teil der horizontalen Bildhalbierenden kreuzt, läuft die Erregungsspur zunächst an den Rand des Areals, macht dann, wenn im visuellen Feld der horizontale Meridian erreicht ist, am Rand einen Sprung und läuft an einer anderen Stelle wieder in das Areal hinein. Dieses als Felddiskontinuität ("Feld-Unstetigkeit") bekannte Phänomen findet sich bei Affen, Katzen und Ratten sowie wahrscheinlich beim Menschen, wie man aus Untersuchungen an Hirnverletzten vermuten darf, nicht aber bei Mäusen.

Interessanterweise treten Felddiskontinuitäten nie im primären visuellen Cortex auf, sondern nur in den angrenzenden Arealen A18/19 und V2/V3. Es ist nicht anzunehmen, daß sich die Selbstorganisationsmechanismen in diesen Arealen grundsätzlich unterscheiden. Liegt statt dessen der wesentliche Unterschied in den anatomischen Bedingungen?

Zur Klärung dieser Hypothese haben wir ein Computermodell auf der Basis der selbstorganisierenden Merkmalskarte entwickelt, in dem wir einerseits die Verteilung der Reize über die Retina, andererseits die geometrische Form des Cortexareals systematisch variieren können. Es stellte sich heraus, daß die Verteilung der Reize keinen großen Einfluß auf das Ergebnis hatte, die Geometrie aber sehr wohl. Sobald das Cortexareal zu länglich wird, treten Einstülpungen auf: Der Rand des Ausgangsraumes folgt nicht mehr dem Rand des Eingangsraumes, sondern biegt nach innen ab, verläuft ein Stück weit ins Innere, macht kehrt und verläuft in entgegengesetzter Richtung wieder hinaus, bevor er weiter dem Rand des Eingangsraums folgt (Bild 4 f). Also ist die Abbildung vom Ausgangs- in den Eingangsraum stetig, ihre Umkehrung aber nicht: Ein Reiz, der über die Einstülpung hinwegwandert, erzeugt eine Spur, die an der entsprechenden Stelle einen Sprung macht.

Das paßt sehr gut zu Beobachtungen am echten Gehirn: Die Areale 18 und 19 der Katze haben ein Seitenverhältnis von ungefähr 20, also ein großes im Vergleich zu einem Wert von etwa 2 für das Areal 17, in dem keine Felddiskontinuität auftritt. Ähnliche Befunde gelten für andere Tierarten.

Die Übereinstimmung zwischen Modell und Realität geht noch weiter. In unserer Simulationsstudie fanden wir heraus, daß sich in besonders langgestreckten Zielgebieten auch Karten mit mehr als einer Falte bilden. Wiederholt man das numerische Experiment mehrfach mit denselben Parametern, aber unterschiedlichen, zufällig gewählten Anfangskonfigurationen, so können Anzahl und Tiefe der Falten von Mal zu Mal durchaus verschieden ausfallen. Der dynamische Prozeß, welcher der Etablierung der Karte zugrunde liegt, hat mithin nicht nur einen stabilen Gleichgewichtszustand, auf den hin er konvergieren könnte, sondern mehrere.

Diese Multistabilität paßt hervorragend zu einem zuvor schwer zu interpretierenden Befund. Vor einigen Jahren hatten die Arbeitsgruppen um Larry Palmer in Philadelphia und um Klaus Albus in Göttingen in neurophysiologischen Kartierungsexperimenten nicht nur Felddiskontinuitäten, sondern auch weitere geometrische Anomalien gefunden. In den Arealen 18 und 19 der Katze sind Teile des peripheren Gesichtsfelds so repräsentiert, daß sie nicht mit dem Rest zusammenhängen. Palmer hat diese Repräsentation insulär genannt (Bild 6 d). Anzahl und Ausdehnung der Inseln schwanken von Individuum zu Individuum: Es finden sich 0 bis 2 Inseln, in denen verschieden große Bereiche des Gesichtsfelds repräsentiert werden.

Betrachtet man nun die Verteilung von rezeptiven Feldern der cortikalen Neuronen im visuellen Feld, so stellt sich heraus, daß eine Insel genau dem Stück zwischen zwei Falten entspricht. Insbesondere gibt es stets eine Insel weniger, als Falten vorhanden sind. Eine einzelne Falte entspricht einer Felddiskontinuität ohne Insel. Die von Palmer und Albus beschriebene erstaunliche interindividuelle Variabilität ist im Rahmen unseres Modells einfach Ausdruck der Multistabilität des Kartenbildungsprozesses.

Unser Modell dient der Bestätigung der Hypothese, daß die Geometrie eines cortikalen Areals starken Einfluß auf die Struktur der sich darin entwickelnden Karte nehmen kann. Das gilt offenbar auch in anderen visuellen Karten. Kolumnen gleicher Okulardominanz sind bei Katzen fleckenförmig, bei Affen streifenförmig angeordnet. David Jones von der Universität Stanford (Kalifornien), Rick Van Sluyters von der Universität von Kalifornien in Berkeley und Kathryn Murphy von der McGill-Universität in Montreal (Kanada) haben für diesen Unterschied die sehr verschiedenen Verhältnisse der Kartenvergrößerungsfaktoren in den beiden Hauptkartenrichtungen verantwortlich gemacht.

Kann ein Algorithmus für selbstorganisierende Karten wie der von Kohonen einen solchen Zusammenhang reproduzieren? Sieht also beispielsweise die Kartenverwerfung bei der selbstorganisierten Abbildung einer quadratischen Pizzaschachtel auf ein quadratisches Ausgangsareal qualitativ anders aus als auf ein länglich rechteckiges? Durch eine mathematische Analyse und eine Computersimulation konnten wir zeigen, daß die Antwort ja lautet.

Daß die Abmessungen eines Systems die Muster beeinflussen, die sich darin bilden können, ist ein aus physikalischen, etwa hydrodynamischen, Musterbildungssystemen wohlbekanntes Phänomen (Spektrum der Wissenschaft, September 1980, Seite 118). Diese Analogie zeigt, daß Ergebnisse und Methoden aus der Theorie der Musterbildung in dynamischen Systemen mit Gewinn auf neuronale Karten übertragbar sind.


Technische Anwendungen

Selbstorganisierende neuronale Karten lösen in lebenden Organismen ein Problem, das auch in technischen Anwendungen häufig vorkommt: die Reduktion einer überreichen Datenflut auf das Wesentliche. Typischerweise ist der Ausgangsraum von niedrigerer Dimension als der Eingangsraum; und während die Eingangsdaten kontinuierlich variieren, beschränkt sich die Information, die dem Ausgangsraum zu entnehmen ist, auf eine unter mehreren diskreten (voneinander abgesetzten) Positionen. Die Abbildung vom Eingangs- in den Ausgangsraum läuft also auf Informationsverminderung hinaus: Anstelle eines Punktes in einem hochdimensionalen Datenraum hat man nur noch so etwas wie eine Hausnummer zur Verfügung, nämlich die Angabe desjenigen Neurons, dessen Feldzentrum dem abzubildenden Punkt am nächsten liegt.

Wieso können wir dann überhaupt sehen? Warum bleibt bei dieser massiven Informationsreduktion gerade das Wesentliche übrig? Weil die neuronale Karte dank der Konstruktion des Algorithmus ihre Referenzpunkte, das heißt die Zentren der rezeptiven Felder ihrer Neuronen, optimal über den Eingangsraum verteilt. Optimal heißt dabei nicht gleichmäßig; vielmehr häufen sich die Referenzpunkte da, wo während der Lernphase auch die Eingangsdaten (Reize) häufig vorgekommen sind. Dagegen verschwendet die Karte keine Ressourcen dadurch, daß sie Referenzpunkte in Bereiche des Eingangsraums setzt, aus denen ohnehin kaum je oder nie Daten gekommen sind.

Wenn also die Eingangsdaten eine gewisse Regelhaftigkeit zeigen in dem Sinne, daß manche Kombinationen häufig vorkommen, andere ebenfalls denkbare aber selten oder gar nicht, dann hat die neuronale Karte nach Abschluß ihrer Lernphase diese Regelhaftigkeit verinnerlicht, indem sie ihre Referenzpunkte richtig verteilt hat. Sie hat aus Erfahrung gelernt, und zwar ohne Rückgriff auf irgendeine Theorie, die vielleicht für den gesetzmäßigen Zusammenhang unter den Daten existiert.

Genau diese Eigenschaft ist für technische Anwendungen interessant. Das folgende Beispiel ist zwar unrealistisch einfach, aber gerade deswegen zur Erläuterung geeignet: Es sei der Bewegungszustand eines Autos zu erfassen. Dazu stehen verschiedene Sensoren zur Verfügung, etwa für den Benzinverbrauch, die Kühlwassertemperatur oder die Lautstärke der Innengeräusche. Jeder Sensor liefert einen zahlenmäßigen Meßwert; zusammengenommen entsprechen diese Zahlen einem Punkt in einem abstrakten Datenraum, der so viele Dimensionen hat, wie es Sensoren gibt.

Die am fahrenden Auto gemessenen Datenpunkte füllen aber nicht den ganzen Datenraum aus. Beispielsweise treten laute Innengeräusche im allgemeinen nur bei hohen Drehzahlen auf, also verbunden mit höherem Benzinverbrauch. Nehmen wir vereinfachend an, daß die Meßwerte aller Sensoren im wesentlichen nur von der Geschwindigkeit des Autos abhängen.

Diese Abhängigkeit kann allerdings nichtlinear sein, etwa bei der Kühlwassertemperatur, die zunächst über einen großen Bereich einen konstanten Wert hat, bis sie bei hohen Geschwindigkeiten leicht ansteigt. Wenn die Abhängigkeiten exakt gelten und die Sensoren fehlerfrei messen würden, lägen sämtliche Datenpunkte auf einer eindimensionalen Untermannigfaltigkeit, das heißt einer Kurve in dem abstrakten Datenraum. Weil der Zusammenhang so streng nicht gilt und Meßfehler hinzukommen, tritt an die Stelle der Kurve ein wurstförmiges Teilgebiet in einem ansonsten völlig leeren Datenraum (Bild 7). Es ist also zweckmäßig und für eine angenäherte Beschreibung des Systemzustands ausreichend, eine Anzahl von Referenzpunkten in diese Wurst (und nur dorthin) zu legen und statt aller Daten nur noch die Nummer des jeweils nächstgelegenen Referenzpunktes anzugeben. In der Technik heißt dieses Verfahren Vektorquantisierung.

Eine selbstorganisierende Merkmalskarte leistet also eine Vektorquantisierung ihres Eingangsraums; aber das tun andere neuronale Netze mit Wettbewerbsprinzip auch. Das Besondere an der neuronalen Karte ist, daß sie auch die Nachbarschaftsrelationen der Eingangsdaten korrekt abbildet. Verwendete man für die Daten des Auto-Beispiels eine Kette von Neuronen, wie es die eindimensionale Datenstruktur nahelegt, dann würden Datenpunkte, die aus langsamer Geschwindigkeit resultieren, auf Neuronen am einen Ende der Kette abgebildet, solche zu hoher Geschwindigkeit auf Neuronen am anderen Ende. Wenn das Auto langsam beschleunigt, so daß der Datenpunkt in dem hochdimensionalen Eingangsraum eine kontinuierliche Trajektorie durchläuft, dann wandert die zugehörige Erregung im Ausgangsraum geordnet von einem Knoten zum nächsten.

Analog zu diesem sehr einfachen Beispiel sind selbstorganisierende Merkmalskarten in den letzten Jahren zur dimensionsreduzierenden Abbildung bei zahlreichen Datensätzen eingesetzt worden. Dazu gehören Prozeßsteuerungsdaten, etwa von Kraftwerken, sowie Sprach- und Bilddaten.

Ist diese räumliche Ordnung der Ausgangsneuronen, die eine neuronale Karte auszeichnet, überhaupt zu etwas nutze oder nur belanglose Zutat? Nun, es kommt darauf an, wie die Information, die in der Karte dargestellt ist, weiterverarbeitet wird, wie also die Karte als Komponente in ein größeres System eingebunden ist. Möchte man im Auto-Beispiel lediglich den Bewegungszustand wissen, dann reicht es aus, die Nummer des betroffenen Referenzpunktes zu kennen. Gibt es dagegen bestimmte Bewegungszustände, die man meiden möchte, etwa weil der Motor sich zu überhitzen droht, dann ist es vorteilhaft zu wissen, wie weit man von einem kritischen Zustand noch entfernt ist; denn je näher das System diesem Zustand gerät, desto intensiver sollte man korrigierend eingreifen. Damit man aber überhaupt von "näher" oder "ferner" in einem abstrakten Zustandsraum sprechen kann, braucht man eine Raumordnung.

Für das Auto-Beispiel ist diese trivial und wäre auch ohne solchen theoretischen Aufwand zu finden gewesen. In einem Kraftwerk jedoch wird der Zustand der Maschinen durch zahllose Meßwerte charakterisiert; entsprechend schwierig ist es zu bestimmen, wie weit das Gesamtsystem von einem gefährlichen Zustand entfernt ist. Ähnliche Überlegungen gelten ganz allgemein für die Visualisierung hochdimensionaler Daten, die auf niedrigdimensionale Mannigfaltigkeiten eingeschränkt sind.

In all diesen Fällen ist es mithin nützlich, neuronale Karten dem biologischen Vorbild nachzubauen. Man hat dabei sogar größere Freiheit als die Natur: Während im lebenden Organismus die Dimensionen von Eingangs- und Ausgangsräumen durch die physiologischen und anatomischen Vorgaben festgelegt sind, kann der technische Anwender die Dimension des Ausgangsraums und die Abmessungen der Karte frei wählen. Andererseits will er auch die Falten und Verwerfungen natürlicher Karten vermeiden; denn vom Standpunkt des Ingenieurs sind das nichts weiter als Kompromisse, mit denen etwas notdürftig zurechtgebogen wird, was eigentlich nicht zusammenpaßt.

Falten zu vermeiden ist allerdings nicht leicht, denn die Karte organisiert sich ja selbst, und es gibt keine einfache Methode, sie am Faltenwerfen zu hindern. Mehr noch: Es ist sogar schwierig, Falten - oder allgemeiner Nachbarschaftsverletzungen - als solche zu erkennen. Man sieht sie zwar sofort, wenn man die Karte zeichnet; aber das ist nicht nur mühsam und methodisch unbefriedigend, sondern bei mehr als dreidimensionalen Eingangsräumen - die in der Technik die Regel sind - ohnehin unmöglich.


Sprache ist dreidimensional

Für diese Probleme sind zwei Lösungen entwickelt worden. Die erste besteht darin, die Faltigkeit einer neuronalen Karte durch einen Zahlenwert auszudrücken und je nach diesem Wert der Karte beim nächsten Versuch einen geeigneteren Ausgangsraum vorzugeben. Die zweite verzichtet gänzlich auf eine Vorgabe dieser Art; vielmehr etabliert sich die Struktur des Ausgangsraums erst im Verlauf des Selbstorganisationsprozesses.

Wie mißt man das Ausmaß, in dem eine Karte Nachbarschaftsbeziehungen verletzt? Bei einer Falte kommt es vor, daß zwei Knoten im Ausgangsraum weit voneinander entfernt liegen, die Zentren ihrer rezeptiven Felder dagegen eng benachbart sind. Andererseits ist eine solche Diskrepanz noch kein Anzeichen für Nachbarschaftsverletzung; denn neuronale Karten vergrößern verschiedene Bereiche des Eingangsraums je nach Reizdichte unterschiedlich stark, so daß ein stark variierender Abbildungsmaßstab legitim ist.

Zusammen mit unserem damaligen Frankfurter Kollegen Wolfgang Liebert haben wir eine andere, besser geeignete Kennzahl gefunden, die wir das topographische Produkt nennen. Für jeden einzelnen Knoten der Karte bestimmen wir die Folge seiner nächsten Nachbarn, und zwar einerseits bezüglich der Abstände im Ausgangsraumgitter, andererseits bezüglich der Abstände der rezeptiven Felder im Eingangsraum. Nicht die Abstände selbst, sondern die beiden Nachbarschaftsfolgen werden dann miteinander verglichen.

Ist die Karte wohlgeordnet und unverzerrt, sind die beiden Folgen gleich. (Nur wenn zwei Abstände exakt gleich sind, ist die Folge nicht eindeutig bestimmt, wodurch sich belanglose Unterschiede in der Reihenfolge ergeben können.) Eine Verzerrung wird sich in der Regel lediglich in geringfügigen Abweichungen in den Nachbarschaftsfolgen äußern. Beispielsweise würde die Folge im Eingangsraum 3, 5, 4, 6, 7... lauten und die im Ausgangsraum 3, 4, 5, 6, 7... .

Hingegen machen sich Nachbarschaftsverletzungen durch große Abweichungen bemerkbar, die nicht durch lokale Vertauschungen in den beiden Folgen wieder ausgeglichen werden können. Durch geeignete Rechenoperationen wird ein Maß für die relative Anzahl dieser großen Abweichungen in den Folgen bestimmt. Das topographische Produkt ist der Mittelwert dieser Zahl über alle Knoten.

Das Vorzeichen des topographischen Produkts ist direkt interpretierbar. Negative Werte zeigen an, daß die Dimension des Ausgangsraums zu niedrig, positive Werte, daß sie zu hoch gewählt wurde (Bild 8).

Mit Hilfe dieses Maßes haben wir beispielsweise eine Abbildung von Sprachdaten in niedrigdimensionale Ausgangsräume untersucht. Es stellte sich heraus, daß dreidimensionale Ausgangsraumgitter die Nachbarschaftsverhältnisse in den Daten besser erhalten als zwei- oder vierdimensionale. Das paßt sehr gut zu Ergebnissen in der automatischen Worterkennung, bei denen mit einer vorverarbeitenden Abbildung der Sprachdaten auf dreidimensionale Räume bessere Erkennungsraten erzielt wurden als in zweidimensionalen.

Die zweite Lösungsstrategie - die Struktur des Ausgangsraums selbst zum Gegenstand des Selbstorganisationsprozesses zu machen - ist beispielsweise realisiert im Topology Representing Network (TRN), das Thomas Martinetz und Klaus Schulten in Urbana-Champaign entwickelt haben. Wie die selbstorganisierende Merkmalskarte enthält auch das TRN Knoten in einem Ausgangsraum, denen rezeptive Felder im Eingangsraum zugeordnet sind. Die Verbindungsstruktur der Knoten im Ausgangsraum ist aber nicht - wie sonst - vorgegeben, sondern das Netz startet mit unverknüpften Neuronen. Während des Lernens wird zu jedem Reiz nicht nur der Sieger ermittelt, also derjenige Knoten, dessen rezeptives Feld dem Reiz am nächsten liegt, sondern auch der zweite Sieger. Im Ausgangsraum wird eine Verbindung zwischen diesen beiden Knoten vorgesehen. Um zufällige Koinzidenzen, die besonders in der Anfangsphase auftreten können, auszuschließen, wird eine Verbindung zwischen zwei Knoten nur dann aufrechterhalten, wenn sie hinreichend häufig bestätigt wird.

Auf diese Weise ergibt sich eine Verbindungsstruktur im Ausgangsraum, deren Nachbarschaftsrelationen diejenigen im Eingangsraum genau wiedergeben. Das TRN kann Verteilungen von Datenpunkten selbst dann verwerfungsfrei und ohne andere Nachbarschaftsverletzungen abbilden, wenn ihre Dimensionalität nicht in allen Bereichen des Eingangsraums gleich ist (wenn etwa eine Datenwolke an einem Ende dick ist und am anderen so plattgedrückt, daß man sie dort als zweidimensional anzusehen hat).

Insgesamt zeigt sich, daß zwei zunächst völlig verschieden anmutende Forschungsgebiete, die Biologie des Zentralnervensystems einerseits und die Technik der adaptiven Datenreduktion andererseits, überraschend eng miteinander verbunden sind. Das Bindeglied besteht nicht nur aus gemeinsamen Algorithmen wie dem der selbstorganisierenden Merkmalskarte, sondern auch aus einer gemeinsamen Theorie, die sich auf die Strukturbildung und die quantitative Analyse der Karten bezieht.

Literaturhinweise

- Self-Organization of Orientation Sensitive Cells in the Striate Cortex. Von Christoph von der Malsburg in: Kybernetik, Band 14, Seiten 85 bis 100, 1973.

- Self-Organizing Maps. Von Teuvo Kohonen. Springer, Berlin 1995.

- Neuronale Netze. Von Helge Ritter, Thomas Martinetz und Klaus Schulten. Addison-Wesley, Bonn 1991.

- Formation of Field Discontinuities and Islands in Visual Cortical Maps. Von Fred Wolf, Hans-Ulrich Bauer und Theo Geisel in: Biological Cybernetics, Band 70, Seiten 525 bis 531, 1994.

- Quantifying the Neighborhood Preservation of Self-Organizing Feature Maps. Von Hans-Ulrich Bauer und Klaus Pawelzik in: IEEE Transactions on Neural Networks, Band 3, Heft 4, Seiten 570 bis 579, Juli 1992.

- Development of Oriented Ocular-Dominance Bands as a Consequence of Areal Geometry. Von Hans-Ulrich Bauer in: Neural Computation, Band 7, Seiten 36 bis 50, 1995.


Aus: Spektrum der Wissenschaft 4 / 1996, Seite 38
© Spektrum der Wissenschaft Verlagsgesellschaft mbH