1. Fakultät für Ingenieurwissenschaften und Informatik
Institut für Mess-, Regel- und Mikrotechnik
Probabilistisches Verfahren zur
Vorhersage des Fahrverhaltens
anderer Verkehrsteilnehmer
Bachelorarbeit
von
Simon Appel
6. Februar 2014
Betreuer: Dipl.-Ing. Regine Graf
1. Prüfer: Prof. Dr.-Ing. Klaus Dietmayer
2. Prüfer: Prof. Dr.-Ing. Knut Graichen
2.
3. Fakultät für Ingenieurwissenschaften und Informatik
Institut für Mess-, Regel- und Mikrotechnik
Bachelorarbeit
Probabilistisches Verfahren zur Vorhersage des
Fahrverhaltens anderer Verkehrsteilnehmer
Für eine frühzeitige Risikobewertung von Verkehrssituationen müssen zukünftige Assis-
tenzsysteme in der Lage sein, das Verhalten von Fahrzeugen, die sich in unmittelbarer
Umgebung befinden, richtig vorherzusagen. Vor allem das zukünftige Verhalten anderer
Verkehrsteilnehmer auf der Autobahn ist hierbei von hohem Interesse.
Im Rahmen dieser Arbeit soll mit Hilfe eines probabilistischen Verfahrens das Verhalten
anderer Verkehrsteilnehmer auf der Autobahn prädiziert werden. Der Fokus liegt hierbei auf
der probabilistischen Verhaltensvorhersage der Fahrzeuge, die auf der rechten Nebenspur
der Autobahn vorausfahren.
Anhand realer, extrahierter Daten der jeweiligen Fahrzeugbeziehungen muss das Verhalten
von möglichst vielen rechts fahrenden Fahrzeugen auf der Autobahn richtig vorhergesagt
werden. Ein weiteres Ziel dieser Arbeit soll eine möglichst frühe Erkennung des Fahr-
zeugverhaltens sein. Außerdem soll der Einfluss des Lernens von Situationen untersucht
werden.
Ausgabedatum: 8. August 2013
Abgabedatum: 6. Februar 2014
Bearbeiter: Simon Appel
Betreuer: Dipl.-Ing. Regine Graf
1. Prüfer: Prof. Dr.-Ing. Klaus Dietmayer
2. Prüfer: Prof. Dr.-Ing. Knut Graichen
4.
5. Hiermit versichere ich, dass ich die vorliegende Bachelorarbeit mit dem Titel
Probabilistisches Verfahren zur Vorhersage des Fahrverhaltens anderer
Verkehrsteilnehmer
bis auf die offizielle Betreuung selbst und ohne fremde Hilfe angefertigt habe und die
benutzten Quellen und Hilfsmittel vollständig angegeben sind.
Ulm, den 6. Februar 2014
Simon Appel
9. 1 Einleitung
1.1 Motivation
Fahrerassistenzsysteme werden eingesetzt, um die Fahrsicherheit und den Fahrkomfort
zu verbessern [WHW11]. Dafür übernehmen Fahrerassistenzsysteme Aufgaben auf den
Ebenen der Planung, der Führung und der Stabilisierung, die für die Unterstützung
und Entlastung des Fahrers sorgen sollen. Ein wesentlicher Bestandteil von Fahreras-
sistenzsystemen ist die Analyse von Fahrsituationen. In Form von Informationen und
Empfehlungen an den Fahrer oder sogar der autonomen Durchführung von Manövern
können Fahrerassistenzsysteme in ausgewählten Situationen hilfreich sein.
Diese Arbeit konzentriert sich auf die Vorhersage des Fahrverhaltens anderer Ver-
kehrsteilnehmer für ein ausgewähltes Autobahnszenario mit mehreren beteiligten
Fahrzeugen. Dabei soll untersucht werden, wie sich ein vorausfahrendes Fahrzeug auf
der rechten Nebenfahrbahn des Ego-Fahrzeugs verhält. Für dessen Verhalten wer-
den zwei mögliche Situationsausgänge festgelegt. Zum einen besteht die Möglichkeit,
dass das Fahrzeug auf seiner Spur bleibt. Zum anderen gibt es die Option, dass das
Fahrzeug die Spur wechselt und es zu einem Einschervorgang vor dem Ego-Fahrzeug
kommt. Für den letzteren Fall ist eine korrekte Vorhersage von großer Bedeutung,
damit vor einer Beeinträchtigung gewarnt werden kann oder um diese im besten Fall
durch einen Bremseingriff zu verhindern. Insbesondere aufgrund der hohen Fahrzeug-
geschwindigkeiten auf der Autobahn wäre eine zuverlässige Vorhersage wichtig, um
die Anzahl bzw. die Härte der Unfälle durch Einschervorgänge zu senken.
Für die Vorhersage der Fahrsituation wird in dieser Arbeit auf probabilistische Ver-
fahren eingegangen. Probabilistische Verfahren beziehen sich auf die Theorie der
Wahrscheinlichkeitsrechnung. Sie besitzen den Vorteil bei der Schätzung der Vor-
hersage ein Maß für die Glaubwürdigkeit der Prognose bereitzustellen. Diese Arbeit
verwendet als probabilistischen Ansatz ein Dynamisches Bayes’sches Netz . Ein Dyna-
misches Bayes’sches Netz ist ein probabilistisches Netzwerk, das durch verschiedene
Zufallsgrößen und ihre Abhängigkeiten Problemstellungen modellieren kann [PNM08].
Das Modell ist zudem fähig zeitliche Abläufe nachzubilden. So besteht die Möglichkeit
mit einer Vielfalt an unterschiedlichen Fahrsituationen und der daraus entstehenden
Komplexität umzugehen.
10. 2 Einleitung
1.2 Ziele
Die vorliegende Arbeit zielt darauf ab, aufzuzeigen, wie mit Hilfe eines probabilisti-
schen Verfahrens Ausgänge diverser Fahrsituationen korrekt prognostiziert werden
können. Hierfür soll ein Dynamisches Bayes’sches Netz Anwendung finden, welches
im Verlauf der Arbeit detailliert vorgestellt wird. Die Voraussetzung für eine gültige
Vorhersage stellt die korrekte Klassifikation der Fahrsituation dar. Daher wird es in
dieser Arbeit eine Aufgabe sein, möglichst viele Fahrsituationen richtig zu klassifizieren.
Ein weiteres Ziel besteht darin die jeweilige Fahrsituation möglichst früh richtig zu
prognostizieren. Für die Erfüllung dieser Zielvorgaben müssen entscheidende Merk-
male der unterschiedlichen Fahrsituationen bestimmt und gedeutet werden. Dies ist
notwendig, um eine möglichst frühe und sichere Vorhersage des Fahrverhaltens anderer
Verkehrsteilnehmer mit Hilfe eines Dynamischen Bayes’sches Netzes zu gewährleisten.
1.3 Aufbau der Arbeit
Die folgende Arbeit beginnt mit einer Übersicht von bisher eingesetzten probabilis-
tischen Ansätze für verwandte Problemstellungen in Kapitel 2. Die theoretischen
Grundlagen von Bayes’schen Netzen werden in Kapitel 3 beschrieben. Dazu werden
zunächst Definitionen und stochastische Rechenregeln des Bayes’schen Netzes erläu-
tert. Anschließend werden Methoden zur Inferenz und Lernverfahren aufgeführt, die
für die Arbeit verwendet werden. Die zeitliche Beziehung wird durch die Erweiterung
zu einem Dynamischen Bayes’schen Netz erläutert. In Kapitel 4 wird zunächst die
untersuchte Fahrsituation geschildert. Darauf aufbauend werden die Merkmale der
Fahrsituation und das eingesetzte Dynamische Bayes’sche Netz bestimmt. In Kapitel 5
wird das vorgestellte Konzept evaluiert. Danach erfolgt eine ausführliche Auswertung
der Zielvorgaben. Kapitel 6 fasst die Arbeit zusammen und gibt einen Ausblick für
zukünftige Verbesserungsmaßnahmen.
11. 2 Stand der Technik
Dieses Kapitel soll einen Überblick darüber geben, welche verschiedenen probabilisti-
schen Verfahren für die Klassifikation und die Prädiktion einer Problemstellung in
der Literatur Einsatz finden.
Mehran Kafai [KB12] verwendet zur Klassifikation von PKW-Klassen ein hybrides
Dynamisches Bayes’sches Netz. Mit Hilfe von Videoaufnahmen der Rückansicht soll
das detektierte Fahrzeug einem von vier PKW-Klassen zugeteilt werden. Durch Ab-
tastung der aufgenommenen Sequenzen entsteht für jedes Fahrzeug eine Reihe an
Bildern. Die Auswertung der Bilder liefert z.B. Informationen über die Höhe und
Breite des Fahrzeugs oder die Lage und Ausrichtung der Rückscheinwerfer. Anhand
des „Sequential Floating Forward Selection“-Algorithmus wird aus der Menge aller
Merkmale diejenige Untermenge bestimmt, die für die Klassifikation die geeignets-
ten Kriterien beinhaltet. Dieses Auswahlverfahren kann nicht nur eine verbesserte
Erkennung der PKW-Klasse zur Folge haben, sondern senkt auch die Rechenlaufzeit
und sorgt für eine Merkmalsreduktion. Für die Strukturierung des Dynamischen
Bayes’schen Netzes wird zum einen ein selbst entwickelter Ansatz und zum anderen
eine Variante, die durch den „K2“-Algorithmus bestimmt wird, vorgestellt. Eine
Sammlung von 169 Einzelfällen aus jeweils fünf Bildern dient zur Anpassung der
Parameter. Die anschließende Auswertung zeigt, dass das Dynamische Bayes’sche
Netz, wofür sowohl diskrete als auch kontinuierliche Knoten verwendet werden, eine
Korrektklassifikationsrate von 97, 63% erreicht.
Um das aktuelle Fahrverhalten anderer Verkehrsteilnehmer einzuschätzen und die
zukünftige Trajektorie zu erahnen, verwenden Tobias Gindele, Sebastian Brechtel
und Rüdiger Dillmann [GBD10] ein Dynamisches Bayes’sches Netz. Die Handlungs-
weise wird dabei in sechs Zustände eingeteilt: Freie Fahrt, Folgen eines Fahrzeugs,
Beschleunigungsphase, Ausscheren, Überholen und Einscheren. Die Verwendung einer
Spurerkennung unterstützt die Situationsanalyse. So können die Abstände und Rela-
tivgeschwindigkeiten der einzelnen Fahrzeuge untereinander zusätzlich in laterale und
longitudinale Größen unterteilt werden. Das Dynamische Bayes’sche Netz schafft es,
über die Zeit hinweg, die eingebrachte Information mit dem aktuellen und zukünftigen
Fahrverhalten zu verknüpfen. Zur Einstufung der vorliegenden Situation wird eine
„Likelihood“-Funktion verwendet, um die kontinuierlichen Eingangsgrößen auf einen
der sechs Fälle abzubilden. Das Ergebnis der durchgeführten Experimente liefert im
Durchschnitt eine Korrektklassifikationsrate von rund 90% und zeigt zudem noch,
12. 4 Stand der Technik
dass sich der gewählte Ansatz von starkem Messrauschen nur wenig beeinträchtigen
lässt.
Eine spezielle Form des Dynamischen Bayes’schen Netzes ist als „Hidden Markov
Modell“ bekannt. Jonas Firl und Quan Tran [FT11] verwenden dieses Hidden Markov
Modell für die Vorhersage eines möglichen Überholmanövers anderer Verkehrsteilneh-
mer. Das Überholmanöver wird dabei in drei Phasen unterteilt, welche zugleich die
Zustände des Hidden Markov Modells darstellen: Folgen eines Fahrzeugs, Überholen
und Einscheren. Die bestmöglichen Parameter des Hidden Markov Modells werden mit
Hilfe des „Baum-Welch“-Algorithmus bestimmt. Hierfür muss ein ausreichend großer
Trainingsdatensatz verwendet werden. Mit Hilfe einer Kamera und eines Radarsystems
wird die relative Distanz in x- und y-Richtung der Fahrzeuge gemessen, sowie die
relative Geschwindigkeit und Beschleunigung bestimmt. Zur Unterteilung der Distanz
in zwei Dimensionen wird ein Koordinatensystem benötigt, welches an der Fahrbahn
ausgerichtet ist. Der „Forward“-Algorithmus wertet die Daten aus. Das Berechnen
der Werte der Likelihood zu jedem Zeitpunkt dient als Maß dafür, zu welchem der
drei Zustände sich die aktuelle Situation am ehesten zuordnen lässt. Durch festgelegte
Schwellenwerte lässt sich die Situation mit den Verhältnissen aus den Werten der
Likelihood kategorisieren. Zu dem Zeitpunkt, an dem sich die Situation 0, 4s vor
Einleitung eines möglichen Spurwechsels befindet, konnten rund 80% der Fälle richtig
prädiziert werden.
Jonas Firl und Quan Tran [TF12] veröffentlichten zudem ein probabilistisches Verfah-
ren, das mit Markov Netzwerken arbeitet. Dieses ist im Gegensatz zu Dynamischen
Bayes’schen Netzen oder Hidden Markov Modellen ein ungerichtetes, graphisches
Modell. Da noch keine ausgereiften Lösungen für das Lernen und die Inferenz eines
Markov Netzwerk vorhanden sind, wird eine Kombination aus dem „log-linear“-Modell
und dem Ansatz des „Conditional Random Field“ gewählt. Das „log-linear“-Modell
findet oft Anwendung bei der Aufgabe der Klassifikation. Der Ausgangswert, der
eine endliche Anzahl an Zuständen annehmen kann, wird dabei von diversen Ein-
gangsgrößen geschätzt, welche mit einer zugewiesenen Gewichtung Einfluss nehmen.
Mit Hilfe des „convex optimization“-Algorithmus werden die bestmöglichen Gewich-
tungsfaktoren gelernt. Ein „Conditional Random Field“ stellt eine Erweiterung des
„log-linear“-Modells dar. Als Ergebnis wird eine Ausgangssequenz erzeugt, die die glei-
che Länge wie ihre Eingangssequenz aufweist. Als Lernverfahren für ein „Conditional
Random Field“ existiert das Gradientenverfahren, wohingegen der Viterbi-Algorithmus
zur Inferenz dient. Mit dem gewählten Verfahren können Abhängigkeiten über einen
langen Zeitraum modelliert werden. Der Ansatz wurde beispielsweise gewählt, um
an Kreuzungen die Fahrabsichten von Verkehrsteilnehmern so früh wie möglich zu
erkennen.
Ein weiterer Ansatz, der für die Identifikation von unterschiedlichen Fahrsituationen
flexibel einsetzbar ist, arbeitet ausschließlich mit der „Time-to-Collision“ [BTDB12].
Diese ist definiert als die Zeitspanne, die bis zu einem Aufprall zwischen zwei Fahrzeu-
gen verstreicht. Sie berechnet sich aus dem Abstand der beiden Fahrzeuge, dividiert
13. 2 Stand der Technik 5
durch ihre Relativgeschwindigkeit. Ein Algorithmus berechnet für einen vordefinierten
Zeitrahmen aus den gemessenen Zuständen der Fahrzeuge eine Wahrscheinlichkeits-
verteilung, die von der „Time-to-Collision“ abhängt. Probabilistische Entscheidungen
werden mit zwei Freiheitsgraden bemessen: einem Schwellenwert für die Zeit, der bei
Unterschreitung eine Warnung auslöst, sowie einem Schwellenwert für die berechnete
Wahrscheinlichkeit. Anhand der „Time-to-Collision“ und einem frei wählbaren Schwel-
lenwert für die Kollisionswahrscheinlichkeit kann eine Aussage über die vorliegende
Fahrsituation getroffen werden. Getestet wurde das Verfahren für diverse Fahrmanöver
an einer Kreuzung.
14.
15. 3 Theoretische Grundlagen zu
Bayes’schen Netzen
Vorausgehend sollen im folgenden Kapitel die Grundlagen behandelt werden, die
im Verlauf der Arbeit relevant sind. Zuerst erfolgt eine formale Erläuterung von
Bayes’schen Netzen. Anschließend werden verschiedene Inferenzalgorithmen und Lern-
verfahren erläutert. Die Erweiterung zu einem Dynamischen Bayes’schen Netz wird
im letzten Unterkapitel geschildert.
3.1 Bayes’sche Netz
Bayes’sche Netze sind probabilistische, graphische Modelle, die im Fachgebiet der
künstlichen Intelligenz Anwendung finden. Sie werden benötigt, um Problemstellungen
aus der Alltagswelt in ein Modell zu überführen, in dem wahrscheinlichkeitstheore-
tische Berechnungen möglich sind [PNM08]. Durch die graphische Struktur werden
verschiedene Einflüsse miteinander verknüpft, was es ermöglicht, Rückschlüsse auf
bestimmte Ereignisse zu ziehen. Auf diese Weise schafft das Bayes’sche Netz eine
Möglichkeit mit der Komplexität eines Problems umzugehen und Entscheidungen
unter Unsicherheit zu treffen [RN95]. Zusätzlich erweist sich das Bayes’sche Netz als
lernfähiges System. Sein grundlegender Aufbau wird in den folgenden Unterkapiteln
aufgezeigt.
3.1.1 Definition
Ein Bayes’sches Netz besteht aus einer endlichen Menge an Knoten V = {X1, . . . , Xn}
mit |V | = n. Jeder Knoten repräsentiert eine Zufallsvariable. Diese kann entweder eine
kontinuierliche Menge von Werten oder eine endliche Menge von diskreten Zuständen,
die sich gegenseitig ausschließen, annehmen [May09; Wit02].
16. 8 Theoretische Grundlagen zu Bayes’schen Netzen
Die Verbindungen zwischen den Knoten werden durch gerichtete Kanten E ⊆ V × V
beschrieben. Jede gerichtete Kante entspricht dabei der bedingten Abhängigkeit der
zwei Knoten. Verläuft zum Beispiel eine Kante vom Knoten Xi zum Knoten Xj
(mit i = j), hat Xi einen kausalen Einfluss auf Xj. Dieser Ausschnitt wird in Ab-
bildung 3.1 visualisiert. Dementsprechend hat die Zufallsvariable Xj wiederum eine
Wirkung auf Xi, falls eine Information über Xj vorliegt. Eine genauere Betrachtung
der Abhängigkeiten erfolgt in 3.1.3. Für die Konstellation aus Abbildung 3.1 wird
Xi als Elternknoten von Xj bezeichnet, wohingegen Xj der Kindknoten von Xi ist
[Bar12]. Darüber hinaus werden alle Knoten, die entlang bzw. entgegen eines gerichte-
ten Pfades von einem beliebigen Knoten erreicht werden können, als dessen Nachfahren
bzw. Vorfahren definiert [Bor04]. Ein Pfad ist eine Abfolge von fortlaufenden Kanten
in beliebiger Richtung, wobei ein gerichteter Pfad nur entlang oder entgegen der
Pfeilrichtungen verläuft [Pea00]. Knoten, auf die keine Kante gerichtet ist, werden
als Wurzelknoten bezeichnet. Eine Voraussetzung für ein Bayes’sches Netz ist, dass
es keine Rückkopplungen geben darf. Somit existiert kein gerichteter Pfad über die
Knoten Xi → · · · → Xj mit Xi = Xj und Xi, Xj ∈ V [Bor04].
Zusammenfassend bilden die Knoten V und Kanten E somit einen sogenannten
gerichteten, azyklischen Graphen G(V, E).
3.1.2 Beispiel
Um die bisherigen Sachverhalte zu veranschaulichen, wird in diesem Unterkapitel
ein Anwendungsbeispiel für Bayes’sche Netze [Mur01] vorgestellt, das im Verlauf der
Arbeit immer wieder aufgegriffen wird. Das Bayes’sche Netz in Abbildung 3.2 stellt
ein Modell dar, welches mögliche Ursachen für einen nassen Rasen repräsentiert. Hier
wird die Annahme getroffen, dass nur eine laufende Sprinkleranlage oder der Regen
einen nassen Rasen bewirken können, diese aber beide abhängig von der Bewölkung
sind.
Das Bayes’sche Netz besitzt somit die vier Knoten Bewölkung, Sprinkleranlage,
Regen und nasserRasen. Alle Knoten entsprechen im Beispiel diskreten Zufallsva-
riablen. Im Modell sind die diskreten Zufallsvariablen binär. Binäre Zufallsvariablen
besitzen nur zwei Zustandsformen, die hier den Zuständen wahr oder falsch entspre-
Abbildung 3.1: Ausschnitt eines Bayes’schen Netzes
17. 3.1 Bayes’sche Netz 9
chen. Des Weiteren besitzt das Netz vier gerichtete Kanten, die zudem so angeordnet
sind, dass jeder Knoten mindestens eine Verbindung besitzt. Der Graph erweist sich
weiterhin als azyklisch, da es unmöglich ist, von einem beliebigen Knoten zu starten
und nur entlang der Pfeilrichtung wieder zum Ausgangsknoten zu gelangen.
Neben den Knoten sind Wahrscheinlichkeiten für bestimmte Ereignisse gegeben.
Diese werden aber erst in 3.1.4 genauer erläutert. Zunächst werden die verschiedenen
Wirkungsformen in einem Bayes’schen Netz aufgezeigt.
3.1.3 Verschiedene Kausalstrukturen
Sobald eine Information über den Zustand eines Knotens bekannt ist, wirkt sich
diese auf die benachbarten Knoten aus. Evidenz bezeichnet die Kenntnis über den
Zustand von Zufallsvariablen [Bor04]. Um die verschiedenen Einflüsse der Variablen
untereinander zu verstehen, werden im Folgenden alle möglichen Zusammensetzungen
von Knoten und gerichteten Kanten nacheinander untersucht. Generell lässt sich
jede Struktur eines Bayes’schen Netzes in drei Kategorien unterteilen. Unterschieden
wird zwischen seriellen, konvergierenden und divergierenden Verbindungen. Diese
Strukturformen sind allgemeingültig sowohl für diskrete Knoten als auch für kontinu-
ierliche Knoten. Für die folgende Erklärung der Strukturformen werden drei Knoten
verwendet. In der Regel lassen sich aber die Kausalstrukturen für beliebig viele Knoten
darstellen.
Abbildung 3.2: Bayes’sches Netz des Beispiels
18. 10 Theoretische Grundlagen zu Bayes’schen Netzen
In einer seriellen Verbindung sind die Knoten hintereinander in einer Reihe angeordnet.
Für das Bayes’sche Netz aus Abbildung 3.2 existieren zwei serielle Verbindungen. Zum
einen die Knotenfolge Bewölkung → Sprinkleranlage → nasserRasen und zum an-
deren die Knotenfolge Bewölkung → Regen → nasserRasen. Für die folgende Er-
klärung werden der Knoten Sprinkleranlage und seine zwei zugehörigen gerichteten
Kanten weggelassen. Das resultierende Netz ist in Abbildung 3.3 dargestellt.
Falls keine Information über den Knoten Regen vorhanden ist, jedoch bekannt ist, dass
der Rasen nass ist, so wird diese Evidenz den Zustand des Knoten Regen beeinflussen.
In diesem Fall würde die Wahrscheinlichkeit für den Zustand wahr im Knotens Regen
ansteigen, da dieser aufgrund der fehlenden Sprinkleranlage die einzige Ursache für
einen nassen Rasen sein kann. Das wiederum ändert auch die Wahrscheinlichkeit
im Knoten Bewölkung. Die Wahrscheinlichkeit ist hoch, dass es bei Regen bewölkt
ist. Wenn eine Information über den Knoten Bewölkung vorhanden ist, kann diese
Argumentationskette auch in die andere Richtung angewendet werden. Liegen In-
formationen über den mittleren Knoten Regen vor, hat eine Zustandsänderung von
einem der Randknoten keinen Einfluss auf den Zustand des anderen Randknotens.
Zusammenfassend lässt sich für eine serielle Verbindung festhalten: Die Zustände
der Eltern- und Kindknoten beeinträchtigen sich gegenseitig, sofern der Zustand der
dazwischenliegenden Variablen nicht gegeben ist.
Werden sowohl der Knoten Bewölkung als auch seine zwei ausgehenden Kanten
ausgeschlossen, entsteht das folgende Netz in Abbildung 3.4, welches eine konvergente
Verbindung darstellt. Diese zeichnet sich dadurch aus, dass die Kanten von einer belie-
bigen Anzahl an Elternknoten alle auf einen gemeinsamen Kindknoten gerichtet sind.
Falls keine Aussage über den Zustand des Knotens nasserRasen getroffen werden
Abbildung 3.3: Serielle Verbindung
Abbildung 3.4: Konvergente Verbindung
19. 3.1 Bayes’sche Netz 11
kann, sind keine Rückschlüsse auf einen Regenschauer möglich, auch wenn bekannt ist,
ob die Sprinkleranlage an- oder ausgeschaltet ist. Die Knoten Sprinkleranlage und
Regen sind bei einem unbekannten Zustand des Knoten nasserRasen somit unabhän-
gig. Andererseits steigt die Wahrscheinlichkeit für eine laufende Sprinkleranlage, wenn
kein Regen vorhanden und der Rasen nass ist. Für eine konvergierende Verbindung
gilt: Elternknoten üben gegenseitigen Einfluss auf ihre Zustände aus, solange es eine
Evidenz im Kindknoten (oder seinen Nachkommen) gibt.
Die Abbildung 3.5 zeigt eine divergente Verbindung, welche entsteht, wenn der Knoten
nasserRasen und die auf ihn gerichteten Kanten entfernt werden. In einer divergenten
Verbindung existiert allgemein ein Elternknoten, der seine Kanten auf beliebig viele
Kindknoten richtet.
Angenommen der Zustand des Knotens Bewölkung ist unbekannt, können trotzdem
Rückschlüsse auf dessen Zustand gezogen werden, falls eine Beobachtung des Knotens
Regen gemacht wird. Sofern beobachtet wird, dass es regnet, steigt die Wahrschein-
lichkeit eines bewölkten Himmels. Folglich würde auch der Knoten Sprinkleranlage
beeinflusst werden. In der Regel wird bei einer hohen Wahrscheinlichkeit für einen
bewölkten Himmel die Sprinkleranlage nicht angeschaltet. Ist allerdings eine Evi-
denz des Knotens Bewölkung vorhanden, ergibt die Information über den Zustand
der Sprinkleranlage keine neuen Erkenntnisse über einen möglichen Regenschauer.
Abschließend zählt bei einer divergenten Verbindung: Solange nicht bekannt ist, in
welchem Zustand sich der Elternknoten befindet, beeinflussen sich die Kindknoten
gegenseitig [Kas12].
Verallgemeinernd lassen sich die oben genannten drei Kausalstrukturen im Begriff
der d-Separation zusammenfassen: Zwei Knoten in einem azyklischen, gerichteten
Graphen heißen zueinander d-separiert, wenn es in allen Pfaden zwischen ihnen einen
Knoten Xi gibt, sodass die Verbindung entweder seriell oder divergierend ist und der
Zustand von Xi bekannt ist, oder bei einer konvergierenden Verbindung weder der
Zustand von Xi noch eines Nachfahren von Xi sicher ist [Bor04].
Abbildung 3.5: Divergente Verbindung
20. 12 Theoretische Grundlagen zu Bayes’schen Netzen
3.1.4 Wahrscheinlichkeitsberechnung
Um probabilistische Berechnungen in einem Bayes’schen Netz durchführen zu können,
müssen zuerst einige grundlegende Begriffe der Stochastik eingeführt werden [Wen04].
Tritt das Ereignis A unter der Bedingung B auf, so berechnet sich die bedingte
Wahrscheinlichkeit P(A|B) wie folgt:
P(A|B) =
P(A, B)
P(B)
(3.1)
P(A, B) ist dabei als Verbundwahrscheinlichkeit oder gemeinsame Wahrscheinlichkeit
der Ereignisse A und B bekannt. Diese Notation wird auch für die restliche Arbeit so
verwendet. Die Wahrscheinlichkeit, dass unter der Bedingung von B das Gegenereignis
von A eintritt, ist:
P(∼ A|B) = 1 − P(A|B) (3.2)
Die Tilde „∼“ dient dabei zur Kennzeichnung des Gegenereignisses. Für zwei stochas-
tisch unabhängige Ereignisse A und B gilt:
P(A, B) = P(A) · P(B) (3.3)
Durch Umformung der Formel für die bedingte Wahrscheinlichkeit ergibt sich der
Multiplikationssatz für zwei Ereignisse:
P(A, B) = P(A|B) · P(B) (3.4)
Mit dem Gesetz der totalen Wahrscheinlichkeit kann die Wahrscheinlichkeit für das
Ereignis A berechnet werden, sofern alle seine bedingten Wahrscheinlichkeiten und
die Wahrscheinlichkeiten der bedingenden Ereignisse bekannt sind. Für eine beliebige
Anzahl j von Bedingungen gilt hier:
P(A) =
j
P(A|Bj) · P(Bj) (3.5)
Abschließend ergibt sich aus der Definition der bedingten Wahrscheinlichkeit und des
Multiplikationssatzes der Satz von Bayes:
P(A|B) =
P(B|A) · P(A)
P(B)
(3.6)
21. 3.1 Bayes’sche Netz 13
Aus 3.1.1 ist die Struktur des Bayes’schen Netzes als Graph G(V, E) bereits be-
kannt. An dieser Stelle wird zusätzlich zum Graphen die Verbundwahrscheinlichkeit
P(X1, . . . , Xn) über alle Knoten aus V des Bayes’schen Netzes angenommen.
Die Berechnung der gemeinsamen Wahrscheinlichkeit eines Bayes’schen Netzes erfolgt
über die verallgemeinerte Darstellung des Multiplikationssatzes aus Gleichung 3.4 für
n Knoten:
P(X1, . . . , Xn) =
n
i=1
P(Xi|X1, . . . , Xi−1)) (3.7)
Da jeder der n Knoten einer Zufallsvariablen entspricht, besitzt auch jeder Knoten
seine eigene Wahrscheinlichkeitsverteilung. Für einen diskreten Knoten beispielsweise
kann die Wahrscheinlichkeitsverteilung die Form einer Wahrscheinlichkeitstabelle
besitzen. Diese besteht dabei aus Wahrscheinlichkeitswerten, die von den Zuständen
der anderen Knoten des Bayes’schen Netzes abhängig sind.
Für gerichtete, azyklische Graphen lässt sich die Wahrscheinlichkeitsfunktion aus
Gleichung 3.7 aber stark vereinfachen. Voraussetzung hierfür ist die Annahme, dass
die Wahrscheinlichkeitsverteilung eines Knotens Xi nur von den Wahrscheinlichkeits-
verteilungen der Elternknoten abhängig ist. Anders ausgedrückt bedeutet dies, dass
die Information über die Zustände der Vorfahren der Elternknoten von Xi keinen Ein-
fluss auf die Wahrscheinlichkeitsverteilung von Xi selbst hat, sofern die Zustände der
Elternknoten bekannt sind (siehe 3.1.3). Diese Hypothese ist als Markov-Bedingung ers-
ter Ordnung bekannt und erlaubt damit eine einfache Faktorisierung der gemeinsamen
Wahrscheinlichkeitsverteilung [May09]:
P(X1, . . . , Xn) =
n
i=1
P(Xi|Pa(Xi)) (3.8)
Die Menge der Elternknoten von Xi wird als Pa(Xi) bezeichnet. Für diskrete Knoten
ergibt die Wahrscheinlichkeitsverteilung des Knotens Xi für jede Wertekombination
der Elternknoten eine Tabelle bedingter Wahrscheinlichkeiten. Durch die Struktur des
gerichteten, azyklischen Graphen und die gemeinsame Wahrscheinlichkeitsverteilung
ist ein Bayes’sches Netz N = (G, P) vollständig charakterisiert [Cas97].
Die festgelegten probabilistischen Rechenregeln werden auf das Beispiel aus 3.1.2
angewendet. Die Knotennamen werden mit dem jeweiligen Anfangsbuchstaben abge-
kürzt um für eine übersichtlichere Darstellung zu sorgen. Die Zufallsvariablen werden
mit B,S,R bzw. N abgekürzt. Die jeweiligen Kleinbuchstaben werden verwendet, um
auszudrücken, dass der zugehörige Knoten sich in einem festen Zustand befindet.
Beispielsweise steht r dafür, dass der Knoten Regen den Zustand wahr angenommen
hat und ∼ b, dass der Knoten Bewölkung im Zustand falsch ist.
22. 14 Theoretische Grundlagen zu Bayes’schen Netzen
Schritt für Schritt lässt sich die Dekompensation aus 3.8 mit den Überlegungen aus
3.1.3 für das Beispielnetz auch so erreichen:
P(B, R, S, N) = P(N|B, R, S) · P(B, R, S)
= P(N|R, S) · P(B, R, S)
= P(N|R, S) · P(S|B, R) · P(B, R)
= P(N|R, S) · P(S|B) · P(B, R)
= P(N|R, S) · P(S|B) · P(R|B) · P(B)
(3.9)
Folgende Situation sei beobachtet worden: Bei unbewölktem Himmel ist der Ra-
sen nass, obwohl es nicht regnet, jedoch die Sprinkleranlage eingeschaltet ist. Die
Wahrscheinlichkeit errechnet sich wie folgt [Wit12]:
P(∼ b, s, ∼ r, n) = P(n| ∼ r, s) · P(s| ∼ b) · P(∼ r| ∼ b) · P(∼ b)
= P(n| ∼ r, s) · P(s| ∼ b) · (1 − P(r| ∼ b)) · (1 − P(b))
= 0, 9 · 0, 5 · (1 − 0, 2) · (1 − 0, 5)
= 0, 9 · 0, 5 · 0, 8 · 0, 5 = 0, 18
Diese Zusammensetzung tritt also zu 18% aller Fälle auf. In diesem Rechenbeispiel
sind alle Zustände bekannt. Komplexer wird die Berechnung für den Fall, dass der
Zustand einer oder mehrerer Knoten nicht bekannt ist. Diese Problemstellung wird
im nächsten Kapitel untersucht.
23. 3.2 Inferenz in Bayes’schen Netzen 15
3.2 Inferenz in Bayes’schen Netzen
Die elementare Operation in einem Bayes’schen Netz ist die Inferenz. Allgemein
bedeutet Inferenz anhand von Beobachtungen auf etwas Nicht-Beobachtbares zu
schließen [Wit02]. In einem Bayes’schen Netz heißt das, dass eine Menge von Variablen
Z = {Z1, . . . , Zm} mit Zi ∈ V und i = 1, . . . , m als Evidenz bekannt sind und die
Verteilung einer oder mehrerer unbekannter Variablen Y = {Y1, . . . , Yl} mit Yj ∈ V
und j = 1, . . . , l von Interesse ist. Knoten, die weder gefragt sind, noch als Evidenz
vorliegen, werden in der Menge H zusammengefasst. Die Verteilung der Zustände
der gesuchten Knoten Y , unter dem Einfluss von Z, lässt sich mit der Formel für die
bedingte Wahrscheinlichkeit aus Gleichung 3.1 wie folgt darstellen [Ami08]:
P(Y |Z) =
P(Y, Z)
P(Z)
= H P(Y, Z, H)
Y ∪H P(Y, Z, H)
(3.10)
Das Lösen dieser Formel und somit die Anwendung der Inferenz in einem Bayes’schen
Netz wird in den nächsten Unterkapiteln erläutert.
3.2.1 Inferenz-Typen
Ein großer Vorteil von Bayes’schen Netzen ist die Tatsache, dass nicht nur von Ursa-
chen auf Effekte geschlossen werden, sondern auch in umgekehrte Richtung Inferenz
angewendet werden kann, was allein durch den Satz von Bayes 3.6 erlaubt ist. Ins-
gesamt lassen sich vier Formen von Inferenz in einem Bayes’schen Netz einsetzen:
kausal, diagnostisch, interkausal und gemischt [Kas12].
Mit Hilfe des Bayes’schen Netzes aus Abbildung 3.2 wird zu jedem Typ ein Beispiel
genannt. Die bedingte Wahrscheinlichkeit P(N|S) ist ein Fall für kausale Inferenz,
sofern der Zustand des Knotens Sprinkleranlage bekannt ist. Das Beobachten einer
Ursache wird bei der kausalen Inferenz verwendet, um auf die Wirkung, also der
Zustandsverteilung des Knotens nasserRasen, zu schließen. Kausale Inferenz verläuft
also stets entlang der Pfeilrichtung der gerichteten Kanten. Umgekehrt handelt es
sich um diagnostische Inferenz, wenn durch das Eintreten eines Ereignisses auf die
Wahrscheinlichkeitsverteilung einer Ursache geschlossen wird. Ein Beispiel hierfür ist
die bedingte Wahrscheinlichkeit P(S|N). In diesem Fall ist der Zustand des Knotens
nasserRasen gegeben und die Zustandsverteilung des Knotens Sprinkleranlage ge-
fragt. Interkausale Inferenz tritt auf, wenn sowohl der Knoten nasserRasen als auch
der Knoten Regen als Evidenz vorausgesetzt wird. Die nun gesuchte Wahrschein-
lichkeit P(S|R, N) ist ein Fall interkausaler Inferenz. Es wird beschrieben, wie sich
verschiedene Ursachen desselben Effekts gegenseitig beeinflussen. Die vierte Kategorie
der Inferenz-Typen entsteht aus der Mischung von kausaler und diagnostischer Infe-
24. 16 Theoretische Grundlagen zu Bayes’schen Netzen
renz. Diese Mischform zeichnet sich dadurch aus, dass Informationen von einem Vor-
und Nachfahren eines beliebigen Knotens bekannt sind. Wird nach dem Zustand der
Sprinkleranlage gefragt, bei gleichzeitigem Beobachten der Knoten Bewölkung und
nasserRasen, ist P(S|B, N) die gesuchte Wahrscheinlichkeit [Alp08].
Auch in der Vorgehensweise der Inferenz werden Unterschiede gemacht. Um eine
akzeptable Rechenzeit zu erzielen, werden vor allem in der Praxis approximative
Verfahren benutzt. Eine genauere Berechnung der Wahrscheinlichkeit wird dahingegen
nur von exakten Verfahren erreicht, die in der Regel aber eine längere Laufzeit besitzen
[Kap07].
3.2.2 Variablenelimination
Es wird nun ein Verfahren vorgestellt, das veranschaulicht, wie Inferenz in einem
Bayes’schen Netz funktionieren kann. Die Variablenelimination gehört zu den exakten
Inferenzalgorithmen [KF09]. In der Praxis wird diese aber nur für Graphen mit geringer
Baumtiefe benutzt, da die Baumtiefe exponentiell in die Rechenzeit des Algorithmus
einfließt [Dar09]. Nichtsdestotrotz lässt sich mit der Variablenelimination die Inferenz
sehr anschaulich erklären. Außerdem finden sich die grundlegenden Operationen der
Variablenelimination im Junction Tree Algorithmus wieder [KF09]. Der Junction
Tree Algorithmus wird in dieser Arbeit als Inferenzalgorithmus für die verwendete
Bayes Net Toolbox gewählt und im nächsten Unterkapitel genauer vorgestellt. Im
Folgenden soll anhand des Bayes’schen Netzes aus 3.1.2 jeweils ein Rechenbeispiel mit
und ohne Evidenz vorgestellt werden [Mur01].
Für den ersten Fall wird die Wahrscheinlichkeitsverteilung des Knoten nasserRasen
gesucht, ohne eine einzige Information über den Zustand der anderen drei Knoten zu
besitzen. Somit muss die Verbundwahrscheinlichkeit über die unbekannten Knoten
Bewölkung, Sprinkleranlage und Regen summiert werden:
P(N) =
B,S,R
P(B, S, R, N)
=
B,S,R
P(B) · P(S|B) · P(R|B) · P(N|R, S)
Zur Vorgehensweise der Variablenelimination gehört es, die Summen zu trennen. Dabei
wird das Distributivgesetz auf das Produkt der bedingten Wahrscheinlichkeiten ange-
wandt und über die versteckten Variablen marginalisiert. Die Idee besteht darin, dass
die Summen von hinten nach vorne gelöst werden und die resultierenden Teilergebnisse
wiederverwendet werden können um die Effizienz zu steigern [KF09]. Die Reihenfolge
der Unterteilung der Summen kann beliebig vorgenommen werden, hat jedoch einen
großen Einfluss auf die benötigte Rechenzeit [Ami08].
25. 3.2 Inferenz in Bayes’schen Netzen 17
Für dieses Rechenbeispiel wird folgende, mögliche Aufteilung der Summen verwendet:
P(N) =
B
P(B)
S
P(S|B)
R
P(R|B) · P(N|R, S)
Die hinterste Summe wird immer durch den Faktor τ ausgedrückt. Dieser ist bis auf
die eliminierten Variablen und die Laufvariable der ersetzen Summe von allen Knoten
in der Summe abhängig.
Da für die erste Summe noch keine Variablen eliminiert worden sind, ergibt sich im
ersten Schritt für τ1:
τ1(B, S, N) =
R
P(R|B) · P(N|R, S)
Allgemein werden alle möglichen Zustandskombinationen des Faktors τ berechnet
[Kas12]. Dabei stehen in dessen Exponent die jeweiligen Zustände der Knoten. Die
Kürzel w und f repräsentieren die Zustände wahr und falsch. Da τ1 von 3 Variablen
abhängig ist, ergeben sich für 2 Zustandsformen 23
= 8 Werte:
τw,w,w
1 (B, S, N) = 0, 80 · 0, 99 + 0, 20 · 0, 90 = 0, 972
τw,f,w
1 (B, S, N) = 0, 80 · 0, 90 + 0, 20 · 0, 00 = 0, 720
τf,w,w
1 (B, S, N) = 0, 20 · 0, 99 + 0, 80 · 0, 90 = 0, 918
τf,f,w
1 (B, S, N) = 0, 20 · 0, 90 + 0, 80 · 0, 00 = 0, 180
τw,w,f
1 (B, S, N) = 0, 80 · 0, 01 + 0, 20 · 0, 10 = 0, 028
τw,f,f
1 (B, S, N) = 0, 80 · 0, 10 + 0, 20 · 1, 00 = 0, 280
τf,w,f
1 (B, S, N) = 0, 20 · 0, 01 + 0, 80 · 0, 10 = 0, 082
τf,f,f
1 (B, S, N) = 0, 20 · 0, 10 + 0, 80 · 1, 00 = 0, 820
Durch die Berechnung von τ1 wird R eliminiert:
P(N) =
B
P(B)
S
P(S|B) · τ1(B, S, N)
Der Vorgang wird nun so oft wiederholt, bis keine Summe mehr vorhanden ist.
Als zweiter Schritt wird der Faktor τ2, der nur noch von B und N abhängt, eingeführt
und berechnet:
τ2(B, N) =
S
P(S|B) · τ1(B, S, N)
τw,w
2 (B, N) = 0, 972 · 0, 100 + 0, 720 · 0, 900 = 0, 7452
τw,w
2 (B, N) = 0, 918 · 0, 500 + 0, 180 · 0, 500 = 0, 5490
τw,w
2 (B, N) = 0, 028 · 0, 100 + 0, 280 · 0, 900 = 0, 2548
τw,w
2 (B, N) = 0, 082 · 0, 500 + 0, 820 · 0, 500 = 0, 4510
26. 18 Theoretische Grundlagen zu Bayes’schen Netzen
Nach Eliminierung von S bleibt folgende Gleichung übrig:
P(N) =
B
P(B) · τ2(B, N)
Die letzte Summe wird mit dem Faktor τ3 ausgedrückt und entspricht schon P(N):
τ3(B) =
B
P(B) · τ2(B, N)
Somit ergibt sich folgendes Ergebnis:
P(n) = 0, 5000 · 0, 7452 + 0, 5000 · 0, 5490 = 0, 6471
P(∼ n) = 0, 5000 · 0, 2548 + 0, 5000 · 0, 4510 = 0, 3529
Im zweiten Fall des Rechenbeispiels ist nun Evidenz vorhanden. Unter Information,
dass der Knoten nasserRasen sich im Zustand wahr befindet, soll die Wahrschein-
lichkeitsverteilung des Knotens Sprinkleranlage berechnet werden:
P(S|n) =
P(S, n)
P(n)
= B,R P(B, S, R, n)
P(n)
Der Nenner P(n) ist durch oben stehende Berechnung bereits bekannt und muss nicht
mehr ermittelt werden. Der Zähler wird nach dem Schema der Variablenelimination
ermittelt:
B,R
P(B, S, R, n) =
B
P(B) · P(S|B)
R
P(R|B) · P(n|R, S)
Die hintere Summe entspricht τ1 und ist daher schon vollständig beschrieben. Jedoch
werden nur die 4 Teilergebnisse benötigt, für die sich der Knoten nasserRasen sich
im Zustand wahr befindet:
τw,w,w
1 (B, S, n) = 0, 972
τf,w,w
1 (B, S, n) = 0, 918
τw,f,w
1 (B, S, n) = 0, 720
τf,f,w
1 (B, S, n) = 0, 180
Aufgrund dessen wird noch ein neuer Faktor τ4 benötigt, der schon identisch zu
P(S, n) ist:
τ4(B) =
B
P(B) · P(S|B) · τ1(B, S, n)
τw
4 (B) = 0, 500 · 0, 100 · 0, 972 + 0, 500 · 0, 500 · 0, 918 = 0, 2781
τf
4 (B) = 0, 500 · 0, 900 · 0, 720 + 0, 500 · 0, 500 · 0, 180 = 0, 3690
27. 3.2 Inferenz in Bayes’schen Netzen 19
Somit ergibt sich folgendes Ergebnis:
P(s|n) =
0, 2781
0, 6471
= 0, 4298
P(∼ s|n) =
0, 3690
0, 6471
= 0, 5702
Auch ohne die Kenntnis von P(n) aus dem ersten Fall des Rechenbeispiels ist es
möglich, auf die Wahrscheinlichkeitswerte von P(s|n) und P(∼ s|n) zu schließen.
Durch die Normierung der Ergebnisse von τw
4 (B) und τf
4 (B) zu einer gültigen Wahr-
scheinlichkeitsdichte ergeben sich dieselben Ergebnisse:
P(s|n) =
τw
4 (B)
τw
4 (B) + τf
4 (B)
=
0, 2781
0, 2781 + 0, 3690
= 0, 4298
P(∼ s|n) =
τf
4 (B)
τw
4 (B) + τf
4 (B)
=
0, 3690
0, 2781 + 0, 3690
= 0, 5702
Dieses Beispiel beinhaltet nur diskrete Knoten. Mit kontinuierlichen Knoten erfolgt
die Inferenz analog. Für diese Arbeit kann angenommen werden, dass der Zustand der
kontinuierlichen Knoten bei Inferenzberechnungen immer bekannt ist. Zudem wird
nur die Konstellation betrachtet, in der kontinuierliche Knoten keine Kindknoten,
jedoch einen diskreten, unbeobachteten Elternknoten besitzen. Zur Veranschaulichung
kann Abbildung 3.1 herangezogen werden. In dieser Anschauung ist Xi der diskrete
Elternknoten des kontinuierlichen Knotens Xj. Die Zustandsverteilung des Knotens Xi
unter der Bedingung, dass Xj den kontinuierlichen Wert c annimmt, berechnet anhand
der Gleichung 3.1 wie folgt:
P(Xi = i|Xj = c) =
P(Xi = i, Xj = c)
P(Xj = c)
=
P(Xi = i, Xj = c)
i P(Xj = c|Xi = i) · P(Xi = i)
=
P(Xj = c|Xi = i) · P(Xi = i)
i P(Xj = c|Xi = i) · P(Xi = i)
(3.11)
P(Xj = c|Xi = i) entspricht dabei dem Funktionswert der kontinuierlichen Wahr-
scheinlichkeitsverteilung, die für den Zustand Xi = i gelernt wurde. Eine Erklärung
des Lernvorgangs erfolgt in 3.3.1.
28. 20 Theoretische Grundlagen zu Bayes’schen Netzen
3.2.3 Junction Tree Algorithmus
Der Junction Tree Algorithmus [KF09] bedient sich derselben Grundidee des bereits
vorgestellten Algorithmus der Variablenelimination. Dazu wird das originale Bayes’sche
Netz in einen Verbundbaum (engl. Junction Tree) umgewandelt.
Das Überführen eines Bayes’schen Netzes in einen Verbundbaum kann in 5 Schritte
gegliedert werden [AlH08]:
1. Es muss gewährleistet werden, dass für einen beliebigen Knoten Xi im Graphen G
des Bayes’schen Netzes eine gemeinsame Verbindung zwischen dessen Eltern-
knoten besteht. Ist dies nicht der Fall, muss paarweise eine ungerichtete Kante
zwischen die Elternknoten von Xi eingefügt werden.
2. Alle Pfeilrichtungen werden aufgelöst, so dass die gerichteten Kanten des
Bayes’schen Netzes ihre Richtung verlieren. An dieser Stelle wird von einem
moralisierten Graphen Gm
[KF09] gesprochen.
3. Es werden solange ungerichtete Kanten hinzugefügt, bis Gm
die Triangulation
erfüllt. Bedingung hierfür ist, dass jeder Zyklus mit mehr als drei Kanten eine
Kante besitzt, die zwei nicht benachbarte Knoten in diesem Zyklus miteinan-
der verbindet. Das Erstellen eines triangulierten Graphen ist kein eindeutiges
Verfahren. Dafür stehen verschiedene Algorithmen zur Verfügung, die nach der
bestmöglichen Anordnung der Triangulationen suchen. Die gefundene Anord-
nung beeinflusst später die Rechenzeit bei der Verwendung der Inferenz mittels
des Junction Tree Algorithmus [LS80].
4. Eine eindeutige Menge aller maximalen Cliquen muss bestimmt werden. Eine
Clique [KF09] ist eine Sammlung an Knoten, in der alle Knoten untereinander
verbunden sind. Als maximal wird eine Clique bezeichnet, sobald durch Hinzufü-
gen eines beliebigen weiteren Knotens aus V nicht mehr alle Knoten paarweise
untereinander verbunden sind.
5. Der Verbundbaum kann jetzt aufgestellt werden. Gemeinsam bilden alle maxima-
len Cliquen den Verbundbaum. Als Separator werden diejenigen Knoten zwischen
zwei Cliquen bezeichnet, die in beiden benachbarten Cliquen auftauchen.
Die graphentheoretischen Änderungen aus den Schritten 1 bis 5 müssen in der Wahr-
scheinlichkeitsberechnung des Verbundbaums angepasst werden. Der Junction Tree
Algorithmus hat einen großen Vorteil gegenüber der Variablenelimination, wenn Mar-
ginalisierungen gebraucht werden. Unter Marginalisieren wird die Berechnung von der
Zustandsverteilung bestimmter Knoten in einem Bayes’schen Netz bezeichnet [AlH08].
29. 3.2 Inferenz in Bayes’schen Netzen 21
Für die Lernverfahren eines Bayes’schen Netzes beispielsweise kommen viele Margina-
lisierungen vor. Im Gegensatz zur Variablenelimination spart sich der Junction Tree
Algorithmus unnötige Rechenschritte durch das Nutzen seiner Cliquen und ist daher in
der Regel effizienter [Mure]. Die vollständige Umstrukturierung des Beispielnetzes aus
3.1.2 wird in Abbildung 3.6 gezeigt. Durch die beschriebene Cliquenbildung vereinen
sich hier die Knoten Sprinkleranlage und Regen zu einem gemeinsamen Knoten. Für
den mittleren Knoten, der von den 3 ursprünglichen Knoten Sprinkleranlage, Regen
und Bewölkung abhängig ist, ergeben sich durch die binären Zustandsformen 23
= 8
mögliche Wahrscheinlichkeitswerte [RN95]. Die nebenstehenden Größen ergeben sich
durch einfache Multiplikation, weil die Knoten Sprinkleranlage und Regen nach
3.1.3 zueinander d-separiert sind. Für zwei d-separierte Knoten sind ihre zugrunde
liegenden Zufallsvariablen unabhängig und die Gleichung 3.3 darf verwendet wer-
den [AlH08]. Beispielsweise berechnet sich die Wahrscheinlichkeit, dass Bewölkung,
Sprinkleranlage und Regen den Zustand wahr einnehmen, folgendermaßen:
P(r, s|b) = P(r|b) · P(s|b) = 0, 1 · 0, 8 = 0, 08
Abbildung 3.6: Umstrukturierung durch den Junction Tree Algorithmus
30. 22 Theoretische Grundlagen zu Bayes’schen Netzen
3.3 Lernen in Bayes’schen Netzen
Bisher wurde immer von einem fertigen Bayes’schen Netz ausgegangen, bei dem der
Graph und die bedingten Wahrscheinlichkeitsverteilungen bereits vorliegen. Diese zwei
Eigenschaften haben großen Einfluss auf die Qualität des Wahrscheinlichkeitsmodells.
Das folgende Kapitel stellt diverse Lernmethoden für das Bayes’sche Netz vor. Ziel des
Lernens ist es, aus einem vorliegenden Datensatz D ein Bayes’sches Netz zu schaffen,
welches diesen möglichst gut repräsentiert. Durch den vorhandenen Datensatz D
können die Struktur oder die Parameter eines Bayes’schen Netzes gelernt werden
[KF09]. Der erste Abschnitt beschäftigt sich ausführlich mit dem Lernen der Parameter
in einem Bayes’schen Netz. Auf das Strukturlernen wird nur flüchtig im zweiten
Abschnitt eingegangen, da für das später verwendete Bayes’sche Netz schon von einer
festen Struktur ausgegangen wird.
3.3.1 Lernen der Parameter
Die Wahrscheinlichkeitsverteilungen der Knoten eines Bayes’schen Netzes werden als
Parameter des Netzes bezeichnet. Um diese zu lernen, wird von einer festen Struktur
ausgegangen [Nea04]. Diese Bedingung ist notwendig damit die Dimension, Art und
Anzahl der Knoten im vorliegendem Bayes’schen Netz festgelegt sind. Außerdem wird
ein Datensatz D benötigt, der aus m ∈ N untereinander unabhängigen Fällen besteht,
wobei jeder Einzelfall eine Konfiguration über alle n Knoten des Bayes’schen Netzes
darstellt. Datensätze können in vollständiger oder unvollständiger Art vorliegen, je
nachdem ob alle Knoten beobachtet wurden oder nicht. Daher wird zunächst die
Maximum-Likelihood-Methode für einen vollständigen Datensatz erläutert. Für einen
unvollständigen Datensatz erfolgt die Maximum-Likelihood-Methode mit Hilfe des
EM-Algorithmus, der als zweites beschrieben wird.
Maximum-Likelihood-Methode
Sofern der Datensatz für alle Knoten eine Evidenz vorliegen hat, werden die Parameter
eines Bayes’schen Netzes mit der Maximum-Likelihood-Methode gelernt. Da Knoten
kontinuierliche oder diskrete Zufallsvariablen beschreiben können, ergeben sich viele
Kombinationsmöglichkeiten für einen zufälligen Knoten im Bayes’schen Netz mit
beliebig vielen Elternknoten jeglicher Art. Hier soll aber nur auf zwei Konstellationen
eingegangen werden, die die einzigen sind, die im später verwendeten Bayes’schen Netz
aus Kapitel 4 vorkommen. In beiden Konstellationen werden nur Knoten betrachtet,
die diskrete Elternknoten besitzen. Die Unterscheidung entsteht dabei nur, ob der
31. 3.3 Lernen in Bayes’schen Netzen 23
Knoten selbst diskret oder kontinuierlich ist. Daraus folgt zugleich, dass Konstellatio-
nen mit kontinuierlichen Elternknoten für diese Arbeit nicht berücksichtigt werden.
Für einen Knoten gibt es eine große Auswahl an möglichen, bedingten Wahrscheinlich-
keitsverteilungen P(Xi|Pa(Xi)), je nachdem, ob Xi und Pa(Xi) diskret, kontinuierlich
oder eine Mischung aus beidem sind. Die gebräuchlichsten Verteilungen für diskrete
Knoten sind aber die sogenannten Wahrscheinlichkeitstabellen und für kontinuierliche
Knoten Gauß-Verteilungen. Für einen binären Knoten in einem Bayes’schen Netz kann
eine stetige Wahrscheinlichkeitsverteilung mit Hilfe der Betafunktion gelernt werden.
Ist die Dimension des Knotens jedoch größer als zwei kann die Dirichlet-Verteilung
angewandt werden, um eine stetige, multivariate Wahrscheinlichkeitsverteilung abzu-
bilden [Bis06; Nea04]. Die Sigmoidfunktion kann für einen diskreten Knoten eingesetzt
werden, der sowohl diskrete, als auch kontinuierliche Elternknoten besitzen darf. Sie
kann zur Klassifizierung verwendet werden, wobei ihr s-förmiger Graph über eine
„weiche“ oder „harte“ Trennung der Fälle entscheidet [Murb]. Eine Trennung gilt als
„hart“, wenn ein kontinuierlicher Wert entweder der einen oder der anderen Klasse
zugeteilt wird. Eine „weiche“ Trennung hingegen besitzt einen fließenden Übergang
zwischen zwei Klassen. Auf das Lernen von Wahrscheinlichkeitstabellen und Gauß-
Verteilungen wird im Folgenden genauer eingegangen, da diese für die Arbeit benötigt
werden.
Die individuellen Parameter eines diskreten Knotens Xi, der durch eine Wahrschein-
lichkeitstabelle beschrieben werden soll, lassen sich wie folgt definieren [Mur02]:
Θijk = P(Xi = k|Pa(Xi) = j) ; k = 1, . . . , ri ; j = 1, . . . , qi (3.12)
Die Dimension des diskreten Knotens Xi beträgt ri und die Anzahl der Konfigura-
tionen seiner Elternknoten Pa(Xi) ist qi, welche sich aus dem Produkt der einzelnen
Dimensionen der Elternknoten berechnen lässt. Damit eine gültige, diskrete Wahr-
scheinlichkeitsdichte für den Knoten Xi besteht, muss die Summe der Einzelwahr-
scheinlichkeiten eines Zustands der Eltern j zusammen 100% ergeben:
k
Θijk = 1 (3.13)
Die log-Likelihood LL für eine Wahrscheinlichkeitstabelle eines diskreten Knotens ist:
LL =
i m
log
j,k
Θ
Iijkm
ijk
=
i m j,k
IijkmlogΘijk
=
ijk
NijklogΘijk
(3.14)
I entspricht der Indikatorfunktion mit Iijkm = I(Xi = k, Pa(Xi) = j|Dm). Die Anzahl
des Ereignisses (Xi = k, Pa(Xi) = j) im Datensatz D wird mit Nijk bezeichnet.
32. 24 Theoretische Grundlagen zu Bayes’schen Netzen
Um die beste Schätzung für die Parameter zu erhalten, muss die log-Likelihood
maximiert werden. Die erste Ableitung liefert die Berechnung des Maximums:
ˆΘijk =
Nijk
k Nijk
(3.15)
Das folgende Beispiel ist für das Bayes’sche Netz aus 3.1.2 ausgelegt und soll das
Lernen der Parameter eines diskreten Knotens veranschaulichen. Dafür wird ein Da-
tensatz D∗
angenommen, der das Wetter von einem Monat mit 30 Tagen beinhaltet.
In diesen 30 Tagen war es an 20 Tagen bewölkt (j=1). Außerdem wurde beobachtet,
dass es an diesen 20 Tagen 16 mal geregnet hat (k=1) und folglich 4 mal trocken
blieb (k=2). An den 10 nicht bewölkten Tagen (j=2) regnete es hingegen nur 2 mal.
Die Parameter für den Knoten Regen (i=3) könnten somit durch den Datensatz D∗
entstanden sein.
ˆΘ311 =
N311
k N31k
=
N311
N311 + N312
=
16
16 + 4
=
16
20
= 0, 8
→ P(r|b) = 0, 8
ˆΘ312 =
N312
k N31k
=
N312
N311 + N312
=
4
16 + 4
=
4
20
= 0, 2
→ P(∼ r|b) = 0, 2
ˆΘ321 =
N312
k N32k
=
N321
N321 + N322
=
2
2 + 8
=
2
10
= 0, 2
→ P(r| ∼ b) = 0, 2
ˆΘ322 =
N322
k N32k
=
N322
N321 + N322
=
8
2 + 8
=
8
10
= 0, 8
→ P(∼ r| ∼ b) = 0, 8
Der nächste Abschnitt behandelt das Lernen der Parameter eines kontinuierlichen
Knotens. Für einen kontinuierlichen Knoten Xi der Dimension ri kann die bedingte
Wahrscheinlichkeitsverteilung durch eine ri-dimensionale Gauß-Verteilung angenähert
werden. Für jede Zustandskombination der Elternknoten Pa(Xi) = j mit j = 1, . . . , qi
wird dabei eine eigene ri-dimensionale Gauß-Verteilung gelernt.
p(x|Pa(Xi) = j) = (2π)−ri/2
|Σij|−1
2 exp{−
1
2
(x − µij)T
Σ−1
ij (x − µij)} (3.16)
33. 3.3 Lernen in Bayes’schen Netzen 25
Dabei ist µij der ri × 1-dimensionale Erwartungswertvektor des Knotens Xi unter der
Bedingung, dass die Elternknoten im Zustand j sind. Σij entspricht der zugehörigen
ri × ri Kovarianzmatrix, welche symmetrisch, invertierbar und positiv definit ist. |Σij|
steht für die Determinante der Kovarianzmatrix und Σ−1
ij für ihre inverse Matrix.
Die Maximum-Likelihood-Methode ergibt für den Erwartungswert und der Kovarianz-
matrix [Gu]:
ˆµij =
1
nj
nj
k=1
xijk
ˆΣij =
1
nj
nj
k=1
(xijk − ˆµij)(xijk − ˆµij)T
(3.17)
Dabei ist nj die Anzahl der Beobachtungen des Knotens Xi unter dem Zustand j.
xijk ist ein ri × 1-dimensionaler Datenvektor für den Knoten Xi unter der Bedingung,
dass die Elternknoten im Zustand j sind.
EM-Algorithmus
In diesem Abschnitt wird das Lernen der Parameter für einen unvollständigen Da-
tensatz erläutert. Ein Datensatz kann unvollständig sein, falls latente Knoten in
einem Bayes’schen Netz verwendet werden oder der Datensatz zum Beispiel auf eine
Messreihe zurückgreift, bei der Messwerte verloren gegangen sind. Latente Knoten
erhalten keine Evidenz vor dem Lernen der Parameter, da sie im Gegensatz zu den
anderen Knoten keine Ereignisse repräsentieren sollen. Sie werden eingesetzt, um die
beobachtbaren Daten zu gliedern und gegebenenfalls die Struktur eines Bayes’schen
Netzes zu vereinfachen [AHJK12]. Ein Beispiel für die Anwendung von latenten Kno-
ten ist der „Mixture-of-Gaussian“-Ansatz. Durch die Gliederung von kontinuierlichen
Daten können individuelle kontinuierliche Wahrscheinlichkeitsverteilungen gelernt
werden, die von der ursprünglichen Form der Gauß-Verteilungen abweichen.
Die bisher bekannte Maximum-Likelihood-Methode kann nicht für einen unvollstän-
digen Datensatz angewandt werden, da die Schätzung der Parameter von den nicht
beobachtbaren Zuständen abhängt. Es wird daher eine Methode benötigt, die mit den
gesuchten Endparametern die Parameter der Knoten schätzt, die nicht vollständig
beobachtbar sind. Für das Lernen der Parameter mit einem unvollständigen Datensatz
eignet sich der EM-Algorithmus, bei dem es sich um einen iterativen Algorithmus
handelt, der die Parameter Θ schrittweise verbessert und die Likelihood P(D|Θ)
maximiert. Für dessen Anwendung wird der Datensatz D in einen beobachtbaren
Anteil B und einen unbeobachtbaren Anteil U unterteilt. Vor der ersten Iteration des
EM-Algorithmus muss bei einer zufälligen Schätzung Θ(0)
begonnen werden.
34. 26 Theoretische Grundlagen zu Bayes’schen Netzen
Danach besteht jede Iteration (k=1,2,. . . ) aus 2 Schritten:
1. Der E-Schritt (Expectation): Anhand der bisher geschätzten Parameter Θ(k)
und
den beobachtbaren Daten B wird der bedingte Erwartungswert vom Logarithmus
die Likelihood bestimmt:
Q(Θ|Θ(k)
) = EΘ(k) (logP(D|Θ)|B, Θ(k)
) (3.18)
2. Der M-Schritt (Maximization): Es werden die neuen Parameter berechnet, die
den bedingten Erwartungswert Q(Θ|Θ(k)
) maximieren:
Θ(k+1)
= arg max
Θ
Q(Θ|Θ(k)
) (3.19)
Durch jede Iteration steigt der Wert der Likelihood und konvergiert schließlich gegen
ein lokales Maximum. Als Abbruchbedingung für den EM-Algorithmus kann entweder
eine Anzahl an Iterationen oder eine Schranke für die Änderung der Likelihood
festgelegt werden [LJ09].
3.3.2 Lernen der Struktur
Wie auch beim Lernen der Parameter benötigt das Lernen der Struktur Bedingun-
gen um die Suche einzuschränken. Um die Struktur für ein Bayes’sches Netz zu
finden, welche am ehesten dem Datensatz D entspricht, müssen auch hier die An-
zahl, die Dimension und die Art der Knoten aus V bekannt sein. Im Gegensatz zum
Parameterlernen muss beim Strukturlernen zusätzlich für jeden Fall die Verbund-
wahrscheinlichkeit P(X1, . . . , Xn) gegeben sein. Generell existieren zwei verschiedene
Ansätze zum Lernen der Struktur. Die „constraint“-basierte Variante [Ana06] unter-
sucht, welche Abhängigkeiten zwischen den Knoten besteht, um dann ein Netzwerk zu
finden, welches diese Abhängigkeiten und Unabhängigkeiten am besten widerspiegelt.
Dazu werden erst alle Knoten miteinander verbunden und die gerichteten Kanten
zwischen zwei Knoten entfernt, die laut Datensatz D unabhängig sind. Für diese Vari-
ante wird ein vollständig vorliegender Datensatz D vorausgesetzt. Die „score“-basierte
Methode [Ana06] untersucht alle Kombinationsmöglichkeiten für die Verbindungen
der Knoten und bewertet diese mit Hilfe einer Funktion. Ein großer Nachteil dieser
Variante ist aber, dass die Knotenzahl n mehr als exponentiell in die Rechenzeit
eingeht. So sind schon für sechs Knoten 3 781 503 verschiedene Kompositionen für die
Kanten möglich [Murb].
35. 3.4 Dynamische Bayes’sche Netze 27
3.4 Dynamische Bayes’sche Netze
Dynamische Bayes’sche Netze stellen eine Erweiterung der bisher besprochenen
Bayes’schen Netzen dar [Mur02]. Das Wort „dynamisch“ bedeutet hier aber nicht, dass
sich das Netz mit der Zeit ändert. Stattdessen gewinnt das derzeitige Bayes’sche Netz
eine neue Dimension hinzu: die Zeit. Bisher war es nur möglich eine Momentaufnah-
me zu modellieren. Ein Dynamisches Bayes’sches Netz hingegen ist eine Verkettung
von Bayes’schen Netzen, die es ermöglicht eine ganze Zeitreihe von Beobachtungen
zu repräsentieren. Die Zeitreihe ist eine Ansammlung von einer diskreten Anzahl
an Zeitscheiben. Jede Zeitscheibe beinhaltet dabei ein gleichbleibendes Bayes’sches
Netz. Zusätzlich zu den gerichteten Kanten in den einzelnen Zeitscheiben existieren
nun auch Kanten, die die einzelnen Zeitscheiben verbinden. Es wird angenommen,
dass die zeitübergreifenden Kanten in Richtung der zukünftigen Zeitscheiben zeigen.
Hier richten sich diese Kanten nur zu ihrem nächsten Nachfolger und bauen keine
Verbindung zu anderen Zeitscheiben auf. Diese Annahme ist als Markov-Bedingung
erster Ordnung bekannt [MP01].
Ein einfaches Beispiel für ein Dynamisches Bayes’sches Netz wird in Abbildung 3.7
dargestellt. In jeder Zeitscheibe besitzt das Netz zwei Knoten X
(t)
1 und X
(t)
2 , wobei
t = 1, 2, . . . T für einen beliebigen Zeitpunkt steht.
Für die Inferenz in einem Dynamischen Bayes’schen Netz gelten die selben Algorithmen
wie auch für Bayes’sche Netze. Dafür muss das Dynamische Bayes’sche Netz einfach
für T Zeitscheiben ausgerollt werden und ganzheitlich als ein großes Bayes’sches Netz
angesehen werden [Mur02]. Aufgrund der stark anwachsenden Rechenzeit für Inferenz-
Abbildung 3.7: Beispiel eines Dynamischen Bayes’schen Netzes
36. 28 Theoretische Grundlagen zu Bayes’schen Netzen
berechnungen bei zu großen Netzen, welche nachteilig aus dieser Variante resultieren,
bieten sich eine Vielzahl an weiteren Inferenz-Methoden an, die es ermöglichen, die
Rechenzeit zu verringern. Im Idealfall lässt sich Inferenz dann sogar in Echtzeit be-
rechnen. Für diese Arbeit wird die Variante des Junction Tree Algorithmus aus 3.2.3
verwendet. Für das Lernen der Parameter und der Struktur in einem Dynamischen
Bayes’schen Netz wird auf die Techniken der Lernverfahren für Bayes’sche Netze
zurückgegriffen [Mur02].
37. 4 Situationsbezogener
Lösungsansatz
Im Folgenden soll ein Ansatz entwickelt werden, der der Vorhersage von Fahrma-
növern in Autobahnszenarien dient. Dieser sieht vor, schon während des Verlaufs
der Fahrsituation, mit Hilfe eines Dynamischen Bayes’schen Netzes, Schätzungen
über mögliche Situationsausgänge zu machen. Nachdem in 4.1 die zu untersuchende
Fahrsituation genau beschrieben wird, erfolgt in 4.2 die Ermittlung der Daten, die
als Situationsmerkmale für das Dynamische Bayes’sche Netz zur Verfügung stehen.
Abschließend werden in 4.3 sowohl das verwendete Dynamische Bayes’sche Netz als
auch die Formen der Struktur sowie die Parameter vorgestellt.
4.1 Beschreibung der Fahrsituation
In diesem Kapitel werden die Rahmenbedingungen der zu untersuchenden Fahrsituati-
on festgelegt. Das ausgewählte Szenario zeigt eine Konstellation von drei Fahrzeugen.
Weitere Fahrzeuge werden für diese Arbeit nicht berücksichtigt. Für eine bessere
Erläuterung erhalten die drei Fahrzeuge die Namen Fahrzeug 1, Fahrzeug 2 und
Fahrzeug 3. Der Ausgangspunkt der Fahrsituation wird in Abbildung 4.1 dargestellt.
In der Abbildung entspricht das Messfahrzeug Fahrzeug 1 dem grünen und das
Fahrzeug 2 dem roten PKW. Der gelbe LKW stellt Fahrzeug 3 dar. Des Weiteren
werden Notationen für die Fahrzeug-Fahrzeug-Beziehungen eingeführt. Die Bezie-
hung von Fahrzeug 2 zu Fahrzeug 1 wird als Ego-Beziehung bezeichnet. Weil sich
Fahrzeug 3 vor Fahrzeug 2 befindet, wird diese Beziehung als Front-Beziehung fest-
gelegt. Diese Fahrzeug-Fahrzeug-Beziehungen können der Abbildung 4.1 ebenfalls
entnommen werden. Hierbei wurden die Bezeichnungen aus Sicht von Fahrzeug 2
gewählt, da das Fahrverhalten des rechten, hinteren Fahrzeugs (Fahrzeug 2) für den
Ausgang der Fahrsituation entscheidend ist und daher prädiziert werden soll. Zudem
wird ersichtlich, dass als Kriterium für das ausgewählte Szenario zwei Fahrzeuge
(Fahrzeug 2 und Fahrzeug 3) auf der rechten Spur fahren müssen. Diese müssen sich
vor Fahrzeug 1 befinden, welches dauerhaft auf der linken Spur fährt.
38. 30 Situationsbezogener Lösungsansatz
Abbildung 4.1: Ausgangslage der Fahrsituation
Für das Ende der Fahrsituation werden zwei mögliche Situationsausgänge festgelegt.
Für den ersten Situationsausgang verweilt Fahrzeug 2 solange auf der rechten Spur
bis sich Fahrzeug 1 diesem bis auf 20m angenähert hat. Dieses Ende wird als Folgever-
halten von Fahrzeug 2 bezeichnet. Der Ablauf dieses Szenarios wird in Abbildung 4.2
skizziert. Aufgrund der eingesetzten Detektion von Fahrzeugen endet das Szenario
für eine Annäherung von 20m. Eine genauere Erklärung hierfür erfolgt im nächsten
Unterkapitel. In den verwendeten Aufnahmen der Autobahnfahrten setzte Fahrzeug 2
nie zu einem Spurwechsel an, sofern die Distanz der Ego-Beziehung unter 20m gefallen
war.
Im Umkehrschluss folgt, dass ein Einschervorgang nur für eine Distanz der Ego-
Beziehung größer als 20m geschah. Somit stellt ein Einschervorgang von Fahrzeug 2
den zweiten Situationsausgang dar. In Abbildung 4.3 wird dieser Prozess veranschau-
licht. In beiden Darstellungen wurde der gelbe LKW als Fixpunkt angenommen und
die Trajektorie der beiden PKWs skizziert. Je transparenter die Aufnahmen der PKWs
sind, desto weiter liegen diese Momentaufnahmen in der Vergangenheit.
Abbildung 4.2: Szenario mit Folgeverhalten
39. 4.2 Gewinnung der Daten 31
Abbildung 4.3: Szenario mit Einschervorgang
Zusätzlich muss erwähnt werden, dass die Messaufnahmen hauptsächlich auf zwei-
spurigen Autobahnabschnitten entstanden sind. Sofern Messungen auf dreispurigen
Autobahnabschnitten aufgenommen wurden, wird die Fahrsituation auf die zwei
Fahrbahnen eingeschränkt, auf denen sich die drei Fahrzeuge aufhielten.
4.2 Gewinnung der Daten
Dieses Kapitel handelt von der Datengewinnung. Für die Detektion der Fahrzeuge
ist das Messfahrzeug Fahrzeug 1 mit mehreren Sensoren ausgestattet. Um auf der
Autobahn vorausfahrende Fahrzeuge zu detektieren, werden in diesem Fall nur zwei
Sensoren verwendet, die im Frontbereich des Messfahrzeugs angebracht sind. Zum
einen eine Kamera, die eine Bildauflösung von 1392 × 1040 Pixel hat, zum anderen
wird ein Long Range Radar verwendet, das eine Reichweite von 200m aufweist. Die
Winkelmessung hat dabei eine Auflösung von 1◦
, während die Strahlaufweitung einen
Seitenwinkel von ±8, 5◦
besitzt. Unter Tracking wird die Schätzung des Zustandes
eines stehenden oder bewegten Objekts verstanden. Für das Tracking werden die
Kamerabilder der detektierten Rückfronten der Fahrzeuge mit die Radarmessungen
fusioniert. Allgemein wird mit Hilfe von Sensordatenfusion das Ziel verfolgt, die jeweili-
gen Stärken der Einzelsensoren zu nutzen und bestehende Schwächen zu kompensieren
[WHW11]. Für diese Arbeit beziehen sich Detektion und Tracking ausschließlich auf
Fahrzeug 2 und Fahrzeug 3. Durch die eingesetzte Sensortechnik können Fahrzeuge,
die sich auf der Nebenspur befinden, ab circa 20m nicht mehr detektiert und somit
das Tracking abbricht. Aus diesem Grund endet das Tracking von Fahrzeug 2 bei
20m, falls die Situation mit einem Folgeverhalten ausgeht.
40. 32 Situationsbezogener Lösungsansatz
Die beschriebene Fahrsituation aus 4.1, die als Einschervorgang oder Folgeverhal-
ten von Fahrzeug 2 endet, wird aus den Aufnahmen der Autobahnfahrten mit dem
Framework ADTF in einzelne Sequenzen geschnitten. Insgesamt ergeben sich 116
Videosequenzen, wovon sich Fahrzeug 2 in 78 Sequenzen für ein Folgeverhalten und
in 38 Sequenzen für einen Einschervorgang entschieden hat. Aus den einzelnen Se-
quenzen werden die Fahrzeuginformationen aus dem Tracking von Fahrzeug 2 und
Fahrzeug 3 nach Matlab exportiert. In dieser Arbeit wird eine Prädiktion des Fahr-
verhaltens von Fahrzeug 2 einzig anhand der Abstände und Relativgeschwindigkeiten
der drei Fahrzeuge Fahrzeug 1, Fahrzeug 2 und Fahrzeug 3 getroffen. Weil das
Fahrszenario aus zwei Fahrzeug-Fahrzeug-Beziehungen besteht, ergeben sich folglich
vier Messgrößen:
• Distanz der Ego-Beziehung
• Distanz der Front-Beziehung
• Relativgeschwindigkeit der Ego-Beziehung
• Relativgeschwindigkeit der Front-Beziehung
Die gewonnenen Daten werden im nächsten Kapitel für das Dynamische Bayes’sche
Netz verwendet.
41. 4.3 Dynamisches Bayes’sches Netz für gewähltes Szenario 33
4.3 Dynamisches Bayes’sches Netz für gewähltes
Szenario
Die Implementierung des eingesetzten Dynamischen Bayes’schen Netzes wurde mit
Hilfe der Bayes Net Toolbox for Matlab von Kevin Murphy durchgeführt [Mura].
Die Toolbox ermöglicht die Generierung sowohl von Bayes’schen Netzen als auch von
Dynamischen Bayes’schen Netzen. Zudem bietet sie eine große Auswahl an Inferen-
zalgorithmen und Wahrscheinlichkeitsverteilungen und unterstützt das Lernen der
Parameter sowie das Lernen der Struktur.
Die erste Idee für den Entwurf einer Zeitscheibe (zum allgemeinen Zeitpunkt t) des
Dynamischen Bayes’schen Netzes war es die vier Messgrößen auf einen Knoten zu
richten, der das Szenario in die zwei möglichen Situationsausgänge von 4.1 unterteilt.
Dargestellt wird diese Struktur der Zeitscheibe in Abbildung 4.4. Die Knoten der
vier Messgrößen zum Zeitpunkt t werden mit den Buchstaben Y
(t)
1 , Y
(t)
2 , Y
(t)
3 , Y
(t)
4
abgekürzt. Da die Fahrsituation entweder mit einem Einschervorgang oder einem
Folgeverhalten von Fahrzeug 2 enden kann, handelt es sich bei Q(t)
um einen binären
Knoten mit zwei Zuständen. Die Wahl der Pfeilrichtungen wurde so getroffen, dass
sich die Distanzen und Relativgeschwindigkeiten der Fahrzeug-Fahrzeug-Beziehungen
auf den Knoten Q(t)
richten. Die vier Messgrößen wurden in Abbildung 4.4 als kausale
Ursache eines möglichen Einschervorgangs angesehen. Besitzt ein binärer Knoten
kontinuierliche Elternknoten, bietet die Bayes Net Toolbox an, diesen Knoten durch
die „Softmax“-Verteilung auszudrücken. Die „Softmax“-Verteilung ermöglicht es fest-
zulegen, wie stark die Trennung der Fälle erfolgt. Für die Parametrisierung der
kontinuierlichen Elternknoten stehen die Gauß-Verteilung oder die „root“-Verteilung
Abbildung 4.4: Erster Ansatz für die Struktur in einer Zeitscheibe zum Zeit-
punkt t
42. 34 Situationsbezogener Lösungsansatz
zur Verfügung. In diesem Fall ist die Verwendung der „root“-Verteilung möglich, da es
sich bei den Knoten Y
(t)
1 , Y
(t)
2 , Y
(t)
3 , Y
(t)
4 in Abbildung 4.4 um Wurzelknoten handelt.
Allgemein wird die „root“-Verteilung für einen Knoten eingesetzt, falls dieser einen
unabhängigen Eingangsknoten darstellen soll. Für den Ansatz aus Abbildung 4.4 lässt
sich aber mit der Bayes Net Toolbox keine Inferenz anwenden. Der Grund dafür ist,
dass der Zustand kontinuierlicher Knoten, die binäre Kindknoten besitzen, immer
beobachtbar sein muss [Murc]. Da aber ein Ansatz verfolgt wird, bei dem die zu-
künftigen Messwerte erst mit dem Verlauf der Situation ergänzt werden, kann diese
Struktur nicht verwendet werden.
Diese Einschränkung lässt sich jedoch durch die Umkehrung der Pfeilrichtungen um-
gehen. So besitzen die kontinuierlichen Knoten Y
(t)
1 , Y
(t)
2 , Y
(t)
3 , Y
(t)
4 keine Kindknoten
mehr, behalten jedoch trotzdem ihre Abhängigkeit zu dem binären Knoten Q(t)
. Da
die kontinuierlichen Knoten nun keine Wurzelknoten mehr sind, werden sie durch
eine Gauß-Verteilung repräsentiert. Durch die Verwendung von vier kontinuierli-
chen Knoten besitzen die Messgrößen untereinander keine direkte Abhängigkeit. Um
die vier Messgrößen miteinander zu verkoppeln, werden die vier einzelnen Knoten
Y
(t)
1 , Y
(t)
2 , Y
(t)
3 , Y
(t)
4 zu einem gemeinsamen Knoten Y (t)
vereint. Abbildung 4.5 stellt
die Umkehrung der Pfeilrichtung und den Zusammenschluss der kontinuierlichen
Knoten in einer beliebigen Zeitscheibe t dar. Durch die Änderung der kontinuierlichen
Knoten entsteht für die Wahrscheinlichkeitsverteilung von Y (t)
eine vierdimensionale
Gauß-Verteilung aus den vier eindimensionalen Gauß-Verteilungen der ursprünglichen
Knoten Y
(t)
1 , Y
(t)
2 , Y
(t)
3 , Y
(t)
4 . Die Varianzen stellen jetzt die Hauptdiagonale der neuen
Kovarianzmatrix dar. Die restlichen Einträge der Kovarianzmatrix berücksichtigen die
Kovarianzen von zwei Messgrößen [Gu; Wen04]. Als Beispiel für eine Kovarianz kann
das Szenario mit Folgeverhalten herangezogen werden. Für große Distanzen der Ego-
Beziehung sind überwiegend auch große Relativgeschwindigkeiten der Ego-Beziehung
im Datensatz D beobachtet worden. Dieser Zusammenhang wird in der Kovarianz der
Abbildung 4.5: Abgeänderte Struktur in einer Zeitscheibe zum Zeitpunkt t
43. 4.3 Dynamisches Bayes’sches Netz für gewähltes Szenario 35
zwei Messgrößen festgehalten. Demzufolge werden die vier Messgrößen beim Lernen
der Parameter noch genauer durch die Verwendung eines vierdimensionalen kontinu-
ierlichen Knotens Y (t)
abgebildet.
Ein weiterer Punkt, der beachtet werden muss, ist, dass alle aufgenommenen Videose-
quenzen in der Regel unterschiedlich lang sind. Das bedeutet, dass das Dynamische
Bayes’sche Netz keine feste Anzahl an Zeitscheiben T besitzt. Die Bayes Net Toolbox
bietet dafür den „2-TBN“-Ansatz an [Murb]. Das Dynamische Bayes’sche Netz wird
mit dem „2-TBN“-Ansatz nur durch einen 2-Tupel (N1, N→) beschrieben [Str07].
Mit N1 wird dabei das Bayes’sche Netz der ersten Zeitscheibe T = 1 bezeichnet. N1
beinhaltet damit auch die initialen Wahrscheinlichkeitsverteilungen. N→ beschreibt
das Netz aus zwei benachbarten Zeitscheiben. In N→ werden die gerichteten Kanten
und somit die Abhängigkeiten zwischen den benachbarten Zeitscheiben festgelegt. Aus
diesem Grund besitzt N→ die Übergangswahrscheinlichkeiten von einer Zeitscheibe zur
nächsten. Das Dynamische Bayes’sche Netz entsteht durch „Ausrollen“ der Zeitschei-
ben angefangen mit dem Netz N1 für Zeitscheibe T = 1. Alle weiteren Zeitscheiben
werden mit Hilfe von N→ angekettet, sodass ein Dynamisches Bayes’sches Netz für
eine beliebige Anzahl an Zeitschritten T entsteht.
Für diese Arbeit wird aber eine feste Anzahl von T = 30 Zeitscheiben festgelegt,
sodass für jedes t > 2 eine zeitabhängige Wahrscheinlichkeitsverteilung gelernt werden
kann. Die Größe von T entsteht unter der Bedingung, dass das Tracking mindestens
30 aufeinanderfolgende Messwerte ergeben muss, sodass Störungen ausgeschlossen
werden können. Besitzen Videosequenzen eine längere Folge an Messwerten, wird die
komplette Aufnahme so abgetastet, dass sie auch einheitlich für T = 30 Abtastpunkte
Messdaten liefert.
Bisher wurde nur über die Struktur des Dynamischen Bayes’schen Netzes innerhalb
einer Zeitscheibe diskutiert. Die zeitübergreifenden Kanten richten sich von Q(t−1)
nach Q(t)
für t > 2, um den geschätzten Zuständen der binären Knoten über die
Zeit eine Abhängigkeit zu verschaffen. Diese Bedingung lässt sich so verstehen, dass
die aktuelle Schätzung, ob ein Folgeverhalten oder ein Einschervorgang stattfindet,
natürlich von der Schätzung der vorherigen Zeitscheibe abhängig ist. Die Wahrschein-
lichkeitsverteilung P(Q(t)
|Q(t−1)
) beinhaltet die Übergangswahrscheinlichkeiten der
zwei Zustände über die Zeit hinweg. Das Modell des Dynamischen Bayes’schen Netzes
wird in Abbildung 4.6 dargestellt.
Für den Fall, dass die Verteilung eines kontinuierlichen Knotens nur unzureichend durch
eine einzige Gauß-Verteilung beschrieben werden kann, bietet die Bayes Net Toolbox
ein Lösungsvorschlag an. Durch Überlagerung von mehreren Gauß-Verteilungen kann
eine individuelle, kontinuierliche Verteilung erzielt werden. Durch den sogenann-
ten „Mixture-of-Gaussian“-Ansatz kommt ein zusätzlicher diskreter Knoten M(t)
für jede Zeitscheibe hinzu. Seine Verteilung wird mit einer Wahrscheinlichkeitsta-
belle ausgedrückt. Die Struktur des „Mixture-of-Gaussian“-Ansatz in einer belie-
bigen Zeitscheibe t wird in Abbildung 4.7 veranschaulicht. Die Anzahl der Gauß-
Verteilungen, mit denen eine neue Verteilung erzielt werden soll, wird mit der Dimen-
44. 36 Situationsbezogener Lösungsansatz
Abbildung 4.6: Das eingesetzte Dynamische Bayes’sche Netz
sion m ∈ N des diskreten Mischknotens M(t)
festgelegt. Die Wahrscheinlichkeiten für
die unterschiedlichen Zustände des Mischknotens M(t)
sind gleichbedeutend mit der
Gewichtung der einzelnen Gauß-Verteilungen. So entsteht die resultierende kontinu-
ierliche Verteilung durch eine Linearkombination von m Gauß-Verteilungen, wobei
die bedingten Wahrscheinlichkeitswerte P(M(t)
|Q(t)
) die Koeffizienten sind [Sin08].
Ein Beispiel soll den Anwendungsgebrauch der „Mixture-of-Gaussian“-Variante veran-
schaulichen. Dabei wird der Knoten Y (t)
als eindimensionaler Knoten angenommen,
damit seine Verteilung einfacher dargestellt werden kann. In Abbildung 4.8 entsteht
die blaue Verteilung P(Y (t)
|M(t)
, Q(t)
) für einen gegebenen Zustand von Q(t)
, indem
Abbildung 4.7: Mixture-of-Gaussian-Ansatz in einer Zeitscheibe t
45. 4.3 Dynamisches Bayes’sches Netz für gewähltes Szenario 37
m = 3 Gauß-Kurven überlagert werden. Es ist zu erkennen, dass die resultierende
Verteilung von der Form einer Gauß-Kurve abweicht. Für m = 1 wäre der Misch-
knoten redundant, da die Verteilung von des kontinuierlichen Knotens Y (t)
nur noch
aus einer Gauß-Kurve bestehen würde. Deswegen sind die beiden Strukturformen
der Zeitscheiben aus Abbildung 4.5 und 4.7 für m = 1 gleichbedeutend. Ob die
„Mixture-of-Gaussian“-Variante die Verteilung des kontinuierlichen Knotens Y (t)
für
m > 2 besser annähert, hängt dabei von dem zugrundeliegenden Datensatz D ab. Die
Struktur für das Dynamische Bayes’sche Netz, die den „Mixture-of-Gaussian“-Ansatz
verwendet, ist dieselbe wie in Abbildung 3.7 mit dem Unterschied, dass die Struktur
einer Zeitscheibe aus Abbildung 4.8 verwendet wird. Die Verbindungen der jeweiligen
Zeitscheiben bleiben weiterhin durch gerichtete Kanten zwischen den binären Knoten
Q(t)
bestehen. Die Richtung der Kanten erfolgt immer zu den zukünftigen Knoten.
Andere Verbindungen der Zeitscheiben besitzt der „Mixture-of-Gaussian“-Ansatz
nicht.
Zusammenfassend ergeben sich zwei Ansätze für das Dynamische Bayes’sche Netz.
Die Struktur des Dynamischen Bayes’schen Netzes wird in Abbildung 4.6 dargestellt
mit der zusätzlichen Option der „Mixture-of-Gaussian“-Variante aus Abbildung 4.7.
Für die Verteilung des binären Knotens Q(t)
und des Mischknotens M(t)
werden
Wahrscheinlichkeitstabellen angenommen. Die Wahrscheinlichkeitsverteilung des kon-
tinuierlichen Knotens Y (t)
wird in beiden Ansätzen durch eine mehrdimensionale
−8 −6 −4 −2 0 2 4 6 8
0.00
0.05
0.10
0.15
0.20
0.25
y
WahrscheinlichkeitsdichtevonY(t)
Abbildung 4.8: Beispiel für Linearkombination von 3 Gauß-Kurven
46. 38 Situationsbezogener Lösungsansatz
Gauß-Verteilung repräsentiert. In dieser Arbeit werden die Wahrscheinlichkeitsvertei-
lungen aller Knoten durch einen Datensatz gelernt. Für den Fall, dass die „Mixture-
of-Gaussian“-Struktur für eine Zeitscheibe des Dynamischen Bayes’schen Netzes
verwendet wird, ist der Mischknoten M(t)
latent [Sin08]. Für das Lernen der Pa-
rameter dient hierbei EM-Algorithmus aus 3.3.1. Die Parameter des Dynamischen
Bayes’schen Netzes ohne „Mixture-of-Gaussian“-Ansatz aus Abbildung 4.6 werden
durch die Maximum-Likelihood-Methode gelernt. Die Bayes Net Toolbox erlaubt den
Gebrauch beider Lernverfahren. Für beide Ansätze führt der Junction Tree Algorith-
mus die Inferenzberechnungen durch, da er für die Bayes Net Toolbox der einzige
Inferenzalgorithmus ist, der eine Struktur aus diskreten und kontinuierlichen Knoten
unterstützt [Murd].
47. 5 Experimentelle Ergebnisse
Die folgenden Kapitel dienen der Präsentation der experimentellen Ergebnisse. Dabei
werden zunächst die verschiedenen Einstellungen des Dynamischen Bayes’schen Netzes
vorgestellt, woraufhin im Anschluss die Vorhersage des jeweiligen Fahrmanövers
ausgewertet wird. Auf die Evaluation der Prädiktionszeiten der Fahrsituationen folgt
abschließend eine Auswertung des Einflusses der Größe des Trainingsdatensatzes auf
die Klassifikation.
5.1 Anpassung des Dynamischen Bayes’schen
Netzes
Um eine sichere und frühe Vorhersage über die Fahrsituation zu erzielen, wird nach der
idealen Anpassung des Dynamischen Bayes’schen Netzes gesucht. Bei der Verwendung
von kontinuierlichen Knoten mit der Bayes Net Toolbox wird in der Dokumentation
darauf hingewiesen, dass es sinnvoll ist, für das Lernen der Parameter die Größen-
ordnung der Trainingsdatenwerte klein zu halten [DeV; Murb]. Als Trainingsdaten
stehen die Distanzen und Relativgeschwindigkeiten der beiden Fahrzeug-Fahrzeug-
Beziehungen zur Verfügung. Da sich die Distanzen der Fahrzeug-Fahrzeug-Beziehungen
in ähnlichen Größenordnungen bewegen, wird der gemeinsame Teilungsfaktor Cdist
eingeführt. Aus dem selben Grund erhalten die beiden Relativgeschwindigkeiten den
Teilungsfaktor Cvrel. Durch die Division der Messgrößen mit dem jeweiligen Teilungs-
faktor geht der Informationsgehalt der Messgrößen nicht verloren, da lediglich eine
Skalierung durchgeführt wird. Diese Normierung beeinflusst jedoch die gelernten
Gauß-Verteilungen der kontinuierlichen Knoten. Während die Erwartungswerte der
Gauß-Verteilungen nur skaliert werden, geht die Normierung der Messwerte quadra-
tisch in die Varianz ein [Gu]. Für die Evaluation ist Cvrel nie größer als Cdist, da
sich die Distanzen in einer höheren Größenordnung als die Relativgeschwindigkeiten
befinden. Die Messgrößen ohne Skalierung (Cvrel = 1, Cdist = 1) sind nicht Teil der
Evaluation, da die Implementierung der Bayes Net Toolbox kontinuierliche Werte
um 0 annimmt [DeV].
48. 40 Experimentelle Ergebnisse
Neben den Teilungsfaktoren wird außerdem geprüft, welche Messgrößen für die Beur-
teilung der Fahrsituation sinnvoll sind. Mit Hilfe der Darstellung der Trainingsdaten
lässt sich veranschaulichen, in welchem Maß sich die Verläufe der Messgrößen für
beide möglichen Situationsausgänge unterscheiden. Für die Beurteilung dient der Trai-
ningsdatensatz, der anschließend beim ersten Durchlauf der Evaluation angenommen
wird. Die Abbildungen 5.1 und 5.2 veranschaulichen die Relativgeschwindigkeiten der
beiden Fahrzeug-Fahrzeug-Beziehungen.
1 5 10 15 20 25 30
−10
0
10
20
Zeitpunkte
Relativgeschwindigkeiten
derFront-Beziehung[m
s
]
Szenario mit Folgeverhalten
Szenario mit Einschervorgang
Abbildung 5.1: Trainingsdaten für die Relativgeschwindigkeiten
der Front-Beziehung
1 5 10 15 20 25 30
−20
−10
0
10
Zeitpunkte
Relativgeschwindigkeiten
derEgo-Beziehung[m
s
]
Szenario mit Folgeverhalten
Szenario mit Einschervorgang
Abbildung 5.2: Trainingsdaten für die Relativgeschwindigkeiten
der Ego-Beziehung
49. 5.1 Anpassung des Dynamischen Bayes’schen Netzes 41
Für beide Grafiken lassen sich die Relativgeschwindigkeiten der 40 Trainingssequenzen
relativ gut in zwei Bereiche unterteilen, die für die Fahrsituation mit Folgeverhalten
bzw. Einschervorgang stehen. Deswegen sind diese beiden Messgrößen essenzielle
Situationsmerkmale.
Die Abbildung 5.3 visualisiert die Distanzverläufe der Front-Beziehung. Hier fällt
auf, dass sich die Trainingsdaten sehr stark vermischen und keine klare Abgrenzung
der jeweiligen Fahrmanöver erkennbar ist. Die Abbildung 5.4 zeigt die Distanzverläu-
fe der Ego-Beziehung. Im Gegensatz zu den Distanzverläufen der Front-Beziehung
aus Abbildung 5.3 weisen die Distanzverläufe der Ego-Beziehung eine Auffälligkeit auf.
1 5 10 15 20 25 30
0
50
100
150
200
Zeitpunkte
Distanzender
Front-Beziehung[m]
Szenario mit Folgeverhalten
Szenario mit Einschervorgang
Abbildung 5.3: Trainingsdaten für die Distanzen der Front-Beziehung
1 5 10 15 20 25 30
0
50
100
Zeitpunkte
Distanzender
Ego-Beziehung[m]
Szenario mit Folgeverhalten
Szenario mit Einschervorgang
Abbildung 5.4: Trainingsdaten für die Distanzen der Ego-Beziehung
50. 42 Experimentelle Ergebnisse
Aufgrund der beschriebenen Detektion der Rückfront aus 4.2 enden die Distanz-
verläufe der Ego-Beziehung in Abbildung 5.4 für das Fahrszenario mit Folgeverhalten
bei 20m. Diese Bündelung der Distanzverläufe der Ego-Beziehung ist daher ein wich-
tiges Merkmal für die Fahrsituation mit dem Folgeverhalten.
Angesichts der Trainingsdaten der vier Messgrößen besteht die Vermutung, dass
die Distanz der Front-Beziehung nicht notwendig für das eingesetzte Dynamische
Bayes’sche Netz sein könnte. Deswegen werden folgende zwei Zusammensetzungen
der Messgrößen untersucht, die durch ihre Anzahl und somit die Dimension der konti-
nuierlichen Knoten y abgekürzt werden.
Die erste Konstellation besteht aus allen vier Messgrößen (y = 4):
• Distanz der Ego-Beziehung
• Distanz der Front-Beziehung
• Relativgeschwindigkeit der Ego-Beziehung
• Relativgeschwindigkeit der Front-Beziehung
Die zweite Konstellation verzichtet auf die Distanz der Front-Beziehung (y = 3):
• Distanz der Ego-Beziehung
• Relativgeschwindigkeit der Ego-Beziehung
• Relativgeschwindigkeit der Front-Beziehung
Für letztere Konstellation (y = 3) ergibt sich für die kontinuierlichen Knoten des
eingesetzten Dynamischen Bayes’sche Netzes eine dreidimensionale Gauß-Verteilung.
Für das Lernen der Parameter des Dynamische Bayes’sche Netzes ist es notwendig, dass
für jeden Knoten eine Evidenz im Trainingsdatensatz vorliegt, sofern es sich um keinen
latenten Knoten handelt. Die kontinuierlichen Knoten erhalten ihre Trainingswerte
durch die Messgrößen zum jeweiligem Zeitpunkt. Dem diskreten Knoten wird über die
komplette Situation einer von zwei möglichen Werten zugewiesen, je nachdem ob es
sich bei der Trainingssequenz um eine Fahrsituation mit Folgeverhalten oder mit Ein-
schervorgang handelt. Durch diese Zuweisung erhalten die Wahrscheinlichkeitstabellen
P(Qt
|Qt−1
) für t > 2 eine Wahrscheinlichkeit von 100%, was der Zustandsverteilung
des zukünftigen binären Knotens der bisherigen Zustandsverteilung entspricht. Da-
durch würde die Schätzung der Fahrsituation für den ersten Zeitabschnitt auch für alle
weiteren Zeitabschnitte gleich bleiben. Die zukünftigen Messwerte würden nicht in die
Schätzung einfließen. Deswegen ist es nötig die Wahrscheinlichkeitstabellen nach dem
Lernen der Parameter manuell festzulegen. Als sinnvolle Übergangswahrscheinlichkeit
51. 5.1 Anpassung des Dynamischen Bayes’schen Netzes 43
hat sich dabei ein Wert von 90% herausgestellt. Dadurch ist ein Umändern für die
Schätzung des Fahrmanövers während dessen Verlauf möglich, jedoch bleibt es sehr
wahrscheinlich, dass die zukünftige Zustandsverteilung des diskreten Knotens der
seines Elternknoten ähnelt.
Zusammenfassend bilden die Einstellungen des Dynamischen Bayes’schen Netzes aus
4.6 die beiden Teilungsfaktoren Cdist und Cvrel sowie die Anzahl an Messgrößen y. Für
die Evaluation der Einstellungen stehen 116 Videosequenzen zur Verfügung, wovon sich
Fahrzeug 2 in 78 Sequenzen für das Folgeverhalten und in den restlichen verbleiben-
den 38 Sequenzen für den Einschervorgang entscheidet. Der Trainingsdatensatz besteht
aus je 20 Sequenzen der beiden möglichen Situationsausgänge. Anschließend werden
auf dieser Basis die restlichen 76 Videosequenzen (58 Szenarien mit Folgeverhalten und
18 Szenarien mit Einschervorgang) getestet. Ob eine Videosequenz als Trainingsdatei
oder Testdatei dient, entscheidet eine Zufallszahl. Der obige Vorgang wiederholt sich
20 mal, damit sich unterschiedliche Trainings- und Testdatensätze ergeben. Dadurch
wird gleichzeitig die Stabilität des eingesetzten Dynamischen Bayes’schen Netzes
geprüft. Folglich besitzt die Untersuchung insgesamt 76 · 20 = 1520 Fälle.
Für die Struktur des Dynamischen Bayes’schen Netzes aus Abbildung 4.6 ergibt
sich für verschiedene Variationen der Einstellungen die Tabelle 5.1. Als Kriterium
für die Einstellungen wird die Korrektklassifikationsrate hergenommen. Die Korrekt-
klassifikationsrate (KKR) berechnet sich aus dem Quotienten resultierend aus der
Anzahl der richtig klassifizierten Fällen im Verhältnis zur Gesamtanzahl an Fälle.
Eine Sequenz gilt als richtig klassifiziert, wenn sie vor Beendigung der Situation nicht
Cdist Cvrel y Anzahl Korrektklassifikationsrate [%]
1000 100 4 1288 84,74
1000 100 3 1274 83,82
100 100 4 1451 95,46
100 100 3 1455 95,72
100 10 4 1452 95,53
100 10 3 1470 96,71
100 1 4 1451 95,46
100 1 3 1472 96,84
10 10 4 1469 96,64
10 10 3 1475 97,04
10 1 4 1466 96,45
10 1 3 1472 96,84
Tabelle 5.1: Tabelle für die Anzahl der richtig klassifizierten Fälle
52. 44 Experimentelle Ergebnisse
mehr unter eine Grenzwahrscheinlichkeit pgrenz fällt. Für diese Auswertung wurde
eine Grenzwahrscheinlichkeit von pgrenz = 0, 5 gewählt, was gleichbedeutend mit der
Aussage ist, dass sich für die wahrscheinlichere Situation entschieden wird.
In Kapitel 4.3 wurde der „Mixture-of-Gaussian“-Ansatz als mögliche Strukturform
einer Zeitscheibe des Dynamischen Bayes’schen Netzes vorgestellt. Außerdem wurde
erwähnt, dass für m = 1 als Dimension des Mischknotens der „Mixture-of-Gaussian“-
Ansatz gleichbedeutend mit der Struktur aus Abbildung 4.6 ist. Daher sind die
Ergebnisse für m = 1 dieselben wie aus Tabelle 5.1, werden aber dennoch aufgelistet,
um beide Ansätze besser miteinander vergleichen zu können. Die Tabelle 5.2 bein-
haltet die Variationen der bisherigen Einstellungen und zudem die Dimension des
Mischknotens m. Es muss erwähnt werden, dass die Bayes Net Toolbox für Trainings-
datensätze mit zu kleinen Werten keine Cluster mehr bildet. Daher werden unabhängig
von der Dimension des Mischknotens m dieselben Ergebnisse für die Teilungsfaktoren
Cdist = 1000, Cvrel = 100 und Cdist = 100, Cvrel = 100 erzielt und deswegen nicht
aufgeführt.
Cdist Cvrel y m Anzahl Korrektklassifikationsrate [%]
100 10 4 1 1452 95,53
100 10 4 2 1435 94,41
100 10 4 4 1417 93,22
100 10 3 1 1470 96,71
100 10 3 2 1433 94,28
100 10 3 4 1409 92,70
100 1 4 1 1451 95,46
100 1 4 2 1408 92,63
100 1 3 1 1472 96,84
100 1 3 2 1402 92,24
10 10 4 1 1469 96,64
10 10 4 2 1414 93,03
10 10 3 1 1475 97,04
10 10 3 2 1444 95,00
10 1 4 1 1466 96,44
10 1 4 2 1327 87,30
10 1 3 1 1472 96,84
10 1 3 2 1420 93,42
Tabelle 5.2: Tabelle für die Anzahl der richtig klassifizierten Fälle mit dem
„Mixture-of-Gaussian“-Ansatz
53. 5.1 Anpassung des Dynamischen Bayes’schen Netzes 45
Die Evaluation der beiden Ansätze ergibt, dass durch eine größere Dimension des
Mischknotens m die Anzahl an richtig klassifizierten Videosequenzen für alle Einstel-
lungen stets leicht sinkt. Eine mögliche Erklärung dafür ist, dass sich der Großteil des
Datensatzes mit einer einzelnen Gauß-Verteilung abbilden lässt, sodass der Gebrauch
von Clustern unnötig ist. Würden sich mehr Grenzsituationen im Datensatz befinden,
wäre die „Mixture-of-Gaussian“-Variante eine gute Möglichkeit, diese Fälle in die
Verteilung einfließen zu lassen. Ein weiteres Resultat dieses Experiments ist, dass sich
im Schnitt für y = 3 sogar leicht bessere Ergebnisse erzielen lassen, als für y = 4. Somit
ist die Distanz der Front-Beziehung kein brauchbares, unbedingt nötiges Merkmal für
die Vorhersage der Fahrsituation mit Hilfe des eingesetzten Dynamischen Bayes’schen
Netzes.
Schlussendlich wird aufgrund des Maximums von 97, 04% der Korrektklassifikations-
rate die Struktur des Dynamischen Bayes’schen Netzes aus 4.6 (bzw. m = 1) mit den
Einstellungen Cdist = 10, Cvrel = 10, y = 3 verwendet.
54. 46 Experimentelle Ergebnisse
5.2 Evaluation der Klassifizierung
In diesem Kapitel wird die Klassifizierung anhand der aus 5.1 bestimmten Einstellun-
gen des verwendeten Dynamischen Bayes’schen Netzes detailliert ausgewertet. Hierfür
werden 20 neue Mischungen der 116 Videosequenzen vorgenommen, wobei erneut
je 20 Videosequenzen der beiden Situationsausgänge den Trainingsdatensatz bilden
und die restlichen 76 Videosequenzen als Testdaten dienen. Ein Szenario wird als
richtig klassifiziert bezeichnet, wenn vor Beendigung des jeweiligen Fahrmanövers
das passende Fahrverhalten von Fahrzeug 2 prädiziert wird. Die Fahrsituation mit
Folgeverhalten von Fahrzeug 2 endet, sobald Fahrzeug 1 bis auf 20m herangekom-
men ist. Die Fahrsituation mit Einschervorgang von Fahrzeug 2 endet, sobald dieses
einen Spurwechsel einleitet. Dementsprechend werden alle Sequenzen, die erst bei
T = 30 die Wahrscheinlichkeitsgrenze pgrenz = 0, 5 für das eintretende Fahrverhalten
überschreiten oder den falschen Situationsausgang vorhersagen, als falsch klassifizierte
Fälle eingestuft. Die Tabelle 5.3 führt die Ergebnisse der 1520 bewerteten Fälle auf.
Insgesamt konnten also 1478 von 1520 Fällen fehlerfrei prädiziert werden. Dies ent-
spricht einer Korrektklassifikationsrate von 97, 24%.
An dieser Stelle soll auf die falsch eingestuften Sequenzen näher eingegangen werden.
Die Fehlklassifikation wird anschaulich anhand von zwei Beispielen erklärt. Dabei
werden zum einen aus den 78 Videosequenzen mit Folgeverhalten und zum anderen
aus den 38 Videosequenzen mit Einschervorgang diejenigen ausgewählt, die für ihren
Situationsausgang bei den Mischungen am seltensten richtig vorhergesagt wurden.
Der erste Ausnahmefall erweist sich in der Realität als Fahrmanöver ohne Einschervor-
gang, wird aber durch das System als solcher nicht erkannt. Von den 20 Wiederholungen
wird der Fall 16 mal ausgewertet und dabei jedes mal als Fahrsituation mit Einscher-
vorgang prädiziert. Die Abbildung 5.5 zeigt eine Bilderfolge dieses Ausnahmefalls. Die
erste Aufnahme der Sequenz wird in Abbildung 5.5a dargestellt. Zu diesem Zeitpunkt
weisen beide Fahrzeug-Fahrzeug-Beziehungen relativ große Distanzen auf. Abbildung
5.5b zeigt die Situation 2.3s später. Dabei fällt auf, dass sowohl Fahrzeug 1 als auch
Fahrzeug 2 auf Fahrzeug 3 aufholen. Dieses Verhalten bleibt auch 4, 6s nach dem
Beginn der Sequenz bestehen, welches in Abbildung 5.5c veranschaulicht wird.
Art der Fahrverhalten Folgeverhalten Einschervorgang
Anzahl untersuchter Sequenzen 1160 360
Anzahl richtig klassifizierter Sequenzen 1122 356
Anzahl falsch klassifizierter Sequenzen 38 4
Korrektklassifikationsrate [%] 96,72 98,89
Tabelle 5.3: Tabelle für die Klassifikation der beiden Situationsausgänge
55. 5.2 Evaluation der Klassifizierung 47
Es kann beobachtet werden, dass Fahrzeug 2 ein wenig schneller als Fahrzeug 1
ist. Außerdem hat Fahrzeug 2 inzwischen stark auf Fahrzeug 3 aufgeschlossen und
besitzt ihm gegenüber eine Relativgeschwindigkeit von 6m
s
. In diesem Moment spricht
der bisherige Verlauf der Messgrößen für einen Spurwechsel von Fahrzeug 2 auf die
linke Spur. Die Videosequenz endet jedoch damit, dass Fahrzeug 2 abbremst und
hinter Fahrzeug 3 verbleibt, sodass die Situation mit einem Folgeverhalten endet.
Dieser Situationsausgang wird in Abbildung 5.5d veranschaulicht. Das eingesetzte
Dynamische Bayes’sche Netz hat, obwohl die Situation mit dem Folgeverhalten von
Fahrzeug 2 endet, einen Einschervorgang prädiziert. Der Grund für diese Fehlklassifi-
kation kann darin gesehen werden, dass das beschriebene Szenario nicht den anderen
Szenarien mit Folgeverhalten gleicht.
(a) Situation zu Beginn der Sequenz (b) Situation nach 2, 3s
(c) Situation nach 4, 6s (d) Situation nach 6, 9s
Abbildung 5.5: Bilderfolge eines Ausnahmeszenarios
In dem skizziertem Fahrmanöver entscheidet sich das Dynamische Bayes’sche
Netz in jeder Auswertung für die Vorhersage eines Einschervorgangs
56. 48 Experimentelle Ergebnisse
Der zweite Ausnahmefall stellt ein alternatives Beispiel für eine weitere Fehlklassifika-
tion dar. In den 20 Wiederholungen der Evaluation kommt dieser Fall 5 mal im Test-
datensatz vor und wird dabei 2 mal falsch klassifiziert. Dieses Szenario wird in der Bil-
derfolge in Abbildung 5.6 dargestellt. Der Beginn der Sequenz wird in Abbildung 5.6a
veranschaulicht. Die Distanz der Ego-Beziehung beträgt dabei noch mehr als 100m.
Im Gegensatz dazu beträgt der Abstand von Fahrzeug 2 zu Fahrzeug 3 12m. Abbil-
dung 5.6b zeigt die Situation, die sich 0, 9s später ergibt. Die Relativgeschwindigkeit
der Ego-Beziehung beträgt 14m
s
, was bedeutet, dass Fahrzeug 1 14m
s
schneller fährt
als Fahrzeug 2. Aufgrund dieser hohen Relativgeschwindigkeit holt Fahrzeug 1 in
dieser kurzen Zeit stark auf Fahrzeug 2 auf. Dagegen stagniert der Abstand von
Fahrzeug 2 und Fahrzeug 3 in einem Intervall von 8m bis 12m. Im weiteren Verlauf
(a) Situation zu Beginn der Sequenz (b) Situation nach 0, 9s
(c) Situation nach 1, 7s (d) Situation nach 2, 8s
Abbildung 5.6: Bilderfolge eines Ausnahmeszenarios
In dem skizzierten Fahrmanöver entscheidet sich das Dynamische Bayes’sche
Netz in 2 von 5 Fällen für die Vorhersage eines Folgeverhaltens
57. 5.2 Evaluation der Klassifizierung 49
der Situation bewegen sich die Fahrzeuge auch nahezu mit derselben Geschwindigkeit
auf der rechten Spur, wohingegen Fahrzeug 1 sehr stark auf die Fahrzeuge aufholt.
In Abbildung 5.6c ist zu erkennen, dass Fahrzeug 2 zum Überholen von Fahrzeug 3
ansetzt. Obwohl Fahrzeug 1 sehr schnell aufschließt, verlässt Fahrzeug 2 seine Spur.
Dies hat zur Folge, dass Fahrzeug 1 bremsen muss, um eine mögliche Kollision zu ver-
meiden. Die Situation ist in Abbildung 5.6d dargestellt. Der beschriebene Extremfall
wird vom System zu 40% nicht erkannt, weil dieser Einschervorgang im Gegensatz zu
den anderen Trainingssequenzen, die mit einem Einschervorgang enden, unüblich ist.
Diese besitzen in der Regel eine größere Relativgeschwindigkeit der Front-Beziehung,
da Fahrzeug 2 für ein Überholmanöver schon auf der rechten Spur versucht eine
größere Geschwindigkeit als Fahrzeug 3 zu erreichen. Um die Fehlklassifikation des
oben beschriebenen Extremfalls zu senken, muss eine Vielzahl an ähnlichen Fällen im
Trainingsdatensatz vorhanden sein.
Da es bei der Prädiktion des Fahrverhaltens von Fahrzeug 2 besonders wichtig ist die
Einschervorgänge mit hoher Zuverlässigkeit vorherzusagen, wird in diesem Abschnitt
eine mögliche Optimierung der Korrektklassifikationsrate vorgestellt. Ein Vorteil von
Dynamischen Bayes’schen Netzen ist, dass die Schätzung des Fahrverhaltens durch
Wahrscheinlichkeitswerte abgebildet ist. Dies bietet den Freiheitsgrad die Grenzwahr-
scheinlichkeit pgrenz so zu wählen, dass die Korrektklassifikationsrate der Prädiktion
von Einschervorgängen maximiert wird. Für den bisherigen Wert pgrenz = 0, 5 ergibt
sich die Wahrheitsmatrix, die in Tabelle 5.4 abgebildet ist. Dabei wird unterschieden,
ob sich Fahrzeug 2 im Szenario für den Einschervorgang oder für das Folgeverhalten
entscheidet und ob durch das System ein Einschervorgang prädiziert wird oder nicht.
Bei 356 von insgesamt 360 Sequenzen mit Einschervorgang wird also korrekt ein
Einschervorgang vorhergesagt.
Tatsächliche
Situationsausgang:
Einschervorgang
Tatsächliche
Situationsausgang:
Folgeverhalten
Summe der
jeweiligen
Prädiktionen
Einschervorgang
prädiziert
356 38 394
Folgeverhalten
prädiziert
4 1122 1126
Summe der
tatsächlichen
Situationsausgänge
360 1160 1520
Tabelle 5.4: Wahrheitsmatrix für pgrenz = 0, 5
58. 50 Experimentelle Ergebnisse
Dieses Verhältnis ist als Richtig-Positiv-Rate (RPR) bekannt [Ind]:
RPR =
356
360
= 0, 9889 (5.1)
In 27 Fällen der 1160 Sequenzen mit Folgeverhalten prädiziert das System aber
fälschlicherweise auch einen Einschervorgang, was durch die Falsch-Positiv-Rate (FPR)
bezeichnet wird:
FPR =
38
1160
= 0, 0328 (5.2)
Die Korrektklassifikationsrate (KKR) ergibt:
KKR =
356 + 1122
360 + 1160
=
1478
1520
= 0, 9724 (5.3)
Durch die Variation der Grenzwahrscheinlichkeit pgrenz im Intervall zwischen 0 und
1 kann die Korrektklassifikationsrate maximiert werden. Die optimale Wahl ergibt
sich dabei für pgrenz = 0, 991. Die modifizierte Wahrheitsmatrix ist in Tabelle 5.5
dargestellt. Für diese Einstellung werden folgende Werte erzielt:
RPR =
355
360
= 0, 9861
FPR =
12
1160
= 0, 0103
KKR =
1503
1520
= 0, 9888
Tatsächliche
Situationsausgang:
Einschervorgang
Tatsächliche
Situationsausgang:
Folgeverhalten
Summe der
jeweiligen
Prädiktionen
Einschervorgang
prädiziert
355 12 367
Folgeverhalten
prädiziert
5 1148 1153
Summe der
tatsächlichen
Situationsausgänge
360 1160 1520
Tabelle 5.5: Wahrheitsmatrix für pgrenz = 0, 991
59. 5.2 Evaluation der Klassifizierung 51
Die Korrektklassifikationsrate für die Prädiktion eines Einschervorgangs konnte somit
von 97, 24% auf 98, 88% angehoben werden. Die größte Veränderung tritt für dieje-
nigen Szenarien auf, in denen Fahrzeug 2 ein Folgeverhalten aufweist. Die Anzahl
der Szenarien mit Folgeverhalten, die aber als Einschervorgang vorhergesagt werden,
kann dadurch von 38 auf 12 reduziert werden. Der Grund hierfür ist, dass durch
die Erhöhung von pgrenz = 0, 5 auf pgrenz = 0, 991 die Schranke zur Klassifizierung
eines Einschervorgangs ansteigt. Dadurch werden insgesamt 26 (1122 → 1148) falsch
klassifizierte Szenarien mit Folgeverhalten doch noch als Folgeverhalten gewertet und
im Gegensatz dazu nur ein Einschervorgang (356 → 355) nicht mehr richtig prädiziert.
Eine Grenzwertoptimierungskurve (ROC-Kurve) visualisiert die Effizienz eines Klas-
sifikators für verschiedene Parameterwerte [Faw03]. Für jeden möglichen Wert der
Grenzwahrscheinlichkeit pgrenz im Intervall von 0 bis 1 werden dabei die Richtig-
Positiv-Rate und die Falsch-Positiv-Rate ermittelt. Die entstehenden Wertepaare
formen die ROC-Kurve. Dabei wird die Richtig-Positiv-Rate als Ordinate und die
Falsch-Positiv-Rate als Abszisse gewählt. Die Abbildung 5.7 zeigt die ROC-Kurve für
die Problemstellung der Prädiktion der Einschervorgänge. Bei einer Grenzwertopti-
mierungskurve repräsentiert der Punkt (0,1) die perfekte Klassifikation. Durch die
Verschiebung der Grenzwahrscheinlichkeit von pgrenz = 0, 5 auf pgrenz = 0, 991 wird
der Punkt auf der ROC-Kurve erreicht, der den kleinsten Abstand zum Punkt der
perfekten Klassifikation besitzt.
0 0.01 0.02 0.03 0.04
0.96
0.97
0.98
0.99
1
Falsch-Positiv-Rate
Richtig-Positiv-Rate
ROC-Kurve
pgrenz= 0.5
pgrenz=0.991
Abbildung 5.7: Grenzwertoptimierungskurve mit Parameter pgrenz
60. 52 Experimentelle Ergebnisse
Durch die Änderung der Grenzwahrscheinlichkeit von pgrenz = 0, 5 auf pgrenz = 0, 991
steigt zwar die Korrektklassifikationsrate an, jedoch sinkt deswegen die durchschnittli-
che Prädiktionszeit der Einschervorgänge. Mit der höheren Schranke von pgrenz = 0, 991
können die Einschervorgänge erst später prädiziert werden. Die durchschnittliche Prä-
diktionszeit für die Einschervorgänge fällt dabei von 4, 2s auf 3, 0s. Im nächsten
Unterkapitel wird auf die Bestimmung der Prädiktionszeit für pgrenz = 0, 5 genauer
eingegangen.