Analyse hochdimensionaler Daten und deren zufällige Erzeugung
1. Grundlagen
Analyse der Fuhrparkdaten
Erzeugung realistischer Fuhrparkdaten
Zusammenfassung
Analyse hochdimensionaler Daten
und deren zuf¨llige Erzeugung
a
am Beispiel des BwFuhrpark
Stephan Tzschoppe, B. Sc.
Marc Uwe Simon, B. Sc
Institut f¨r Theoretische Informatik,
u
Mathematik und Operations Research
Fakult¨t f¨r Informatik
a u
22.02.2011
1 / 28
2. Grundlagen
Analyse der Fuhrparkdaten
Erzeugung realistischer Fuhrparkdaten
Zusammenfassung
Inhaltsverzeichnis
1 Grundlagen
Verteilungen
Zufallszahlen
Allgemeines zu Zufallszahlen
Lineare Kongruenzgeneratoren
2 Analyse der Fuhrparkdaten
Vorbereitung
Auswertung
3 Erzeugung realistischer Fuhrparkdaten
Datenmodell und Grundannahmen
Verteilungen der zu erzeugenden Daten
G¨te der generierten Daten
u
4 Zusammenfassung
Fazit
Ausblick
2 / 28
3. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Relevante Verteilungen
Definition (Wahrscheinlichkeitsfunktion nach [Bra92])
Man betrachte eine Zufallsvariable x1 und eine reelle Zahl x2 , die
jeden Wert zwischen −∞ und +∞ annehmen kann. Dann ist die
Wahrscheinlichkeit f¨r das Ereignis x1 < x2 eine Funktion von x
u
und heißt die Verteilungsfunktion von x
F (x) = P(x1 < x2 ).
diskrete Verteilungen stetige Verteilungen
Gleichverteilung Gleichverteilung
Geometrische Verteilung Exponentialverteilung
3 / 28
4. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Grafiken relevanter Verteilungen
p 0.2 Λ 0.25
Λ .0.5
p 0.4 Λ 1
p 0.7 Λ 2
2.0
p 0.9
0.8 1.5
0.6 1.0
0.4
0.5
0.2
1 2 3 4 5
2 4 6 8 10
Abbildung: Dichtefunktion der
Abbildung: Dichtefunktion der Exponentialverteilung
Geometrischen Verteilung λe−λx x ≥ 0
fλ (x) =
f (x) = p(1 − p)x 0 x <0
4 / 28
5. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Verwendung der Gleichverteilung
Definition (Indifferenzprinzip nach [Car59])
Das Indifferenzprinzip (auch Prinzip vom unzureichenden Grund
genannt) der Wahrscheinlichkeitstheorie besagt, dass bei n > 1
unterscheidbaren und sich gegenseitig ausschließenden
Ereignism¨glichkeiten die Eintrittswahrscheinlichkeit jedes
o
1
Ereignisses ohne Vorliegen weiterer Informationen mit p = n
anzusetzen ist, d. h. eine diskrete Gleichverteilung angenommen
wird.
5 / 28
6. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Allgemeines zu Zufallszahlen
Echte und Pseudo-Zufallszahlen
Unterscheidung durch Art der Gewinnung
Eigenschaften bestimmen Anwendungsgebiete
Charakteristik PRNG TRNG
Effizienz ausgezeichnet schecht
Determinismus deterministisch nichtdeterministisch
Periodizit¨t
a periodisch aperiodisch
Tabelle: Vergleich der Erzeugung von echten (TRNG) und
Pseudozufallszahlen (PRNG) [Haa11]
6 / 28
7. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Erzeugung von Pseudo-Zufallszahlen
Arbeitsweise
Startwert (auch Seed) x0
M¨glichst einfache Funktion f : Z/mZ → Z/mZ
o
x0 , x1 = f (x0 ) , . . . , xn = f (xn−1 )
Random numbers should not be generated with a
”
method chosen at random.“ Donald E. Knuth ([Knu98])
Lineare Kongruenzgeneratoren ([Knu98], [Gre61], [Mar03])
Mersenne-Twister ([MN98])
7 / 28
8. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Lineare Kongruenzgeneratoren
Iterationsfunktion f
F¨r lineare Kongruenzgeneratoren hat die oben eingef¨hrte
u u
Funktion f : Z/mZ → Z/mZ die Form:
x → f (x) = (a x + c) mod m
a − Multiplikator
c − Inkrement
m − Modulus
8 / 28
9. Grundlagen
Analyse der Fuhrparkdaten Verteilungen
Erzeugung realistischer Fuhrparkdaten Zufallszahlen
Zusammenfassung
Lineare Kongruenzgeneratoren
Vorteile Nachteile
Gutes Laufzeitverhalten Zusammenhang der
Geringe Spreicherkomplexit¨t
a Folgenglieder ([Mar03])
Geringe Periode der niedrigen
Bits bei m = 2n
Anwendung
ungeeignet f¨r:
u
Monte Carlo Simulation
Kryptographie (Schl¨sselerzeugung)
u
m¨gliche Anwendung:
o
Einsatz auf Systemen mit beschr¨nkten Ressourcen
a
9 / 28