Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koe...
Maschinelles Sehen / Computer Vision
 Problemstellung: Algorithmische sinnliche
Wahrnehmung?
 (Vorverarbeitung: Verbesse...
Computer Vision /
maschinelles Sehen
Bedeutung:
 „Schafe im Hochland Islands“
 „Geothermalkraftwerk Bjarnarflag“
 „Pünderich an der Mosel“
 Menschliche (si...
„Alles […], was ich bisher am ehesten für wahr
angenommen, habe ich von den Sinnen oder durch
Vermittelung der Sinne empfa...
…und ?
Kantendetektion
„Schaf“
„Schaf“
„Schaf“
„Schafe“„Berg“„Hügel“
„Schotterpiste“
„Stein“
Form Textur
Hall of Fame der Kantenfilter / Kantenoperatoren
 Sobel-Operator
 Laplace-Operator
 Scharr-Operator
 Prewitt-Operator
...
Sobel-Operator:
Laplace-Operator:
Merkmalsextraktion
==
?
I. Differenzbild / pixelweiser Vergleich
==
?
II. Template Matching
==
?
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Merkmalsextraktion
Merkmale
Mer...
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Anforderungen / Intention
 Separationsfähigkeit:
 Ähnliche Werte für ähnliche Objekte
 Unterschiedliche Werte für unter...
Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
Mustererkennung
Einfaches Modell eines künstlichen Neurons i mit:
 ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron
von ve...
Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:
 ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, di...
Selbstorganisierende Karte (Kohonen-Karte)
Selbstorganisierende Karte (Kohonen-Karte)
 Clustering
 Filter & Co. Mit HTML5 und JavaScript:
http://www.html5rocks.com/en/tutorials/canvas/imagefi
lters/?redirect_from_locale...
/
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision
Nächste SlideShare
Wird geladen in …5
×

BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision

721 Aufrufe

Veröffentlicht am

BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision

Veröffentlicht in: Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
721
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
260
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Punktoperationen
    Binarisierung
    Histogrammausgleich
    Binarisierung, Schwellwertausgleich
    Filter
    Medianfilter
  • Geothermalkraftwerk Bjarnarflag
  • Pünderich, Mosel
  • Sinnliche Wahrnehmung
    Moped
    Auflösungsvermögen
    Das menschliche Auge besitzt ca. 6 Mio. Zapfenzellen und 120 Mio. Stabzellen; das Sensor-Array einer typischen CCD-Kamera 440.000 Bildpunkte (Video) bzw. 5-16 MegaPixel (Photo)
    Eine analoge 35mm Kleinbildkamera erreicht eine Auflösung von ca. 20 Megapixel (!)
    Verarbeitungsleistung
    Trotz relativ langsamer „Schaltzeiten“ im Millisekundenbereich garantiert parallele Verarbeitung eine extrem hohe Verarbeitungsleistung des menschl. visuellen Systems
    Farbensehen
    Das menschliche Auge kann ca. 100 Grauwerte und 7 Mio. Farben unterscheiden; digitale Graustufenbilder enthalten bis zu 256 Graustufen und bis zu 16,7 Mio Farben.
  • Struktur / form?
  • Kaffeehaustäuschung
  • Auflösungsvermögen
    Das menschliche Auge besitzt ca. 6 Mio. Zapfenzellen und 120 Mio. Stabzellen; das Sensor-Array einer typischen CCD-Kamera 440.000 Bildpunkte (Video) bzw. 5-16 MegaPixel (Photo)
    Eine analoge 35mm Kleinbildkamera erreicht eine Auflösung von ca. 20 Megapixel (!)
    Verarbeitungsleistung
    Trotz relativ langsamer „Schaltzeiten“ im Millisekundenbereich garantiert parallele Verarbeitung eine extrem hohe Verarbeitungsleistung des menschl. visuellen Systems
    Farbensehen
    Das menschliche Auge kann ca. 100 Grauwerte und 7 Mio. Farben unterscheiden; digitale Graustufenbilder enthalten bis zu 256 Graustufen und bis zu 16,7 Mio Farben.
  • Vexierbilder
    Bedeutung?
  • Woher wissen Suchmaschinen, was in einer Rastergrafik dargestellt ist?
    Annotation: Metainformationen, ausgefülltes alt-Attribut des <img> Tags
    Bildanalyse
  • Der Algorithmus nutzt eine Faltung mittels einer 3×3-Matrix (Faltungsmatrix), die aus dem Originalbild ein Gradienten-Bild erzeugt. Mit diesem werden hohe Frequenzen im Bild mit Grauwerten dargestellt. Die Bereiche der größten Intensität sind dort, wo sich die Helligkeit des Originalbildes am stärksten ändert und somit die größten Kanten darstellt. Daher wird zumeist nach der Faltung mit dem Sobeloperator eine Schwellwert-Funktion angewandt. Der Algorithmus kann allerdings auch auf andere zweidimensionale Signale angewandt werden.
    Aus dem Originalbild wird für jeden Bildpunkt immer nur ein Ausschnitt, genauer gesagt die Umgebung des zu betrachtenden Punktes verwendet. Dazu wird eine Matrix definiert, deren Komponenten die Änderungsgewichtung der Umgebung vom Punkt repräsentieren. Die Matrix ist üblicherweise symmetrisch angelegt, sodass keine Änderung in der Umgebung zu einer Nullsumme führt (siehe unten). Nun werden mittels der Sobeloperatoren und die gefalteten Resultate und berechnet:
  • Der Algorithmus nutzt eine Faltung mittels einer 3×3-Matrix (Faltungsmatrix), die aus dem Originalbild ein Gradienten-Bild erzeugt. Mit diesem werden hohe Frequenzen im Bild mit Grauwerten dargestellt. Die Bereiche der größten Intensität sind dort, wo sich die Helligkeit des Originalbildes am stärksten ändert und somit die größten Kanten darstellt. Daher wird zumeist nach der Faltung mit dem Sobeloperator eine Schwellwert-Funktion angewandt. Der Algorithmus kann allerdings auch auf andere zweidimensionale Signale angewandt werden.
    Aus dem Originalbild wird für jeden Bildpunkt immer nur ein Ausschnitt, genauer gesagt die Umgebung des zu betrachtenden Punktes verwendet. Dazu wird eine Matrix definiert, deren Komponenten die Änderungsgewichtung der Umgebung vom Punkt repräsentieren. Die Matrix ist üblicherweise symmetrisch angelegt, sodass keine Änderung in der Umgebung zu einer Nullsumme führt (siehe unten). Nun werden mittels der Sobeloperatoren und die gefalteten Resultate und berechnet:
  • Anwendungsfall: PLANETS
  • Nach Kantendetektion: Segmente / Bildteile, die einzelne oder mehrere Objekte enthalten können
    Wir möchten herausfinden, ob zwei Objekte gleich sind

    Szenario 1
    :
    Wie können wir hier einen Vergleich durchführen?
    Einfache Möglichkeit: Differenzbild
    unterschiedliche
    Pixel zählen
    bei vielen unterschiedlichen Pixeln => unterschiedli
    che Segmente
    bei wenig unterschiedlichen Pixeln => ähnliche/gleic
    he Segmente
  • Template Matching
    Das erste Segment wird in alle Positionen und Drehu ngen versetzt und mit dem zweiten verglichen, bis es „passt“.
    Problem: alle Drehungen müssen mit allen x-Verschiebungen und allen y-Verschiebungen kombiniert werden!  Sehr rechenintensiv


  • Großes Problem…
  • Es werden Charakterisierungen durch „Attribute“ oder Zahlen vorgenommen Vergleich der Attribute oder Zahlen ist einfach:
    Sind diese ungleich so sind die Objekte unterschiedlich
    Dies ist offensichtlich sehr viel schneller als Template Matching!
  • A quadrat + b quadrat
  • Einfache Geometrische und Topologische Merkmale
    Viele Merkmale für Segmente sind schön anschaulich und einfach zu berechnen

  • Einfache Geometrische und Topologische Merkmale
    Viele Merkmale für Segmente sind schön anschaulich und einfach zu berechnen

  • Einfache Geometrische und Topologische Merkmale
    Viele Merkmale für Segmente sind schön anschaulich und einfach zu berechnen

  • Es fasst drei biologisch motivierte Fachgebiete der Informationsverarbeitung zusammen. Es basiert auf Algorithmen der Fuzzylogik und künstlichen neuronalen Netzen sowie auf den Evolutionären Algorithmen.
  • Hierbei signifiziert 𝑤𝑖𝑗𝑜𝑗 die Ausgabe 𝑜𝑗 des Knotens 𝑗, die das betrachtete Neuron 𝑖 durch eine gewichtete Verbindung 𝑤𝑖𝑗 erreicht. Ist ℎ𝑖 berechnet, wird anschließend die Aktivierungsfunktion 𝑔(ℎ𝑖) ausgeführt, die das Aktivierungsmaß 𝑎𝑖 des Neurons 𝑖 kalkuliert:
  • Netztopologien
    Ein vorwärtsgerichtetes künstliches neuronales Netz mit einer Eingabe-, einer versteckten- und einer Ausgabeschicht.
  • BIT I SoSem 2015 | Basisinformationstechnologie II - 07_Maschinelles Sehen / Computer Vision

    1. 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2015 03. Juni 2015 – Maschinelles Sehen / Computer Vision
    2. 2. Maschinelles Sehen / Computer Vision  Problemstellung: Algorithmische sinnliche Wahrnehmung?  (Vorverarbeitung: Verbesserung des Quellmaterials)  Kantendetektion  Segmentierung  Clustering Themenüberblick
    3. 3. Computer Vision / maschinelles Sehen
    4. 4. Bedeutung:  „Schafe im Hochland Islands“  „Geothermalkraftwerk Bjarnarflag“  „Pünderich an der Mosel“  Menschliche (sinnliche) Wahrnehmung + x + Hintergrundwissen
    5. 5. „Alles […], was ich bisher am ehesten für wahr angenommen, habe ich von den Sinnen oder durch Vermittelung der Sinne empfangen. Nun aber bin ich dahinter gekommen, daß diese uns bisweilen täuschen, und es ist ein Gebot der Klugheit, niemals denen ganz zu trauen, die auch nur einmal uns getäuscht haben.“ (Descartes, René: Meditationen über die Grundlagen der Philosophie mit den sämtlichen Einwänden und Erwiderungen. Hamburg: meiner, 1994. S. 12)
    6. 6. …und ?
    7. 7. Kantendetektion
    8. 8. „Schaf“ „Schaf“ „Schaf“ „Schafe“„Berg“„Hügel“ „Schotterpiste“ „Stein“
    9. 9. Form Textur
    10. 10. Hall of Fame der Kantenfilter / Kantenoperatoren  Sobel-Operator  Laplace-Operator  Scharr-Operator  Prewitt-Operator  Kirsch-Operator  Marr-Hildreth-Operator  Canny-Algorithmus  …
    11. 11. Sobel-Operator:
    12. 12. Laplace-Operator:
    13. 13. Merkmalsextraktion
    14. 14. == ? I. Differenzbild / pixelweiser Vergleich
    15. 15. == ? II. Template Matching
    16. 16. == ?
    17. 17. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
    18. 18. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf Merkmalsextraktion Merkmale Merkmalsvektor
    19. 19. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
    20. 20. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
    21. 21. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
    22. 22. Anforderungen / Intention  Separationsfähigkeit:  Ähnliche Werte für ähnliche Objekte  Unterschiedliche Werte für unterschiedliche Objekte  Performanz  Störungsanfälligkeit / Robustheit gegen Störungen  Kompakter Merkmalsvektor Merkmalsextraktion
    23. 23. Quelle: http://lmb.informatik.uni-freiburg.de/people/haasdonk/DBV_FHO/DBV_FHO_SS08_E10.pdf
    24. 24. Mustererkennung
    25. 25. Einfaches Modell eines künstlichen Neurons i mit:  ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält  𝑎𝑖: Aktivierungsmaß  𝑔(ℎ𝑖): Aktivierungsfunktion  𝑜𝑖: Ausgabe des Neurons
    26. 26. Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:  ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem Neuron anliegen:  Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe) des Neurons:
    27. 27. Selbstorganisierende Karte (Kohonen-Karte)
    28. 28. Selbstorganisierende Karte (Kohonen-Karte)  Clustering
    29. 29.  Filter & Co. Mit HTML5 und JavaScript: http://www.html5rocks.com/en/tutorials/canvas/imagefi lters/?redirect_from_locale=de  OpenCV (Open Source Computer Vision): http://opencv.org/  OCRopus(tm) open source document analysis and OCR system: www.code.google.com/p/ocropus/  Framework (PC) für Playstation „Move“: http://code.google.com/p/moveframework/  Kinect for Windows SDK: http://www.microsoft.com/en- us/kinectforwindows/develop/developer- downloads.aspx Weiterführendes
    30. 30. /

    ×