2. Overzicht
Definities
Metadata
(Meta)datamodel
Metadatastandaard
Types en verschijningsvormen van metadata
Probleemstelling en oplossingsstrategie
Uitdagingen
Conclusies
2
medialab
3. Metadata – « data over data »
Communication
(Information)
Metadata
Data General Data General Data General
Data General Data General Data General
WWW WWW
Production and distribution
Infrastructure - Networks and Storage
Production Platform
3
medialab
4. Meta – data ?
Metadata was pictografisch tot aan de uitvinding van het schrift en wordt nu
terug pictografisch omwille van de tekortkomingen ervan.
4
medialab
5. Definities - Metadata
Metadata is “data over data” of documentatie over (digitale) objecten in het algemeen.
Het doel van metadata is om op een eenduidige manier deze objecten erover te
communiceren.
Figuur 1 – MARC 21 record van « Planning for Automation – how-to-do it manual for librarians »
5
medialab
6. Definities – Datamodel en ontologie
Wanneer we informatie in een database opslaan, gebruiken we een genormaliseerd
datamodel.
• Een datamodel definieert logische entiteiten en hun relaties.
• Een datamodel is genormaliseerd wanneer alle onafhankelijk variabelen zijn
opgesplitst.
IS 3
O6 9
-CODE ]: S rt tx (2
*[1 ho e t )
PR AMMEGR P
OGR _ OU -DE RIP
SC TION[] :Te t
1 x
-ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g
-PA NT_ 1 :Un ig d l ng in g r
RE ID[] s ne o te e
PR UC ON
OD TI IN LL UA PROP Y
TE ECT L_ ERT DI T UT
S RIB ION NOMEN TU
CLA RE -NA [1 : S t te t
ME ] hor x
-SE S_
RIE NUMBE 0 ] :Un ig d in g r
R[..1 s ne te e
-ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -LA L[0 ]: S rt tx
BE ..1 ho e t
-MA RIA NUMBE 0 ] :Un ig d in g r
TE L_ R[..1 s ne te e -COPY
RIGHT H DE ..1 : S rt tx
_ OL R[0 ] ho e t -EMA_ ]
ID[1 -NA RE_ 1 :Un ig d l ng in g r
TU ID[] s ne o te e 1 -TIT [0 1 : Sh t te t
LE . ] or x
-MA RIA DES 0 ] :Sh te t
TE L_ C[..1 ort x -LIC SETY [0 1 : U i ne l n i te r
EN _ PE . ] ns d o g n ge
g -TY [1 : Sh t te t
PE ] or x -NA RE[..1 :Sh te t
TU 0 ] ort x
-OR
IGINA T LE[.. ] :Sh te t
L_ IT 0 1 ort x
-PR UC
OD TION_ DE ..1 : S rt tx
OR R[0 ] ho e t -LIC CEDE [0 1 : T x
EN _ SC . ] e t -DIS IBU ONCH NE ] :Inte r
TR TI _ AN L[1 ge -CA GORYID .. ] :Un ig d lo in g r
TE _ [0 1 s ne ng te e -DE RIP
SC TION[..1 :Te t
0] x
-V-I A ..1 : S rt tx
S N[0 ] ho e t -TE ITORY .. ] :Sh t te t
RR [0 1 or x -DIS IBU ONSE ICE ]
TR TI _ RV [1 -CA GORYNA [0 1 : S t te t
TE _ ME . ] hor x -LA
NGUA _
GECODE . 1 : S t te t(2
[0 ] hor x )
-PR H RAR Y[0 ] :Sho te t
D_ IE CH ..1 rt x -DIS _ HAN L_ PE[..1 :Un ig d in g r
TRC NE TY 0 ] s ne te e -PL NEDS RT_ TE ]
AN _ TA DA [1 -ED
ITORI L_ NR ID[0 ] : U ign d lo intge
A GE E_ ..1 ns e ng e r
-OR L GU
I_ AN AGE_ ODE[..1 :Sh te t (2
C 0] ort x )
-PR S IES ]: U ign d lon intge
N_ ER [1 ns e g er -DIS IBU ONCH NE ..1 : S rt tx
TR TI _ AN L[0 ] ho e t -PL NEDS RT_ ME ]
AN _ TA TI [1 -ED
ITORI L_ NR NAME[..1 :Sh te t
A GE E_ 0] ort x -VOLU [0 1 :Nu b r
ME .. ] me
-LIV IND ]: B le n
E_ [1 oo a -CONT CT[..1 :Sh te t
RA 0 ] ort x -PL NEDD ATI N ]
AN _ UR O [1 -FORMAT ID .. ] :Un ig d l ng in g r
_ [0 1 s ne o te e -PR UC
OD TION[1 :Un ig d lo in g r
] s ne ng te e
-LIV LOCA
E_ TION[0 ] :Sho te t
..1 rt x -ST T_ AT ..1 : Dte
AR D E[0 ] a -AC AL_ AR D E[1
TU ST T_ AT ] -FORMAT NA [0 1 : S rt te t
_ ME . ] ho x
-NOME LA E[] :Un ig d lo in g r
NC TUR 1 s ne ng te e
-PR EN E[..1 :Sh te t
OV ANC 0 ] ort x -ST T_ IME[0 ]: T e
AR T ..1 im -AC AL_ AR T
TU ST T_ IME[1] -INT TION_ 0 ] :Un ig d lo in g r
EN ID[..1 s ne ng te e -COPY
RIGHT ]: U ign d lon i te r
[1 ns e g n ge
-SU LIE ..1 : S rt tx
PP R[0 ] ho e t -EN D E[0 ] : Dt
D_ AT ..1 a e -AC AL_ RA
TU DU TION[]
1 -INT TION_ ME . 1 : Sh t te t
EN NA [0 ] or x
-PR D AR
N_ EP TMEN ..1 : S rt tx
T[0 ] ho e t -EN T
D_ IME[0 ]: T e
..1 im -QU IFI AT
AL C ION_ LA 1
F G[] -QL IND ]: B e n
F_ [1 ool a
-PR MAN
N_ AGER . 1 : S t te t
[0 ] hor x -COND ON IND ] : B le n
ITI AL_ [1 oo a -QU IFI AT
AL C ION_ ODE[]
C 1 -QL TYP 0 ] :Un ig d lo in g r
F_ E[..1 s ne ng te e
1
-PR UC 0 ] :Sh te t
OD ER[..1 ort x -COND ONDE [0 1 : Te t
ITI _ SC . ] x -SU ITL F G[]
BT E_ LA 1 -QL ADR S[0 ] :Te t
F_ ES ..1 x
-DIR TOR[0 ] : S rtte t
EC ..1 ho x -RE RIC
ST TION_ [1 : B le n
IND ] oo a -SU ITL T E[1
BT E_ YP ] -BR D[0 ]: S rt tx
AN ..1 ho e t
-AS TA [0 1 :Sh te t
SIS NT .. ] ort x -RE RIC
ST TION_ PE .. ] :Un ig d lo in g r
TY [0 1 s ne ng te e -LIV FL
E_ AG[1]
-CH _ RODUC ON .. ] :Sh te t
IEF P TI [0 1 ort x -RE S RT DA [0 1 : Dte
S_ TA _ TE . ] a -INT AC E_ G[1
ER TIV FLA ]
-PR ENT ION[0 ]: S rt tx
ES AT ..1 ho e t -RE S RT TI E . 1 : Ti e
S_ TA _ M [0 ] m -INT DE A EC RAT ]
EN D_ SP T_ IO[1
1
-FE URI G[0 1 :Te t
AT N .. ] x -RE E _ ATE . 1 : Dte
S_ NDD [0 ] a -IMA F MA ]
GE_ OR T[1
-SONORIS ION[0 ]: S rt tx
AT ..1 ho e t -RE E _ IME . 1 : T e
S_ NDT [0 ] im -SOUN F MA 1
D_ OR T[]
-AS MB _ Y[0 ] : S rt tx
SE LEDB ..1 ho e t -RE D C[0 ] : T x
S_ ES ..1 e t
*
-AS W CEN R[..1 :Sho te t
S_ ORK TE 0 ] rt x
-AS D E[0 ] : Dt
S_ AT ..1 a e ED OR _
IT IAL MASTER
*
*
-PR UR
OC EMENT T E[0 ]: U ign d lon intge
_ YP ..1 ns e g er
-ID*1 : Usi n d l n i te e
[ ] nge ogn gr
-MA RIA TYP 0 ] :Sh te t
TE L_ E[..1 ort x
0..1
1 -CMS_ ]
ID[1
-PR UC D SION[..1 :Un ig d lo in g r
OD T_ IVI 0] s ne ng te e
-PGR_ ] : Un g e l n i t g r
ID[1 si n d g n e
oe
* -TY [1 : Sh rt te
PE ] o xt
isas cia d w
so te ith -NU ER ] : Un g e l n i te e
MB [1 si n d o g n g r
* -PA _ MB [0 1 : Sh rt te (3
RT NU ER .. ] o xt )
1
isas cia d w
so te ith -VE ION . 1 : Un g e i t g r
RS [0 ] si n d n e
e
-NA [0 1 : Sh rt te
ME .. ] o xt
-DE RIP
SC TION[ ..1 : Te
0] xt
ROLET E
_ YP
-AN
NOTA
TION[0 ] : Te
..1 xt
-ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -INF 0 ] : Te
O[ ..1 xt
-CODE ]: P TA9 .3
[1 /ME . 11 PGR_ ST
CA -DU TION_ IP ..1 : T e
RA SCR T[0 ] im
-NA [1 : S t te t
ME ] hor x -DU TION_ IE 1
RA REV W[ ]
* -PGR_ 1 :Un ig d l n
ID*[] s ne o
-DE RIP
SC TION[..1 :Te t
0] x -NOME L UR ..1 : Un g e l n i te e
NCAT E[0 ] si n d o g n g r
*
-PR I *[] :Un ig d lo
F_ 1
D s ne n
-PR UC
OD TION[0 ] : Un g e l n i te e
..1 si n d o g g r
n
1 -COPY
RIGHT . 1 : Usi n d l n i te e
[0 ] n g e o g n g r
EMA_ ST
CA -ST US[ ] : Sh rt te
AT 1 o xt
1
*
*
-MA RIA_ TA S[1 : Sh rt t xt
TE L S TU ] oe
*
De ontologie (van het Grieks ὀν = zijnde, dingen en λόγος = woord, leer) is de
-EMA_ 1 :Un ig d l n
ID*[] s ne o
-RIGHT S TUS . 1 : So te
_ TA [0 ] h r xt
t
PA Y
RT PE OR NC
RF MA E
PA AS
R_ SOCIA
TION
-ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g -ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g 1
R rrer
efe 1
-NA [0 1 :Sh te t
ME .. ] ort x -ROLETY [1 : U ign d lon
_ PE ] ns e g
*
-PA *[1 : U i n d lon
RT ] ns e g g
* 1
-FIR NA [0 1 :Sh t te t
ST ME .. ] or x -CH _ [0 1 :Un ig d lo i
ARID .. ] s ne ng PGR_CONT UT
RIB ION
0.1
. pe rm b
rfo ed y
-COLL TION*[] :Un ig
EC 1 s ne In de
clu s 1
-SU AME[0 ]: S rt tx
RN ..1 ho e t -PA Y_ [0 ]: U ign d lon
RT I ..1 ns e
D g
leer van de dingen. De klassieke ontologie definieert fundamentele categorieën en
* -PGR_ 1 :Un ig d l n
ID*[] s ne o
-DE RIP
SC TION[..1 :Te t
0] x
EMA_CONT UT
RIB ION
CH PL
R_ AY
-EMA_ 1 :Un ig d l n
ID*[] s ne o
-ID*1 : U i ne l n i te r
[ ] ns d o g n ge
g
onderlinge relaties. Een ontologie representeert een bepaald kennisdomein.
-PR I *[] :Un ig d lo
F_ 1
D s ne n
-NA [1 : S t te t
ME ] hor x
-DE RIP
SC TION[..1 :Te t
0] x
=> Eender welke ontologie kan perfect voorgesteld worden door een datamodel.
6
medialab
7. Doelstelling van een metadata standaard
In het algemeen worden een standaard gedefinieerd met het oog op interoperabiliteit tussen
deelsystemen.
Voorbeeld - het Telex (Teletypewriter Exchange) protocol definieert 5-bit codering (26 letters en 6
speciale tekens) en 45,5 bits per seconde
Een metadata standaard moet een zekere compatibiliteit garanderen tussen informatieverwerkende
systemen. Het definieert minstens een vocabularium, een syntax en/of een datamodel en het is een
nodige(!) voorwaarde voor eenduidige communicatie tussen systemen, processen en mensen.
Bijvoorbeeld:
• Dublin Core definieert uitsluitend 15 begrippen (titel, onderwerp, format,…)
• Resource Description Framework (RDF) specifieert uitsluitend de syntax van een beschrijving
Een volledige(!) garantie op compatibiliteit houdt in dat, naast een vocabularium, een syntax en
een ontologie, ook de codering en de verpakking wordt genormeerd.
7
medialab
10. Overzicht
Definities
Verschillende aspecten van metadata
Ontologie
Metadatastandaard
Types en verschijningsvormen van metadata
Probleemstelling en oplossingsstrategie
Uitdagingen
Conclusies
10
medialab
11. Enterprise Resources Planning - Logistieke metadata (APICS)
• Logistieke metadata is informatie met betrekking
Sales and Operations Planning
tot de ontwikkeling, productie en distributie van het
product.
• Logistieke informatie vormt de basis van een ERP
New Products Sales
Supply
systeem en wordt meestel gecommuniceerd als inhoud
(Creativity) (Distribution)
(Production)
van een document.
Bill of Material Product Catalog
Material Master
• APICS (www.apics.org) is een industrieassociatie
die het logistiek vocabularium standaardiseert.
11
medialab
12. Product Engineering - Beschrijvende metadata (CAD/CAM)
• Beschrijvende metadata is informatie met betrekking tot de inhoud
van het product en ze is meestal het resultaat van een
productontwikkelingsproces. Indien mogelijk wordt dit proces
geformaliseerd en gebruikt men hiervoor een CAD systeem.
• In het algemeen is beschrijvende informatie beschikbaar onder de
vorm van tekst of grafische modellen.
• Per industrie en per type product zijn er vaak verschillende
methodes met bijhorende documentatiestandaarden:
• Nieuws maakt gebruik van NewsML (www.iptc.org/newsml)
• Movie Script Markup Language (MSML) is in ontwikkeling
12
medialab
13. Het archief – Annoteren, indexeren, opzoeken…
Mpeg7
P/META
Feature Extraction
Archive
System
System
• Het archiefsysteem verzamelt alle beschikbare metadata met betrekking tot ruw
materiaal of afgewerkte producten. P/META (www.ebu.ch) is origineel ontwikkeld
voor deze specifieke toepassing.
• De documentalist rubriceert en categoriseert de beschikbare items. Hij gebruikt
hiervoor meestal termen uit een gecontroleerde lijst en hij kan de de facto standaard
Library of Congress Subject Headings (http://authorities.loc.gov) gebruiken.
• Wanneer feature extraction algoritmes worden gebruikt om diverse visuele, aurale
of conceptuele entiteiten te herkennen, maken we bij voorkeur gebruik van ISO/IEC
Mpeg7 (http://en.wikipedia.org/wiki/mpeg7).
13
medialab
15. Sales and Distribution – Electronische Programmagids (TVAnytime)
TV-
P/META
Anytime
Distribution
Scheduling
System
• De elektronische programmagids (EPG) is een onderdeel van het proces ‘Sales
and Distribution’ en het is een combinatie van logistieke en inhoudelijke gegevens
afkomstig uit het ERP systeem en het productontwikkelingsproces.
• De EPG informatie wordt meestal gecentraliseerd in een distribution scheduling
systeem, en dit publiceert op haar beurt het zendschema naar diverse platformen. We
kunnen bijvoorbeeld P/META (www.ebu.ch) recupereren om deze interface te
implementeren.
• Hoewel TV-Anytime (www.tv-anytime.org, genormeerd door ETSI) beschikbaar is
om uitzendschema’s te representeren, worden in de praktijk nog steeds voor elk
doelplatform proprietaire interfaces ontwikkeld.
15
medialab
16. Voorbeeld - Newswires
1922 – Eerste commerciele telex machines
1979: IPTC 7901 (Tekstberichten) « Designed for computerised handling »
1990: IIM (Binary file format - IPTC headers in pictures)
1997: NITF (Uitsluitend tekst, ontwikkeld in SGML en nadien geporteerd naar XML)
1998 - XML 1.0 recommendation by W3C
1998: NewsML, ontwikkeld door Reuters, XML representatie van text, foto’s en video
2000: NewsML 1.0 accepted by IPTC
2008: NewsML-G2 joint effort of IPTC and EBU, includes support for timecodes and taxonomies
NewsItem
NewsLines Administrative
• HeadLine • Publisher
• SlugLine • Creator
• ByLine • Source
• Keywords • Contributor
• History
Descriptive Rights
• Language • Ownership
• Genre • Usage terms
• Context
• Mention
• Relates to Type
• Of interest to • Mediatype
Content Item (actual binary data or pointer to file)
Content Item (actual binary data or pointer to file)
• Streaming Technical metadata
• Size Duration Width
• Height Resolution Color
• Streaming Technical metadata
16
medialab
17. Evolutie van de Informatietechnologie
Semantic Computing
Integration • “Semantic web”
Integrated Processes • Information-centric infrastructures
• Digital Media - “Metadata” • Knowledge Management
• File-based production – Information Overflow • Semantic reasoning
• Service-Oriented Architectures
• Webservices use hypertext (XML)
• Point-to-point Interfaces
EDP – Electronic Data Processing
• Digital Information
• Client/Server-based architectures
• Databases and Data-pumps
• Remote Procedure Calls use plain text
Conventional Methods
• Analog Media and File Cabinets
• “Wires”
• Thesaurus
Info
•Xyzlk
•Ouidf
•oidf
Single Source
Data
2010
1990
1970
Generation 2 Generation X
Pre-Digitization Generation 1
The Internet Ambient Intelligence
Analogue Systems Stand-Alone Systems
17
medialab
22. Consensus en functionaliteit
Systeemintegratie is vaak een compromis. We moeten het evenwicht zoeken tussen een
algemene aanvaarde oplossing (door toepassing van een standaard) en een specifieke
puntoplossing waarvan men de zekerheid heeft dat ze goed werkt.
• Interfaces op basis van een metadatastandaard is gemakkelijk herbruikbaar en het geheel
blijft relatief makkelijk beheersbaar. Ze veroorzaken meestal relatief veel overhead.
• Specifieke oplossingen kunnen gemakkelijker geoptimaliseerd worden in functie van
efficiëntie en performantie.
=> Strategie – Standaard waar mogelijk, puntoplossing waar nodig
22
medialab
23. Overzicht van beschikbare standaarden
Long-Term Strategy
Partial Solutions
High
Semantic
Generic
Reasoning
Standards
Ambient
Intelligence
Consensus
Stand-Alone
Systems
De Facto
Standards
Custom
Development
Specific Solutions
Low Hardwired
Low High
Functionaliteit
23
medialab
24. Overzicht
Definities
Verschillende aspecten van metadata
Ontologie
Metadatastandaard
Types en verschijningsvormen van metadata
Probleemstelling en oplossingsstrategie
Uitdagingen
Conclusies
24
medialab
27. The Semantic Gap
Allegory of Fortune, Dosso Dossi
Prosperity in life is transitory and
dependant on luck
Semantic awareness is more then database management. It
is unique to rich media and it requires interpretation,
translation, historic background, etc.
27
medialab
28. Conclusies
Een volledige oplossing voor het probleem van systeemintegratie
specifieert minstens een encodering, een vocabularium, een syntax,
een datamodel en een verpakking.
De formele standaarden die tot nu zijn ontwikkeld binnen de
audiovisuele industrie zijn meestal te algemeen of te moeilijk.
In de praktijk behelpt men zich vandaag bijna altijd met
puntoplossingen of industriestandaarden.
Omdat de natuurlijke taal tekort schiet als accurate beschrijving, gaan
we terug naar meerdimensionale grafische modellen.
De grootste uitdaging voor het semantisch web is de semantische
interpretatie van grafische objecten
28
medialab