SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
Llenguatge de marques i
       sistemes de gestió d'informació

            UF 1: Programació amb XML
            Part 1




Introducció a XML


                       Xavier Sala Pujolar
                       IES Cendrassos
Dades
●   Els humans fan servir les dades per viure
●   Les dades són representació d'aspectes del
    món real
●   Generalment les dades necessiten algun tipus
    de procés per poder ser usades:
     –   Es poden fer servir per fer càlculs o per prendre
          decisions
     –   El procés les converteix en 'informació'




                                   Administració de Sistemes Informàtics i Xarxes
Representació de les dades
●   Els ordinadors emmagatzemen aquestes dades
    en binari a través d'algun tipus de codificació:
        –   Text: ASCII, UTF-8, ISO-8859-15, Windows-
             1251, etc...

                         1   0    0      0       0       0       1

        –   Binària: Imatges (JPG, PNG, GIF, ...), So (WAV,
             MP3, ...), Vídeo (MPEG, ... )




                                 Administració de Sistemes Informàtics i Xarxes
Estructuració de dades
●    Les dades en els ordinadors es guarden en
    fitxers

●   Tradicionalment els fitxers s'emmagatzemen en
    en dos tipus de formats:
         – Fitxers binaris
         – Fitxers de text




                            Administració de Sistemes Informàtics i Xarxes
Fitxers binaris
●   Els fitxers binaris són simplement una tira de
    bits
●   La informació que contenen només la entenen
    els programes que l'han generat
        –   Per això els fitxers binaris només es poden
             llegir amb els programes que els han creat
●   Els fitxers binaris estan molt bé perquè són
    llegits fàcilment pels ordinadors
        –   Les dades es llegeixen i guarden d'una forma
             molt eficient


                                 Administració de Sistemes Informàtics i Xarxes
Fitxers binaris
●   A vegades els fitxers binaris contenen
    informació sobre el seu contingut per diferents
    motius

                             2B2N3B1N2B1N2B1N2B1N2B4N2
                                 B1N2B1N2B1N2B1N1B


●   Algú ho entendria sense informació?
        –   Si el creador no ho explica és complicat
●   En l'exemple els números són “metadades”
“Les metadades són dades sobre les dades”

                                  Administració de Sistemes Informàtics i Xarxes
Fitxers de text
●   Els fitxers de text també són tires de bits però
    estan agrupats de forma estandarditzada
        –   ASCII, UTF-8, UTF-16, EBCDIC, Windows-1250
●   Gràcies a l'estàndard aquests fitxers es poden
    obrir en diferents programes
●   La informació es comparteix més fàcilment amb
    fitxers de text que amb fitxers binaris




                                Administració de Sistemes Informàtics i Xarxes
Fitxers de text

●   Però també tenen desavantatges:
       –   Els sistemes operatius tracten de forma diferent
             alguns dels seus aspectes (com els salts de
             línia)
       –   És complicat afegir-hi informació sobre les
            dades, metadades, ja que no seran
            interpretades
               ●   Poden arruïnar-ne totalment la facilitat de lectura
               ●   No existeix una forma estàndard d'afegir-les




                                       Administració de Sistemes Informàtics i Xarxes
Fitxers de text
●   Antigament per representar dades es feia
    separant els valors amb comes o algun altre
    símbol
     “Nom”,”Cognom”,”Ofici”,”Naixement”,”Poblacio”,”Punts”
     “Filomenu”,”Garcia”,”Professor”, “10/04/1902”,”Cabanes”,12
     “Mariano”,”Puigdevall”,”Informàtic”,”19/05/1972”,”Cabanes”,23
     “Federicu”, “Pi”, “Mestre”,”20/03/1968”,”Girona”,40

     –   S'ha de saber que la primera línia són metadades
     –   Afegir-hi noves dades pot ser molt problemàtic pel
           programa que les llegeixi
              ●   Probablement haurem de canviar el programa


                                       Administració de Sistemes Informàtics i Xarxes
Fitxers de marques
●   Els llenguatges de marques recullen el millor
    dels dos tipus de fitxers:
        –   Dels fitxers binaris
                 ●   La facilitat de posar metadades en el contingut
        –   Dels fitxers de text:
                 ●   La facilitat d'intercanvi d'informació
                 ●   L'estandardització
●   Els llenguatges de marques estan basats en
    text
        –   Poden ser creats amb qualsevol editor de textos
        –   Però no estan pensats per ser llegits

                                          Administració de Sistemes Informàtics i Xarxes
Llenguatges de marques
●   Un llenguatge de marques combina dades i
    etiquetes que les marquen i que contenen
    informació addicional sobre l'estructura del text
    o la seua presentació.
●   Les marques estan barrejades amb el propi
    text.
         <persona>
            <nom>
               Xavier
            </nom>
            <cognom>
               Sala
            </cognom>
         </persona>
                              Administració de Sistemes Informàtics i Xarxes
Llenguatges de marques
●   Tot i que els sistemes de marques en que ens
    concentrarem són els d'estil “web” cal no
    oblidar que n'hi ha d'altres:
       –   Wikitext, TeX, DocBook, RTF, JSON
           = Intercanvi de dades =
           * [[ XML ]]
           * [[ JSON ]]
           * [[ LDIF ]]

           { “persona”: {
               “nom”: “Xavier”,
               “cognom”: “Sala”
           }}


                                     Administració de Sistemes Informàtics i Xarxes
Llenguatges de marques
●   El llenguatge de marques més conegut és
    l'HTML
        –   És el que es fa servir en les pàgines web
            <html>
                <head>
                   <title>Pàgina</title>
                </head>
                <body>
                   Hola!
                </body>
            </html>

●   Però no és el primer que ha existit , ni l'únic

                                       Administració de Sistemes Informàtics i Xarxes
SGML
●   La primera tecnologia estandarditzada de llenguatges
    de marques va ser l’SGML
●   Es va fer servir com estàndard de la informació de
    propòsit general
●   Partia de la idea de que s'han de separar les dades
    d'un document de la seva forma
●   Però:
        –   La majoria dels documents estaven destinats a
             la impressió
        –   Era terriblement complex de manera que només
             el feien servir els especialistes


                                 Administració de Sistemes Informàtics i Xarxes
HTML
●   El 1989, Tim Berners-Lee i Anders Berglund, dos
    investigadors del CERT, van crear un llenguatge basat
    en etiquetes destinat a compartir informació per
    Internet: HTML




●   HTML és un format que descriu la visualització d'una
    pàgina web
        –   HTML està molt orientat a la visualització

                                  Administració de Sistemes Informàtics i Xarxes
Tecnologia web
HTML ha tingut un èxit
extraordinari i molt ràpid
●   Això ha fet que les tecnologies
    web no parin d'evolucionar
●   HTML ha sofert molts canvis al
    llarg dels anys
●   El suport HTML dels
    navegadors cada vegada és
    més complexe



                             Administració de Sistemes Informàtics i Xarxes
Tecnologia web
●   Les pàgines HTML no sempre es veuen igual
    en els diferents navegadors




                          Administració de Sistemes Informàtics i Xarxes
Tecnologia Web
●   Tot i això la web s'ha fet cada vegada més i
    més popular
      –   Cada dia es generen milions de pàgines web amb
           informació
      –   Això implica que cal buscar per trobar la
            informació que ens interessa




                                   Administració de Sistemes Informàtics i Xarxes
Tecnologies web
●    Però l'HTML és molt difícil de reutilitzar
          –   És molt difícil representar-hi informació que es
               pugi reutilitzar en altres llocs
                  ●   Poder presentar la informació de diferents formes
                  ●   Personalitzar les dades
          –   Fa falta alguna forma de poder fer-hi recerques
               intel·ligents i seleccionar-ne el resultats

    <html>                                                Com pot una
    <head><title>Professor</title></head>                    màquina
    <body>                                                 determinar
      <p>Nom: Federicu Pi</p>                           automàticament
    </body>                                            què és el nom, què
    </html>                                              el cognom, ...?

                                         Administració de Sistemes Informàtics i Xarxes
Tecnologia web
Feia falta una forma de:




“Buscar, moure, visualitzar i manipular
   la informació continguda en els
          documents HTML”



                           Administració de Sistemes Informàtics i Xarxes
Naixement d'XML
●   El consorci W3C va desenvolupar una
    alternativa a l’HTML que podés satisfer les
    necessitats futures del web.
●   El 1996 el consorci W3C es va proposar
    introduir el poder i la flexibilitat de l’SGML al
    web.
●   SGML oferia tres avantatges que l’HTML no
    tenia:
        –   Extensibilitat
        –   Estructura
        –   Validació
                                Administració de Sistemes Informàtics i Xarxes
Especificacions XML


               Extensible Markup Language
●   El febrer de 1998 es llença l'especificació 1.0
    d’XML:
    –   http://www.w3.org/TR/2004/REC-xml-20040204/
●   L'ultima especificació d’XML és la 1.1 que va
    sortir el 2004:
    –   http://www.w3.org/TR/xml11/
    Totes les especificacions es revisen periòdicament

                                  Administració de Sistemes Informàtics i Xarxes
Què és XML?

●   XML és un simple llenguatge de descripció
    d'informació
        –   És una estàndard que permet dissenyar i
             desenvolupar llenguatges de marques.
●   XML és un format de text estandarditzat que
    serveix per representar i transportar informació
    estructurada.




                                 Administració de Sistemes Informàtics i Xarxes
Presentació
●   Una de les idees més importants és

        –   “Separar les dades de la presentació”

●   XML no es preocupa de com es presentaran
    les dades als usuaris
●   Per fer la presentació ja s'han desenvolupat
    mecanismes:
        –   CSS
        –   XSL-FO
        –   ...
                             Administració de Sistemes Informàtics i Xarxes
Etiquetes
●   A HTML li ha anat bé amb un número finit
    d'etiquetes
●   Però tots els intents per crear un conjunt finit
    d'etiquetes van fallar
        –   Cada conjunt d'usuaris en necessita un de
             diferent (matemàtics, químics, etc.. )
●   La solució adoptada va ser la més lògica:


     Un número infinit d'etiquetes

                                 Administració de Sistemes Informàtics i Xarxes
Estructuració de dades
●   Un altre dels objectius és donar una
    estructura a les dades (Són més fàcils d'interpretar)
                                  <modul>
                                     Llenguatges de marques
                                   <alumnes>
                                     <nom>
                                        Federicu Garcia
    Els alumnes de llenguatges      </nom>
    de marques són: Federicu        <nom>
    Garcia, Filomenu Pi, Manolito      Filomenu Pi
    Puigdevall, ...                 </nom>
                                    <nom>
                                       Manolito Puigdevall
                                    </nom>
                                   </alumnes>
                                  </modul>
                                  Administració de Sistemes Informàtics i Xarxes
Transport de dades
●   XML està pensat per transportar dades
         –   A diferència d'HTML si que es pot determinar de
               forma automàtica què signifiquen les dades
<html>                                         <professors>
<head><title>Professors</title></head>           <professor>
<body>                                            <nom>Federicu</nom>
  <p>Federicu Pi</p>                              <cognom>Pi</cognom>
  <p>Mariano Po</p>                             </professor>
</body>                                         <professor>
</html>                                            <nom>Mariano</nom>
                                                   <cognom>Po</cognom>
Podem respondre:                                </professor>
●   Quina informació conté el fitxer?          </professors>
●   Quina és la estructura de la informació?
●   Quins tags s'han creat per descriure'n la informació?
                                         Administració de Sistemes Informàtics i Xarxes
Formats Estàndards
●   Tenim la capacitat de crear un vocabulari que
    només entengui el nostre programa
           –   No necessita llicència
●   O podem fer-lo obert perquè l'entengui tothom
           –   Al fer servir el mateix format la comunicació de
                 dades és més fàcil
           –   Ja hi ha vocabularis estàndards XML:
     SVG                  Pensat per gràfics vectorials escalables 2D
     MathML               Representació de fórmules matemàtiques
     CML                  Intercanvi d'informació química
     SMIL                 Tractament de la informació multimèdia
     SSML                 Síntesi de la veu

                                              Administració de Sistemes Informàtics i Xarxes
Formats estàndards
                XFRML (Extensible Financial Reporting Markup Language)
                SMBXML (Small and Medium Sized Business XML),
Comptabilitat   CIML (Customer Information Markup Language),
                NAML (Name/Address Markup Language), Vcard,
                SML (Steel Markup Language)
                TML (Tutorial Markup Language), SCORM (Shareable
 Educació       Courseware Object Reference Model Initiative), LMML
                (Learning Material Markup Language)
                MathML (Mathematical Markup Language ), OpenMath
  Ciència
                PetroXML, ProductionML, GeophysicsML
                SVG (Scalable Vector Graphics), X3D (Extensible 3D)

                MML (Music Markup Language), SMDL (Standard Music
                Description Language)

                ChessGML (Chess Game Markup Language), BGML (Board
                Game Markup Language)



                                         Administració de Sistemes Informàtics i Xarxes
Formats estàndard
●   Molts programes que feien servir formats
    binaris han passat a algun tipus d'XML:
     –   Microsoft Office
            ●    Va passar de guardar els documents en binari .DOC
                  a XML .DOCX (OOXML) al estandaritzar-lo
     –   OpenOffice.org
●   Molts dels documents de configuració dels
    sistemes operatius estan en XML!
         Linux         $ locate .xml | wc -l
                       21829

                       C:> dir /a-d /s *.xml | find /c /v “”
    Windows XP         698



                                               Administració de Sistemes Informàtics i Xarxes
Extensible
●   Un altre dels avantatges de XML és que es
    fàcilment extensible i adaptable
      –   Creem els tags que tinguin significat per nosaltres
      –   Podem crear el vocabulari que ens faci falta per
           allò que busquem
●   Però hi ha formes de definir quina és la
    estructura que nosaltres definim
      –   Hi ha diversos estàndards DTD, XML Schema
           Language, Relax NG, etc..
      –   Ens serviran per comprovar que el document
           compleix amb les normes del vocabulari

                                   Administració de Sistemes Informàtics i Xarxes
Perquè es fa servir?
●   XML s'està fent servir en múltiples camps:
     –   Contingut de pàgines web
             ●   Un dels estàndards que es fan servir en pàgines
                  web XHTML està basat en XML
             ●   Però XML de forma inherent té múltiples formes en
                  que pot ser representat (XSL-FO, CSS, ...)
     –   Computació distribuïda
             ●   L'intercanvi de dades entre sistemes diferents que
                   permetin les crides entre objectes entre màquines
     –   Comerç electrònic
             ●   Bussines to Bussines, Bussines to Consumer
     –   Reduir la càrrega de servidors

                                      Administració de Sistemes Informàtics i Xarxes
Problemes
●   XML ocupa més espai a disc que els seus
    equivalents en format binari
     –   Hi ha tendència a crear fitxers molt grans
     –   Això pot tenir un impacte en el rendiment dels
           programes
                ●   El fitxer és molt gran!
                ●   En format text!
●   Però això a vegades és compensat per:
     –   La facilitat d'interoperatibilitat entre programes
     –   El preu de l'emmagatzematge és baix


                                        Administració de Sistemes Informàtics i Xarxes

Weitere ähnliche Inhalte

Ähnlich wie Introducció a xml

Ús del correu
Ús del correuÚs del correu
Ús del correu
Alex Ambau
 
Tema: 2 Ús educatiu de les eines de la xarxa
Tema: 2 Ús educatiu de les eines de la xarxaTema: 2 Ús educatiu de les eines de la xarxa
Tema: 2 Ús educatiu de les eines de la xarxa
grupo
 

Ähnlich wie Introducció a xml (20)

Presentació Htm, Xml, Php
Presentació Htm, Xml, PhpPresentació Htm, Xml, Php
Presentació Htm, Xml, Php
 
Practiques materia actic
Practiques materia acticPractiques materia actic
Practiques materia actic
 
UD4 Web
UD4 WebUD4 Web
UD4 Web
 
Internet david lorente
Internet david lorenteInternet david lorente
Internet david lorente
 
Internet
InternetInternet
Internet
 
Ús del correu
Ús del correuÚs del correu
Ús del correu
 
Internet
InternetInternet
Internet
 
power point mariaeugenia
power point mariaeugeniapower point mariaeugenia
power point mariaeugenia
 
mariaeugenia
mariaeugeniamariaeugenia
mariaeugenia
 
Ictic3
Ictic3Ictic3
Ictic3
 
La Xarxa Internet
La Xarxa InternetLa Xarxa Internet
La Xarxa Internet
 
ADMINISTRACIO I GESTIÓ.
ADMINISTRACIO I GESTIÓ.ADMINISTRACIO I GESTIÓ.
ADMINISTRACIO I GESTIÓ.
 
Tema: 2 Ús educatiu de les eines de la xarxa
Tema: 2 Ús educatiu de les eines de la xarxaTema: 2 Ús educatiu de les eines de la xarxa
Tema: 2 Ús educatiu de les eines de la xarxa
 
Sistemes gestors de bases de dades
Sistemes gestors de bases de dadesSistemes gestors de bases de dades
Sistemes gestors de bases de dades
 
Dim, taller web 3.0
Dim, taller web 3.0Dim, taller web 3.0
Dim, taller web 3.0
 
Dim
DimDim
Dim
 
Itineraris IT Academy (2020)
Itineraris IT Academy (2020)Itineraris IT Academy (2020)
Itineraris IT Academy (2020)
 
ThunderBird i el correu i agenda electrònica - Adrian Escabias
ThunderBird i el correu i agenda electrònica - Adrian EscabiasThunderBird i el correu i agenda electrònica - Adrian Escabias
ThunderBird i el correu i agenda electrònica - Adrian Escabias
 
Unidad 1 l'ordinador i els seus components
Unidad 1 l'ordinador i els seus componentsUnidad 1 l'ordinador i els seus components
Unidad 1 l'ordinador i els seus components
 
Presentacio sobre html
Presentacio sobre htmlPresentacio sobre html
Presentacio sobre html
 

Mehr von Xavier Sala Pujolar

Mehr von Xavier Sala Pujolar (17)

Fer App mòbils amb tecnologia web
Fer App mòbils amb tecnologia webFer App mòbils amb tecnologia web
Fer App mòbils amb tecnologia web
 
Introducció a Docker
Introducció a DockerIntroducció a Docker
Introducció a Docker
 
Introducció a Java Collections
Introducció a Java CollectionsIntroducció a Java Collections
Introducció a Java Collections
 
Git
GitGit
Git
 
Validació de Documents XML amb XSD
Validació de Documents XML amb XSDValidació de Documents XML amb XSD
Validació de Documents XML amb XSD
 
Subversion
SubversionSubversion
Subversion
 
Criptografia
CriptografiaCriptografia
Criptografia
 
RIP
RIPRIP
RIP
 
OSPF
OSPFOSPF
OSPF
 
Openldap
OpenldapOpenldap
Openldap
 
Llei de Serveis de la Societat de la Informació (LSSI)
Llei de Serveis de la Societat de la Informació (LSSI)Llei de Serveis de la Societat de la Informació (LSSI)
Llei de Serveis de la Societat de la Informació (LSSI)
 
Llei de Protecció de dades de caràcter personal (LOPD)
Llei de Protecció de dades de caràcter personal (LOPD)Llei de Protecció de dades de caràcter personal (LOPD)
Llei de Protecció de dades de caràcter personal (LOPD)
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Virtualització (2 part)
Virtualització (2 part)Virtualització (2 part)
Virtualització (2 part)
 
Virtualització
VirtualitzacióVirtualització
Virtualització
 
Enginyeria social
Enginyeria socialEnginyeria social
Enginyeria social
 
Programació de sockets amb C++
Programació de sockets amb C++Programació de sockets amb C++
Programació de sockets amb C++
 

Introducció a xml

  • 1. Llenguatge de marques i sistemes de gestió d'informació UF 1: Programació amb XML Part 1 Introducció a XML Xavier Sala Pujolar IES Cendrassos
  • 2. Dades ● Els humans fan servir les dades per viure ● Les dades són representació d'aspectes del món real ● Generalment les dades necessiten algun tipus de procés per poder ser usades: – Es poden fer servir per fer càlculs o per prendre decisions – El procés les converteix en 'informació' Administració de Sistemes Informàtics i Xarxes
  • 3. Representació de les dades ● Els ordinadors emmagatzemen aquestes dades en binari a través d'algun tipus de codificació: – Text: ASCII, UTF-8, ISO-8859-15, Windows- 1251, etc... 1 0 0 0 0 0 1 – Binària: Imatges (JPG, PNG, GIF, ...), So (WAV, MP3, ...), Vídeo (MPEG, ... ) Administració de Sistemes Informàtics i Xarxes
  • 4. Estructuració de dades ● Les dades en els ordinadors es guarden en fitxers ● Tradicionalment els fitxers s'emmagatzemen en en dos tipus de formats: – Fitxers binaris – Fitxers de text Administració de Sistemes Informàtics i Xarxes
  • 5. Fitxers binaris ● Els fitxers binaris són simplement una tira de bits ● La informació que contenen només la entenen els programes que l'han generat – Per això els fitxers binaris només es poden llegir amb els programes que els han creat ● Els fitxers binaris estan molt bé perquè són llegits fàcilment pels ordinadors – Les dades es llegeixen i guarden d'una forma molt eficient Administració de Sistemes Informàtics i Xarxes
  • 6. Fitxers binaris ● A vegades els fitxers binaris contenen informació sobre el seu contingut per diferents motius 2B2N3B1N2B1N2B1N2B1N2B4N2 B1N2B1N2B1N2B1N1B ● Algú ho entendria sense informació? – Si el creador no ho explica és complicat ● En l'exemple els números són “metadades” “Les metadades són dades sobre les dades” Administració de Sistemes Informàtics i Xarxes
  • 7. Fitxers de text ● Els fitxers de text també són tires de bits però estan agrupats de forma estandarditzada – ASCII, UTF-8, UTF-16, EBCDIC, Windows-1250 ● Gràcies a l'estàndard aquests fitxers es poden obrir en diferents programes ● La informació es comparteix més fàcilment amb fitxers de text que amb fitxers binaris Administració de Sistemes Informàtics i Xarxes
  • 8. Fitxers de text ● Però també tenen desavantatges: – Els sistemes operatius tracten de forma diferent alguns dels seus aspectes (com els salts de línia) – És complicat afegir-hi informació sobre les dades, metadades, ja que no seran interpretades ● Poden arruïnar-ne totalment la facilitat de lectura ● No existeix una forma estàndard d'afegir-les Administració de Sistemes Informàtics i Xarxes
  • 9. Fitxers de text ● Antigament per representar dades es feia separant els valors amb comes o algun altre símbol “Nom”,”Cognom”,”Ofici”,”Naixement”,”Poblacio”,”Punts” “Filomenu”,”Garcia”,”Professor”, “10/04/1902”,”Cabanes”,12 “Mariano”,”Puigdevall”,”Informàtic”,”19/05/1972”,”Cabanes”,23 “Federicu”, “Pi”, “Mestre”,”20/03/1968”,”Girona”,40 – S'ha de saber que la primera línia són metadades – Afegir-hi noves dades pot ser molt problemàtic pel programa que les llegeixi ● Probablement haurem de canviar el programa Administració de Sistemes Informàtics i Xarxes
  • 10. Fitxers de marques ● Els llenguatges de marques recullen el millor dels dos tipus de fitxers: – Dels fitxers binaris ● La facilitat de posar metadades en el contingut – Dels fitxers de text: ● La facilitat d'intercanvi d'informació ● L'estandardització ● Els llenguatges de marques estan basats en text – Poden ser creats amb qualsevol editor de textos – Però no estan pensats per ser llegits Administració de Sistemes Informàtics i Xarxes
  • 11. Llenguatges de marques ● Un llenguatge de marques combina dades i etiquetes que les marquen i que contenen informació addicional sobre l'estructura del text o la seua presentació. ● Les marques estan barrejades amb el propi text. <persona> <nom> Xavier </nom> <cognom> Sala </cognom> </persona> Administració de Sistemes Informàtics i Xarxes
  • 12. Llenguatges de marques ● Tot i que els sistemes de marques en que ens concentrarem són els d'estil “web” cal no oblidar que n'hi ha d'altres: – Wikitext, TeX, DocBook, RTF, JSON = Intercanvi de dades = * [[ XML ]] * [[ JSON ]] * [[ LDIF ]] { “persona”: { “nom”: “Xavier”, “cognom”: “Sala” }} Administració de Sistemes Informàtics i Xarxes
  • 13. Llenguatges de marques ● El llenguatge de marques més conegut és l'HTML – És el que es fa servir en les pàgines web <html> <head> <title>Pàgina</title> </head> <body> Hola! </body> </html> ● Però no és el primer que ha existit , ni l'únic Administració de Sistemes Informàtics i Xarxes
  • 14. SGML ● La primera tecnologia estandarditzada de llenguatges de marques va ser l’SGML ● Es va fer servir com estàndard de la informació de propòsit general ● Partia de la idea de que s'han de separar les dades d'un document de la seva forma ● Però: – La majoria dels documents estaven destinats a la impressió – Era terriblement complex de manera que només el feien servir els especialistes Administració de Sistemes Informàtics i Xarxes
  • 15. HTML ● El 1989, Tim Berners-Lee i Anders Berglund, dos investigadors del CERT, van crear un llenguatge basat en etiquetes destinat a compartir informació per Internet: HTML ● HTML és un format que descriu la visualització d'una pàgina web – HTML està molt orientat a la visualització Administració de Sistemes Informàtics i Xarxes
  • 16. Tecnologia web HTML ha tingut un èxit extraordinari i molt ràpid ● Això ha fet que les tecnologies web no parin d'evolucionar ● HTML ha sofert molts canvis al llarg dels anys ● El suport HTML dels navegadors cada vegada és més complexe Administració de Sistemes Informàtics i Xarxes
  • 17. Tecnologia web ● Les pàgines HTML no sempre es veuen igual en els diferents navegadors Administració de Sistemes Informàtics i Xarxes
  • 18. Tecnologia Web ● Tot i això la web s'ha fet cada vegada més i més popular – Cada dia es generen milions de pàgines web amb informació – Això implica que cal buscar per trobar la informació que ens interessa Administració de Sistemes Informàtics i Xarxes
  • 19. Tecnologies web ● Però l'HTML és molt difícil de reutilitzar – És molt difícil representar-hi informació que es pugi reutilitzar en altres llocs ● Poder presentar la informació de diferents formes ● Personalitzar les dades – Fa falta alguna forma de poder fer-hi recerques intel·ligents i seleccionar-ne el resultats <html> Com pot una <head><title>Professor</title></head> màquina <body> determinar <p>Nom: Federicu Pi</p> automàticament </body> què és el nom, què </html> el cognom, ...? Administració de Sistemes Informàtics i Xarxes
  • 20. Tecnologia web Feia falta una forma de: “Buscar, moure, visualitzar i manipular la informació continguda en els documents HTML” Administració de Sistemes Informàtics i Xarxes
  • 21. Naixement d'XML ● El consorci W3C va desenvolupar una alternativa a l’HTML que podés satisfer les necessitats futures del web. ● El 1996 el consorci W3C es va proposar introduir el poder i la flexibilitat de l’SGML al web. ● SGML oferia tres avantatges que l’HTML no tenia: – Extensibilitat – Estructura – Validació Administració de Sistemes Informàtics i Xarxes
  • 22. Especificacions XML Extensible Markup Language ● El febrer de 1998 es llença l'especificació 1.0 d’XML: – http://www.w3.org/TR/2004/REC-xml-20040204/ ● L'ultima especificació d’XML és la 1.1 que va sortir el 2004: – http://www.w3.org/TR/xml11/ Totes les especificacions es revisen periòdicament Administració de Sistemes Informàtics i Xarxes
  • 23. Què és XML? ● XML és un simple llenguatge de descripció d'informació – És una estàndard que permet dissenyar i desenvolupar llenguatges de marques. ● XML és un format de text estandarditzat que serveix per representar i transportar informació estructurada. Administració de Sistemes Informàtics i Xarxes
  • 24. Presentació ● Una de les idees més importants és – “Separar les dades de la presentació” ● XML no es preocupa de com es presentaran les dades als usuaris ● Per fer la presentació ja s'han desenvolupat mecanismes: – CSS – XSL-FO – ... Administració de Sistemes Informàtics i Xarxes
  • 25. Etiquetes ● A HTML li ha anat bé amb un número finit d'etiquetes ● Però tots els intents per crear un conjunt finit d'etiquetes van fallar – Cada conjunt d'usuaris en necessita un de diferent (matemàtics, químics, etc.. ) ● La solució adoptada va ser la més lògica: Un número infinit d'etiquetes Administració de Sistemes Informàtics i Xarxes
  • 26. Estructuració de dades ● Un altre dels objectius és donar una estructura a les dades (Són més fàcils d'interpretar) <modul> Llenguatges de marques <alumnes> <nom> Federicu Garcia Els alumnes de llenguatges </nom> de marques són: Federicu <nom> Garcia, Filomenu Pi, Manolito Filomenu Pi Puigdevall, ... </nom> <nom> Manolito Puigdevall </nom> </alumnes> </modul> Administració de Sistemes Informàtics i Xarxes
  • 27. Transport de dades ● XML està pensat per transportar dades – A diferència d'HTML si que es pot determinar de forma automàtica què signifiquen les dades <html> <professors> <head><title>Professors</title></head> <professor> <body> <nom>Federicu</nom> <p>Federicu Pi</p> <cognom>Pi</cognom> <p>Mariano Po</p> </professor> </body> <professor> </html> <nom>Mariano</nom> <cognom>Po</cognom> Podem respondre: </professor> ● Quina informació conté el fitxer? </professors> ● Quina és la estructura de la informació? ● Quins tags s'han creat per descriure'n la informació? Administració de Sistemes Informàtics i Xarxes
  • 28. Formats Estàndards ● Tenim la capacitat de crear un vocabulari que només entengui el nostre programa – No necessita llicència ● O podem fer-lo obert perquè l'entengui tothom – Al fer servir el mateix format la comunicació de dades és més fàcil – Ja hi ha vocabularis estàndards XML: SVG Pensat per gràfics vectorials escalables 2D MathML Representació de fórmules matemàtiques CML Intercanvi d'informació química SMIL Tractament de la informació multimèdia SSML Síntesi de la veu Administració de Sistemes Informàtics i Xarxes
  • 29. Formats estàndards XFRML (Extensible Financial Reporting Markup Language) SMBXML (Small and Medium Sized Business XML), Comptabilitat CIML (Customer Information Markup Language), NAML (Name/Address Markup Language), Vcard, SML (Steel Markup Language) TML (Tutorial Markup Language), SCORM (Shareable Educació Courseware Object Reference Model Initiative), LMML (Learning Material Markup Language) MathML (Mathematical Markup Language ), OpenMath Ciència PetroXML, ProductionML, GeophysicsML SVG (Scalable Vector Graphics), X3D (Extensible 3D) MML (Music Markup Language), SMDL (Standard Music Description Language) ChessGML (Chess Game Markup Language), BGML (Board Game Markup Language) Administració de Sistemes Informàtics i Xarxes
  • 30. Formats estàndard ● Molts programes que feien servir formats binaris han passat a algun tipus d'XML: – Microsoft Office ● Va passar de guardar els documents en binari .DOC a XML .DOCX (OOXML) al estandaritzar-lo – OpenOffice.org ● Molts dels documents de configuració dels sistemes operatius estan en XML! Linux $ locate .xml | wc -l 21829 C:> dir /a-d /s *.xml | find /c /v “” Windows XP 698 Administració de Sistemes Informàtics i Xarxes
  • 31. Extensible ● Un altre dels avantatges de XML és que es fàcilment extensible i adaptable – Creem els tags que tinguin significat per nosaltres – Podem crear el vocabulari que ens faci falta per allò que busquem ● Però hi ha formes de definir quina és la estructura que nosaltres definim – Hi ha diversos estàndards DTD, XML Schema Language, Relax NG, etc.. – Ens serviran per comprovar que el document compleix amb les normes del vocabulari Administració de Sistemes Informàtics i Xarxes
  • 32. Perquè es fa servir? ● XML s'està fent servir en múltiples camps: – Contingut de pàgines web ● Un dels estàndards que es fan servir en pàgines web XHTML està basat en XML ● Però XML de forma inherent té múltiples formes en que pot ser representat (XSL-FO, CSS, ...) – Computació distribuïda ● L'intercanvi de dades entre sistemes diferents que permetin les crides entre objectes entre màquines – Comerç electrònic ● Bussines to Bussines, Bussines to Consumer – Reduir la càrrega de servidors Administració de Sistemes Informàtics i Xarxes
  • 33. Problemes ● XML ocupa més espai a disc que els seus equivalents en format binari – Hi ha tendència a crear fitxers molt grans – Això pot tenir un impacte en el rendiment dels programes ● El fitxer és molt gran! ● En format text! ● Però això a vegades és compensat per: – La facilitat d'interoperatibilitat entre programes – El preu de l'emmagatzematge és baix Administració de Sistemes Informàtics i Xarxes