SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Unicode Bruno Pinto Nº43876
ASCII O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois.  Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais. A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo. O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado. 2 TPM - Bruno Pinto
3 TPM - Bruno Pinto
ISO 8859 A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados. Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente. Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo.  A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer's Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode.  4 TPM - Bruno Pinto
ISO 8859-1 A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) . É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores. Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII. A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais.  5 TPM - Bruno Pinto
Unicode O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente.   O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc. Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO.  O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras.  Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat).  6 TPM - Bruno Pinto
ISO 10646 A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos  tal como letras e números. Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000. Unicode e ISO 10646 tem uma certa relação entre ambas. Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium  decidiram criar um padrão universal de codificação de texto multi-linguagem.  Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas. 7 TPM - Bruno Pinto
UCS-4 UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode. Pode ser considerado como a forma de codificação mais simples tal como os outros UTF. UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada. 8 TPM - Bruno Pinto
UCS-2 e UTF-16 UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits. UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode.  UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16. Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2. 9 TPM - Bruno Pinto
UTF-8 UTF-8 é um tipo de codificação Unicode de 8 bits. Pode representar qualquer carácter universal padrão do Unicode, sendo também  compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados. 10 TPM - Bruno Pinto

Weitere ähnliche Inhalte

Andere mochten auch

Duvida by pedro siena (4 de 4)
Duvida by pedro siena (4 de 4)Duvida by pedro siena (4 de 4)
Duvida by pedro siena (4 de 4)Pedro Siena
 
Incendios 2
Incendios 2Incendios 2
Incendios 2nenhuma
 
Possibilidades Internet
Possibilidades InternetPossibilidades Internet
Possibilidades Internetmariassis2003
 
Tae-Bo Implementation Plan 2016 (shortcut)
Tae-Bo Implementation Plan 2016 (shortcut)Tae-Bo Implementation Plan 2016 (shortcut)
Tae-Bo Implementation Plan 2016 (shortcut)John Peran
 
As gangster
As gangsterAs gangster
As gangsterJCA
 
Aprenda excel 2000 como si estuviera en primero
Aprenda excel 2000 como si estuviera en primeroAprenda excel 2000 como si estuviera en primero
Aprenda excel 2000 como si estuviera en primeroAnali Ilana
 
Albanian Books Collections
Albanian Books CollectionsAlbanian Books Collections
Albanian Books CollectionsMarjan Dodaj
 
מודלים חושוביים - תרגול 13
מודלים חושוביים - תרגול 13מודלים חושוביים - תרגול 13
מודלים חושוביים - תרגול 13Igor Kleiner
 
Campamento De Pedagogia 02
Campamento De Pedagogia 02Campamento De Pedagogia 02
Campamento De Pedagogia 02benitesxl
 
90 munazrae ahlesunnatwithahlebidat_text
90 munazrae ahlesunnatwithahlebidat_text90 munazrae ahlesunnatwithahlebidat_text
90 munazrae ahlesunnatwithahlebidat_textidara-e-dosti
 
Gustavo Acosta 631
Gustavo Acosta 631Gustavo Acosta 631
Gustavo Acosta 631Gustavo
 

Andere mochten auch (20)

Duvida by pedro siena (4 de 4)
Duvida by pedro siena (4 de 4)Duvida by pedro siena (4 de 4)
Duvida by pedro siena (4 de 4)
 
Incendios 2
Incendios 2Incendios 2
Incendios 2
 
Ad1 ed apresentação
Ad1 ed apresentaçãoAd1 ed apresentação
Ad1 ed apresentação
 
Possibilidades Internet
Possibilidades InternetPossibilidades Internet
Possibilidades Internet
 
Dois Cavalos 27 04 09
Dois Cavalos  27 04 09Dois Cavalos  27 04 09
Dois Cavalos 27 04 09
 
Tae-Bo Implementation Plan 2016 (shortcut)
Tae-Bo Implementation Plan 2016 (shortcut)Tae-Bo Implementation Plan 2016 (shortcut)
Tae-Bo Implementation Plan 2016 (shortcut)
 
Portugal
PortugalPortugal
Portugal
 
Primeiros Socorros
Primeiros SocorrosPrimeiros Socorros
Primeiros Socorros
 
ntc 3857
ntc 3857ntc 3857
ntc 3857
 
As gangster
As gangsterAs gangster
As gangster
 
Aprenda excel 2000 como si estuviera en primero
Aprenda excel 2000 como si estuviera en primeroAprenda excel 2000 como si estuviera en primero
Aprenda excel 2000 como si estuviera en primero
 
Tecnologia na Escola
Tecnologia na EscolaTecnologia na Escola
Tecnologia na Escola
 
Trabajo Modulo 3
Trabajo Modulo 3Trabajo Modulo 3
Trabajo Modulo 3
 
Po dictamen mayoria(2)
Po dictamen mayoria(2)Po dictamen mayoria(2)
Po dictamen mayoria(2)
 
Albanian Books Collections
Albanian Books CollectionsAlbanian Books Collections
Albanian Books Collections
 
Espelho
EspelhoEspelho
Espelho
 
מודלים חושוביים - תרגול 13
מודלים חושוביים - תרגול 13מודלים חושוביים - תרגול 13
מודלים חושוביים - תרגול 13
 
Campamento De Pedagogia 02
Campamento De Pedagogia 02Campamento De Pedagogia 02
Campamento De Pedagogia 02
 
90 munazrae ahlesunnatwithahlebidat_text
90 munazrae ahlesunnatwithahlebidat_text90 munazrae ahlesunnatwithahlebidat_text
90 munazrae ahlesunnatwithahlebidat_text
 
Gustavo Acosta 631
Gustavo Acosta 631Gustavo Acosta 631
Gustavo Acosta 631
 

Ähnlich wie PTM - UNICODE

Unicode
UnicodeUnicode
Unicodehpanao
 
Unicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresUnicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresDouglas V. Pasqua
 
Fique ninja na codificação de caracteres
Fique ninja na codificação de caracteresFique ninja na codificação de caracteres
Fique ninja na codificação de caracteresSebastian Webber
 
Unicode poetry
Unicode poetryUnicode poetry
Unicode poetrycodebits
 
Componentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoComponentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoMauro
 

Ähnlich wie PTM - UNICODE (9)

Unicode
UnicodeUnicode
Unicode
 
Unicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresUnicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de Caracteres
 
Sm C1
Sm C1Sm C1
Sm C1
 
Fique ninja na codificação de caracteres
Fique ninja na codificação de caracteresFique ninja na codificação de caracteres
Fique ninja na codificação de caracteres
 
How to linux Portuguese
How to linux PortugueseHow to linux Portuguese
How to linux Portuguese
 
Ze E Jorge
Ze E JorgeZe E Jorge
Ze E Jorge
 
Unicode poetry
Unicode poetryUnicode poetry
Unicode poetry
 
Trabalho mac
Trabalho macTrabalho mac
Trabalho mac
 
Componentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoComponentes de Sistemas de Comunicação
Componentes de Sistemas de Comunicação
 

PTM - UNICODE

  • 2. ASCII O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois. Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais. A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo. O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado. 2 TPM - Bruno Pinto
  • 3. 3 TPM - Bruno Pinto
  • 4. ISO 8859 A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados. Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente. Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo. A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer's Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode. 4 TPM - Bruno Pinto
  • 5. ISO 8859-1 A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) . É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores. Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII. A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais. 5 TPM - Bruno Pinto
  • 6. Unicode O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente. O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc. Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO. O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras. Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat). 6 TPM - Bruno Pinto
  • 7. ISO 10646 A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos tal como letras e números. Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000. Unicode e ISO 10646 tem uma certa relação entre ambas. Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium decidiram criar um padrão universal de codificação de texto multi-linguagem. Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas. 7 TPM - Bruno Pinto
  • 8. UCS-4 UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode. Pode ser considerado como a forma de codificação mais simples tal como os outros UTF. UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada. 8 TPM - Bruno Pinto
  • 9. UCS-2 e UTF-16 UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits. UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode. UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16. Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2. 9 TPM - Bruno Pinto
  • 10. UTF-8 UTF-8 é um tipo de codificação Unicode de 8 bits. Pode representar qualquer carácter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados. 10 TPM - Bruno Pinto