Unicode

Carlos Coelho (43483) Filipe Oliveira (43520) Hugo Panão (43446) Rui Costa (43460) UNICODE

ASCII O código ASCII (American Standard Code for InformationInterchange ) surgiu nos anos 60 e é usado pela maior parte da indústria de computadores para troca de informação. Cada caracter é representado por um código de 8 bits (128 caracteres possíveis, de 0 a 127) baseado no código inglês. Os códigos ASCII representam texto em computadores, equipamentos de comunicação, entre outros dispositivos que trabalham com texto. O que é o código ASCII ? A memória do computador interpreta todos os dados sob a forma numérica (0 e 1). Cada caracter possui o seu equivalente em código numérico: Os códigos 0 a 31 não são caracteres. São caracteres de controlo porque permitem fazer acções como: regresso à linha (CR) Bip sonoro (BEL) Os códigos 65 a 90 representam as maiúsculas Os códigos 97 a 122 representam as minúsculas

ISO A ISO (InternationalOrganization for Standardization), é uma entidade que coordena a normalização de 170 países. Fundada em 1947, em Genebra, na Suíça, a ISO aprova normas internacionais em todos os campos técnicos, excepto na electricidade e electrónica, cuja responsabilidade é da IEC (InternationalElectrotechnicalCommission), fundada em 1906. Em Portugal, a entidade que coordena as normalizações da ISO é o Instituto Português da Qualidade (IPQ). Uma das normas de codificação de caracteres em fontes é o ISO 8859, sendo que o ISO 8859-1 é uma codificação de caracteres do alfabeto latino. Mais tarde, passou a ser gerida pela ISO e pela IEC. Exemplo da tabela de codificação ISO 8859-1 (latin 1), incluindo os nomes dos símbolos e foi usada bastante tempo nos países da Europa Ocidental.

ISO 10646 Norma que define o UCS (Universal CharacterSet), existem vários formatos de codificação de caracteres que se baseiam nesta norma. A ISO 10646 é utilizada tanto em 16 como em 32bits. Tem perto de 100 mil caracteres, identificados inequivocamente e que representam letras, números e ideogramas.

UNICODE É um padrão utilizado para permitir aos computadores representarem e manipularem eficazmente texto. Contêm cerca de 100mil caracteres Possui apenas código em 16bits, no entanto consegue aceder a imensos caracteres de 32 bits, através da ISO 10646 (também conhecida com UCS), com a qual partilha “dados”. É “gerido” pela Unicode Consurtium. Possui vários tipos de “transformação” como o UTF-8 ou UTF-16. Tem diversas aplicações, como Sistemas Operativos, Correio Electrónico, para a qual é o padrão.

UCS-2 (2-byte Universal CharacterSet) é um protocolo de codificação que foi substituído pelo UTF-16 na versão 2.0 do Unicode. O UCS-2 é forma de codificação é idêntica à do UTF-16, excepto que este não suporta “pares substitutos” e, portanto, só se pode codificar caracteres no intervalo U+0000 até U+FFFF. Como consequência, é uma codificação de comprimento fixo que codifica os caracteres sempre em 16-bit. Tal como acontece com UTF-16, existem três esquemas de codificação (UCS-2, UCS-2BE, UCS-2LE).Devido às semelhanças, tanto técnicas como de compatibilidade o UCS-2 e o UTF-16 são facilmente confundidos. Para ambas as UTF-16 e UCS-2, todos os 65.536 pontos de código, excluindo a 2.048 pontos código especiais, são atribuídos códigos de correspondência um-para-um com o 16-bit, não inteiros negativos e com os mesmos valores. Assim, ponto de código U +0000 é codificado como o número 0, e U + FFFF é codificado como 65535 (que é FFFF16 em hexadecimal).

UCS-4 é um protocolo para a codificação de caracteres Unicode que usa exactamente 32 bits para cada ponto de código Unicode. Todos os outros formatos de transformação Unicode usam codificação de comprimento variável. UCS-4 é suficiente para representar todo o código Unicode, que tem 1114112 (= 220 + 216) pontos de código e, portanto, requer apenas até 10FFFF hexadecimal. Algumas pessoas consideram que é um desperdício de reserva como um grande espaço de código para o mapeamento de um conjunto relativamente pequeno de pontos de código, portanto, uma forma nova codificação, UTF-32, foi proposto. UTF-32 é um subconjunto da UCS-4 que usa 32-bit codificar valores apenas no 0 a 10FFFF espaço de código. Assim UCS-4, e UTF-32 são idênticos, excepto que o padrão UTF-32 tem adicional semântica Unicode.

UTF-8 (8-bit Unicode TransformationFormat) é um tipo de codificação Unicode de comprimento variável. Representar qualquer caracter universal padrão. Por esta razão, está lentamente a ser adoptado como tipo de codificação universal, usando por exemplo na maioria dos sites bem como nos emails. UTF-8 usa um a quatro bytes por caracter, dependendo do símbolo. É necessário apenas um byte para codificar os 128 caracteres ASCII . São necessários dois bytes para caracteres Latinos.. São também usados dois bytes para representar caracteres dos alfabetos Grego, Hebraico entre outros. São necessários três bytes para o resto do Plano Multilingual Básico. Existem ainda outros caracteres que necessitam de quatro bytes.

Carlos Coelho (43483) Filipe Oliveira (43520) Hugo Panão (43446) Rui Costa (43460) FIM

Unicode

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Unicode

Ähnlich wie Unicode (18)

Unicode