sexta-feira, 11 de novembro de 2011

Padrões de codificação de caracters

Nos primórdios computacionais foi criada uma tabela de caracteres básica que continha 128 caracteres e portanto era possível de ser armazenada em um binário de 7 bits chamado ASCII.

Com a disseminação dos computadores pelo mundo veio a necessidade de incorporar a esta tabela caracteres diferentes (variantes em cada país) composto não apenas por letras, números e sinais, mas por caracteres especiais. Vários países que usam letras acentuadas e assim a tabela foi expandida para binário de 8 bits (256 caracteres).

No entanto, se considerarmos os alfabetos das línguas européias, os alfabetos cirílico (Rússia) e grego, que são totalmente diferentes do alfabeto que nós usamos, 256 caracteres é também insuficiente para descrevê-los.

Para cada necessidade específica foram criadas tabelas de 8 bits e normalizadas pela ISO (International Standardation Organization). Todos eles são compatíveis com o ASCII nos primeiros 128 caracteres, diferenciando-se entre si nos últimos 128 caracteres. Para alguns países da Ásia, onde se usam ideogramas, o binário é de 16 bits.

Vale ressaltar que dentro de um mesmo país pode haver mais de uma tabela sendo usado. Por exemplo, aqui no Brasil usa-se muito o ISO-8859-1 no Linux, e o IBM 850 no DOS, que são incompatíveis.

Muitas vezes encontramos incompatibilidade entre o sistema de codificação de caracteres (character encoding) de um sistema para outro e até mesmo dentro do próprio sistema.


Ficheiro:Oriya font.png

Sem comentários:

Enviar um comentário