Кодировка символов или код символа является вычисление представления наборов символов ( английский репертуар символов ) некоторые ( в основном численным) кода.
После принятия стандартов телетайпа де-факто создание кодов символов ASCII (1963) и EBCDIC (1964) стало важным шагом в стандартизации. Код ASCII представляет собой 33 управляющих и 95 печатных символов, включая строчные и прописные буквы английского алфавита, цифры и другие символы с использованием 7- битных чисел; код EBCDIC представляет несколько более широкий набор символов с использованием 8- битных чисел.
Пока код EBCDIC оставался ограниченным для мэйнфреймов компании IBM и копировал код ASCII. Он был принят различными национальными и международными организациями по стандартизации, такими как ISO / IEC 646 или T.50 , и привел к появлению ряда национальных вариантов с использованием 7- битных кодов. Их большим недостатком было то, что символы, использование которых стало широко распространенным, заменяются национальными символами, так что, например, при выборе неподходящей кодировки тексты программ могут превратиться в нечитабельный набор символов.
Поэтому более широко используются 8- битные коды, которые обычно не меняют коды ASCII. Однако один 8- битный код не может отображать латиницу, греческий язык, кириллицу (кириллица), Арабский и иврит, и они не охватывают все латинские символы с диакритическими знаками, используемых на разных языках. Кроме того, такие крупные компании, как Microsoft, IBM и Apple , разработали свои собственные 8-битные коды, которые довели кодировку национальных символов до грани хаоса. Несогласованность 8-битных кодировок, а также необходимость унифицированного представления азиатских шрифтов, включая семейство CJK, привели к созданию стандартов Unicode и ISO 10646 примерно в 1990 году.