Как же кодируются символы?

Какая знаковая система предпочтительна для кодирования информации так, чтобы она была понятна компьютеру? Ведь процессор воспринимает коды в виде электрических сигналов, количество которых не может отличаться большим разнообразием.


Если использовать знаковую систему с алфавитом, насчитывающим всего два символа: 0 и 1, то каждый символ несёт в себе минимальное количество информации - 1 бит. Символы такого двоичного алфавита нетрудно представить в образе электрических сигналов, т.е. закодировать в виде, понятном компьютеру.
Проявляется следующая картина преобразования информации с естественного языка в машинные коды:
Переход от двоичных кодов к машинным предельно прост: единице ставится в соответствие наличие электрического сигнала в разряде носителя, а нулю - отсутствие (точнее: почти отсутствие).
Переход от естественного языка к двоичной знаковой системе, т.е. двоичное кодирование - несколько сложнее. Изначально, для двоичного кодирования объектов: символа, буквы, пробела и т.д. договорились отвести 8 разрядов носителя, в каждом из которых могло разместиться лишь минимальное количество информации - 1 бит, т.е. 0 или 1. Теория комбинаторики позволяет вычислить, какое количество независимых равновероятных сочетаний N может быть получено из 2 по I элементов по формуле: N=2I Если взято 2 различных элемента (0 и 1), а I = 8 (для их расположения отведено 8 разрядов), то N вычисляется по формуле N = 28 т.е. число сочетаний из двух элементов на восьми разрядах составит 256.

Таким образом получилось 256 отличающихся друг от друга равновероятных состояний - кодов. В соответствие каждому коду ставится какой-либо символ. Такая система позволяет закодировать 256 различных символов.


На носителе под код отведена ячейка памяти.

Так как информационный объём кода составляет 8 бит, то и в ячейке памяти размещается 8 бит информации, т.е. 1 байт. Если на клавиатуре набрать слово ЭВМ, то в память компьютера поступит последовательность трёх двоичных кодов в виде адекватной последовательности электрических сигналов:
Информационный объём слова ЭВМ составляет 3 байта.
Начиная с 1997 года появился новый международный стандарт Unicode, который отводит на символ не один байт, а два.

Вперёд
На предыдущую страницу
Сайт создан в системе uCoz