Юникод

Юникод или Уникод (англ. Unicode) - представляет собой стандарт кодирования символов практически всех письменностей в мире. Данный стандарт создала и развивает некоммерческая организация Unicode Consortium, объединившая в себе "монстров" компьютерной индустрии таких, как Apple, IBM, HP, Microsoft, Sun и т.д.

Главным преимуществом данного стандарта является то, что в одном и том же текстовом редакторе теперь стало возможным набирать текст на нескольких языках сразу. Т.е. в одном и том же документе могут соседствовать различные символы, к примеру, китайские иероглифы могут стоять рядом с греческими буквами, символы санскрита - рядом с кириллицей или все вместе и т.д.

Стандарт состоит из основных двух разделов - универсальный набор символов (Universal Character Set, UCS) и семейство кодировок (Unicode Trasformation Format, UTF).

Universal Character Set

Универсальный набор символов задает однозначное соответствие между символом из юникода и неким кодом - неотрицательным положительным числом. Допустим, английское слово Hello в данном коде будет иметь вид:

U+0048 U+0065 U+006C U+006C U+006F

Наши 3 бурятских символа также определены в юникоде:

UnicodeSymbolDescription
U+04AEҮCYRILLIC CAPITAL LETTER STRAIGHT U
U+04AFүCYRILLIC SMALL LETTER STRAIGHT U
U+04BAҺCYRILLIC CAPITAL LETTER SHHA
U+04BBһCYRILLIC SMALL LETTER SHHA
U+04E8ӨCYRILLIC CAPITAL LETTER BARRED O
U+04E9өCYRILLIC SMALL LETTER BARRED O

Обратите внимание, помимо кода, сопоставленного символу, в юникоде также определены универсальные названия символов.

Unicode Trasformation Format

Семейство кодировок UTF определяет машинное представление последовательности кодов UCS. Говоря простым языком, данное семейство кодировок отвечает за то, чтобы слово последовательность кодов

U+0048 U+0065 U+006C U+006C U+006F

была отображена в виде слова Hello

Ссылки по теме

Содержание