Юникод
Юникод или Уникод (англ. Unicode) - представляет собой стандарт кодирования символов практически всех письменностей в мире. Данный стандарт создала и развивает некоммерческая организация Unicode Consortium, объединившая в себе "монстров" компьютерной индустрии таких, как Apple, IBM, HP, Microsoft, Sun и т.д.
Главным преимуществом данного стандарта является то, что в одном и том же текстовом редакторе теперь стало возможным набирать текст на нескольких языках сразу. Т.е. в одном и том же документе могут соседствовать различные символы, к примеру, китайские иероглифы могут стоять рядом с греческими буквами, символы санскрита - рядом с кириллицей или все вместе и т.д.
Стандарт состоит из основных двух разделов - универсальный набор символов (Universal Character Set, UCS) и семейство кодировок (Unicode Trasformation Format, UTF).
Universal Character Set
Универсальный набор символов задает однозначное соответствие между символом из юникода и неким кодом - неотрицательным положительным числом. Допустим, английское слово Hello в данном коде будет иметь вид:
U+0048 U+0065 U+006C U+006C U+006F
Наши 3 бурятских символа также определены в юникоде:
Unicode | Symbol | Description |
---|---|---|
U+04AE | Ү | CYRILLIC CAPITAL LETTER STRAIGHT U |
U+04AF | ү | CYRILLIC SMALL LETTER STRAIGHT U |
U+04BA | Һ | CYRILLIC CAPITAL LETTER SHHA |
U+04BB | һ | CYRILLIC SMALL LETTER SHHA |
U+04E8 | Ө | CYRILLIC CAPITAL LETTER BARRED O |
U+04E9 | ө | CYRILLIC SMALL LETTER BARRED O |
Обратите внимание, помимо кода, сопоставленного символу, в юникоде также определены универсальные названия символов.
Unicode Trasformation Format
Семейство кодировок UTF определяет машинное представление последовательности кодов UCS. Говоря простым языком, данное семейство кодировок отвечает за то, чтобы слово последовательность кодов
U+0048 U+0065 U+006C U+006C U+006F
была отображена в виде слова Hello
Ссылки по теме
- www.unicode.org - The Unicode standard
- Unicode 11.0 Character Code Charts
- Unicode 11.0 Cyrillic, Range: 0400–04FF