Unicode

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0^[1], mis defineerib 149813^[2] unikaalset märki.

Unicode'is viiakse iga märk vastavusse ühe unikaalse arvuga ehk antakse igale märgile oma "koodipunkt" (ingl code point).^[3] Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis. Koodipunkt hoiustab endas infot märgi identiteedi, mitte aga selle välimuse kohta. Tarkvara saab kasutada seda infot, et näiteks vastava märgi mingi versioon ekraanile kuvada.

Koodipunkti kodeerimiseks arvutis on mitu standardset viisi. Unicode'i standard defineerib kolm kodeerimise viisi, UTF-8, UTF-16 ja UTF-32, mis lubavad infot märgi kohta edastada vastavalt 8, 16 ja 32 bitiste ühikutena.^[3] Neist levinuim on UTF-8, mis on ASCII-ga tagasiühilduv.

Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ega paku juhiseid ega soovitusi.

Ajalugu muuda

Unicode'i konsortium loodi 1991. aasta jaanuaris USAs California osariigis.^[4]

Viited muuda

↑ "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
↑ "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.
↑ ^3,0 ^3,1 "Technical Introduction". www.unicode.org. Vaadatud 23. aprillil 2024.
↑ "History of Unicode". www.unicode.org. Vaadatud 23. aprillil 2024.

Välislingid muuda

[1] "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.

[2] "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.

[:0-3] 3,0 ^3,1 "Technical Introduction". www.unicode.org. Vaadatud 23. aprillil 2024.

[4] "History of Unicode". www.unicode.org. Vaadatud 23. aprillil 2024.

[1]

[2]

[3]

[4]