Безплатна таблица с Unicode символи

02.02.2019 Category: Техника и технология Author: admin

Unicode е международен стандарт за кодиране на символи, който ви позволява да показвате текст на всеки компютър в света по същия начин, независимо от езика на системата, използван в него.

Основи

За да разберем какво е необходима за Unicode таблицата със знаци, нека първо разберем механизма на показване на текст на екрана на монитора. Компютърът, както знаем, обработва цялата информация цифрово, но за да го изведе за правилното възприятие на човек трябва да бъде в графиката. Така че, за да можем да четем този текст, трябва да решим поне две задачи:

Кодираме отпечатаните знаци в цифрова форма.

Да се даде възможност на операционната система да сравни цифровата форма с векторни символи, с други думи, за да намери правилните букви.

Първо кодиране

Предшественикът на всички кодировки се счита за американския ASCII. Той описва английската азбука с пунктуация и арабски цифри. Използваните в него 128 символа станаха основа за по-нататъшно развитие - дори се използва съвременната Unicode таблица със знаци. Оттогава буквите от латинската азбука заемат първите позиции във всяко кодиране.

Всички ASCII разрешиха 256 символа да бъдат запазени, но тъй като първите 128 бяха латински, останалите 128 бяха използвани глобално за създаване на национални стандарти. Например, в Русия, на негова основа са създадени CP866 и KOI8-R. Тези варианти се наричаха разширенияASCII версии.

Кодирани страници и Crazzybras

По-нататъшното развитие на технологиите и появата на графичен интерфейс доведоха до създаването на ANSI кодиране от Американския институт за стандартизация. За руските потребители, особено с опит, версията му е известна като Windows 1251. За първи път е въведена концепцията за "кодова страница". Именно с помощта на кодови страници, съдържащи символи на национални азбуки, с изключение на латински, имаше „взаимно разбиране“ между компютрите, използвани в различни страни.

Въпреки това, наличието на голям брой различни кодировки, използвани за един и същ език, започна да причинява проблеми. Имаше така наречените каркозибриси. Те произтичат от несъответствието между изходната кодова страница, на която е създадена някаква информация, и кодовата страница, която се използва по подразбиране на компютъра на крайния потребител.

Като пример могат да бъдат цитирани гореспоменатите кирилисни кодировки CP866 и KOI8-R. Буквите в тях се различават по кодови позиции и принципи на разположение. В първия те бяха подредени по азбучен ред, а във втория - произволно. Можете да си представите какво се случва пред очите на потребителя, който се е опитал да отвори такъв текст, без да има кодовата страница, която искате или неправилно тълкуване от компютъра.

Създаване на Unicode

Разпространението на интернет и свързаните с него технологии, като електронна поща, доведе до факта, че текстовите съобщения в крайна сметка престанаха да отговарят на всички. Водещи компании в областтаIT създаде Unicode Consortium (Unicode Consortium), символна таблица, въведена от него през 1991 г. под името UTF-32, позволяваща да се съхранят повече от един милиард уникални символи, което беше най-важната стъпка при дешифрирането на текстове.

Въпреки това, първата универсална таблица с кодови символи Unicode UTF-32 не е широко разпространена. Основната причина беше излишното съхраняване на информация. Бързо се изчислява, че за страни, които използват латинската азбука, кодирана с нова универсална електронна таблица, текстът ще заема четири пъти повече място, отколкото използването на разширената ASCII таблица.

Unicode развитие

Следната таблица със знаци UTF-16 Unicode разреши този проблем. Кодирането в него се извършваше наполовина на битовете, но в същото време броят на възможните комбинации също намаляваше. Вместо милиарди символи, тя ви позволява да спестите само 65 536. Въпреки това, тя се оказа толкова успешна, че този номер, според решението на Консорциума, е дефиниран като база за съхранение на знаци Unicode. Въпреки този успех, UTF-16 не отговаряше на всички, тъй като количеството съхранена и предавана информация все още беше претоварено два пъти. Универсалното решение е UTF-8 Unicode таблица със знаци с променлива дължина на запис. Това може да се нарече пробив в тази област.

По този начин, с въвеждането на последните два стандарта, таблицата със знаци на Unicode реши проблема с едно кодово пространство за всички прилагани в момента шрифтове.

Unicode за руския език

БлагодаряДължината на променливия код, използвана за показване на символи, латиницата е кодирана във формат Unicode, точно както в неговия ASCII, т.е. един бит. За други азбуки картината може да изглежда различно. Например, символите на грузинската азбука се използват за кодиране на три байта, а символите на кирилицата са две. Всичко това е възможно в Unicode стандарта UTF-8 (Карта на символи). Руският език или кирилицата заема 448 позиции в общото кодово пространство, разделено на пет блока.

Тези пет блока включват главните кирилица и църковнославянски азбуки, както и допълнителни букви от други езици, които използват кирилица. Няколко позиции са подчертани, за да се покажат стари форми на представяне на буквите на кирилицата, а 22 позиции от общата сума остават свободни.

Текуща версия на Unicode

С решението на неговата приоритетна задача, която е да се стандартизират шрифтовете и да се създаде едно кодово пространство за тях, "Консорциумът" не спира работата си. Unicode непрекъснато се развива и попълва. Последната актуална версия на този стандарт 9.0 е издадена през 2016 г. Той включваше шест допълнителни азбуки и разширен списък със стандартизирани емотикони.
Следва да се отбележи, че за опростяване на изследванията в Unicode се добавят дори така наречените мъртви езици. Те имат такова име, защото хората, за които е роднина, не съществуват. Тази група включва и езиците, които са оцелели до нашето време само под формата на писмени паметници. впринцип, се прилагат за добавяне на символи към новата спецификация Unicode може всеки. Вярно е, че за това ще трябва да попълните приличен размер на източника документи и прекарват много време. Жив пример за това може да бъде историята на програмиста Теренс Еден. През 2013 г. кандидатства за включване в спецификацията на символите, които се отнасят до бутоните за управление на захранването на компютъра. В техническата документация те са използвани от средата на 70-те години на миналия век, но преди спецификацията 9.0 не е част от Unicode.

Таблица на знаците

На всеки компютър, независимо от използваната операционна система, таблицата със знаци на Unicode. Как да използвате тези електронни таблици, къде да ги намерите и какво могат да направят за обикновен потребител?

В Windows, таблицата със символи се намира в секцията "Услуги". В семейството на операционните системи Linux обикновено може да се намери в секцията "Стандарт", а в MacOS - в настройките на клавиатурата. Основната цел на тази таблица е да въвеждате символи в текстовите документи, които не се намират на клавиатурата. Заявлението за такива таблици може да се счита за широко: от въвеждането на технически символи и икони на националните парични системи до написването на наръчник за практическото приложение на картите Таро.

В заключение

Unicode се използва навсякъде и влиза в живота ни заедно с развитието на интернет и мобилните технологии. Благодарение на неговото използване, системата от международни комуникации значително е опростена. Можете да кажете товавъвеждането на Unicode е показателен, но напълно невидим пример за използването на технологиите за общото благо на цялото човечество.