Проблеми, пов’язані з кодуванням тексту кирилиці.

Кодування використовує таблицю символів, де кожній літері алфавіту (а також цифрам та спеціальним знакам) призначений код символу. Стандартизована тільки половина таблиці - перші 128 символів (ASCII-код), що містить літери латинського алфавіту. З ними ніколи не буває проблем. Друга ж половина таблиці віддана під національні символи, і в кожній країні ця частина інша. Але кирилиці придумали 5 різних кодувань. Термін “різні” означає те, що одному і тому ж символу відповідає різний цифровий код. Тобто, якщо неправильно визначено кодування, то текст стане абсолютно нечитабельним.

Ось історія кирилиці. Першим кодуванням кирилиці,що широко використовується і сьогодні, називається KOI-8. Його придумали для адаптування до російської мови системи UNIX. Це було в 70-х роках - ще до появи персоналок. І до сих пір в UNIX воно вважається основним кодуванням.

Потім з’явились перші персональні комп’ютери і почалось широке використання DOS. Замість того, щоби скористатись вже придуманим кодуванням, Microsoft вирішила розробити своє. Так з’явилось DOS-кодування (або кодова сторінка 866). В ньому були також введені спецсимволи псевдографіки для рисування рамок, що широко використовуються в програмах, написаних під DOS.

Паралельно з IBM-сумісними розвивались і Macintosh-комп’ютери. Незважаючи на те, що вони використовуються не настільки широко, потреба в кирилізації існувала, і, звичайно, було придумане ще одне кодування - MAC.

Час йшов, і в 1990 році Microsoft представила першу успішну версію Windows 3.0-3.11. А разом з нею і підтримку національних мов. І знову був повторений фокус, як і з DOS. З незрозумілих причин вони не підтримали жодного кодування, що вже існували (як це було зроблено в OS/2, де за стандарт прийнято DOS-кодування), а запропонували нове Win-кодування (кодова сторінка 1251). На сьогодні це найпоширеніше кодування.

І, нарешті, п’ятий варіант кодування пов'язаний вже не з конкретною фірмою, а із спробами стандартизації кодування на рівні всієї планети. Цим займалась ISO - міжнародна організація по стандартах. І замість того, щоби використати одне із вже існуючих кодувань, вони придумали ще одне і назвали його ISO-8859-5. Зрозуміло, воно також виявилось ні з чим не сумісним. І в даний час воно майже ніде не застосовується. Тим не менше, його підтримка присутня в усіх браузерах.

Зараз йде робота над створенням та впровадженням нового універсального кодування Unicode, в якому пропонується в одну кодову таблицю звести усі мови світу. Тоді, мабуть, проблем не буде. Для цього на кожний символ відвели 2 байти. Таким чином, максимальна кількість знаків в таблиці розширилась до 65536. Але до того моменту, коли всі перейдуть на Unicode, пройде ще дуже багато часу. Отже, при створенні російсько- або украінсько-мовного тексту для мультимедійної аплікації обов’язково потрібно врахувати особливості використання різних кодувань.








Дата добавления: 2014-12-08; просмотров: 1074;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.004 сек.