Паспорт Украины: Иванов Иван Иванович, серия 1234 номер 123456.

Унифицированные идентификаторы ресурсов

В Web для идентификации элементов используются «Унифицированные идентификаторы ресурсов», или сокращенно URI (Uniform Resource Identifier). На английский манер произносится как [ю-ар-а́й], по-русски чаще говорят [у́ри]. URI — это последовательность символов, идентифицирующая абстрактный или физический ресурс. Ранее назывался Universal Resource Identifier — универсальный идентификатор ресурса.

URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI. URI однозначно называет некоторый объект. Отдельные URI создают не только для страниц, но и для объектов реального мира (людей, городов, художественных произведений и так далее), и даже для абстрактных понятий (например, «имя», «должность», «цвет»). URI можно присвоить чему угодно, и если эта сущность имеет URI, то о ней можно говорить, что она находится «в Web». Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию о одном предмете из разных мест.

Стандартизацию URI определяет документ, доступный по следующей ссылке: http://www.ietf.org/rfc/rfc3305. Отметим, что данная ссылка также является URI. В соответствии с данным документом, в современном интернете используется две разновидности URI – URL и URN. Основное различие между ними состоит в их задачах:

URL – Uniform Resource Locator, помогает найти какой-либо ресурс.

URN – Uniform Resource Name, помогает этот ресурс идентифицировать.

Таким образом, URL и URI – частные случаи URI.

Синтаксис URI

Синтаксис, используемый при стандартизации URI, определяется так называемым документом RFC3986, доступным по ссылке http://www.ietf.org/rfc/rfc3986. Согласно пункту 2 данного документа, URI строится из ограниченного набора символов, состоящих из цифр, букв и нескольких графических символов. Все эти символы вписываются в кодировку US-ASCII (ASCII). Зарезервированное подмножество символов может использоваться для разграничения компонентов URI, в то время как оставшиеся символы (незарезервированный набор и те зарезервированные символы, которые не действуют как разделители в данном компоненте URI) используются для идентификации каждого компонента.

Зарезервированные символы. Зарезервированные символы делятся на два типа:

1) главные разделители (gen-delims) – символы, разделяющие URI на крупные компоненты:

[

]

2) подразделители (sub-delims) – символы, которые разделяют текущую крупную компоненту, на более мелкие составляющие. Для каждой компоненты URI используются свои подразделители. К наиболее распространенным относятся:

(

)

;

Незарезервированные символы. К ним относятся символы, не входящие в группу gen-delims, а также символы из группы sub-delims, незначимые для данной компоненты URI. В общем случае это следующие символы:

ALPHA

DIGIT

–

Здесь ALPHA – любая латинская буква в верхнем или нижнем регистре кодировки ASCII, DIGIT – любая цифра арабская.

Процентное кодирование. В случае, если используются символы выходящие за пределы кодировки ASCII, используется механизм т.н. «процентного кодирования». Он также применяется для передачи зарезервированных символов в составе данных. Зарезервированные символы, по правилам, не участвуют в процентном кодировании.

Процентно-кодированный (pct-encoded) символ представляет из себя символьный триплет, состоящий из знака "%" и следующих за ним двух шестнадцатиричных чисел:

pct-encoded = "%" HEXDIG HEXDIG

Здесь HEXDIG – любая цифра шестнадцатеричной системы счисления (0-9, A-F). Например, pct-encoded символ %20 эквивалентен шестнадцатеричному числу 20₁₆=32₁₀. Как известно, в большинстве символьных кодировок коду 32₁₀ соответствует символ пробела.

Компоненты URI

URI строится по определенным правилам и графически может быть представлен в виде следующей схемы:

URI состоит из обязательных и необязательных элементов. Обязательными элементами являются схема и иерархическая часть, необязательными – запрос (ему предшествует знак "?") и фрагмент (ему предшествует знак "#"). Рассмотрим данные элементы.

1. Scheme (схема).

Каждый URI начинается с имени схемы, которое определяет правила описания последующих элементов URI. Поскольку синтаксис URI –расширяемая система именования, спецификация каждой схемы может ограничить синтаксис и семантику идентификаторов, использующих эту схему.

Название схемы обязательно начинается с буквы и далее может быть продолжено любым количеством разрешенных символов. Разрешенные символы для схемы:

ALPHA

DIGIT

–

Примерами схемы являются: http, ftp, file, ldap, mailto, urn.

2. Иерархическая часть.

Включает данные авторизации (Authority) и путь (path).

Authority (данные авторизации).

Компонента authority начинается с двойного прямого слеша (//) и может заканчиваться одинарным прямым слешем (/), знаком вопроса (?), решеткой (#), либо ничем (в этом случае URI заканчивается).

Структура поля Authority имеет следующия вид:

[userinfo "@"] host [":" port]

Здесь в квадратных скобках указаны опциональные (необязательные) компоненты, которые будут детально рассмотрены позже.

Путь (Path). Компонента пути содержит данные, обычно организованные в иерархической форме, которые, вместе с данными в неиерархическом компоненте запроса (Query), служат для идентификации ресурса в рамках схемы URI и authority (если таковая компонента указана).

Путь начинается с прямого слеша (/) и заканчивается знаком вопроса (?), решеткой (#) или концом URI. Разрешенные символы для пути:

незарезервированные

процентно-кодированные

sub-delims

3. Запрос (Query).

Компонента запроса содержит иерархически организованные данные, организованные в неиерархической форме, которые, совместно компонентой «Path», служат для идентификации ресурса в рамках элементов «схема» и «Authority» (если таковой указан).

Запрос начинается с первого знака вопроса (?) и заканчивается решеткой (#) или концом URI.

Разрешенные символы для запроса:

незарезервированные

процентно-кодированные

sub-delims

В запросе чаще всего передаются данные в формате key=value (ключ=значение). При этом значение рекомендуется передавать в процентно-кодированном виде. Это обусловлено тем, что в значении может встретиться символ "&", который используется для разделения пар «ключ=значение», в результате чего дальнейшая последовательность пар «ключ=значение» может быть нарушена.

4. Фрагмент (Fragment).

Данная компонента позволяет осуществить косвенную идентификацию вторичного ресурса по отношению к первому.

Семантика фрагмента никак не ограничена. Фрагмент начинается решеткой (#), заканчивается концом URI и может состоять из абсолютно любого набора символов.

В качестве примера применения фрагментов рассмотрим оглавление некоторой статьи. Оно состоит из относительных ссылок

<a href="#someanchor"></a>,

а по статье, в определенных местах, раскиданы т.н. «якоря» – теги

<anchor>someanchor</anchor>.

Переходя по указанной в оглавлении ссылке, браузер производит переход ко вторичному ресурсу относительно данной страницы, т.е. скроллит вниз, до появления нужного <anchor> на экране.

Следующий рисунок иллюстрирует рассмотренную структуру URI:

Uniform Resource Locator (URL)

URL (Uniform Resource Locator) указывает путь (локацию) объекта и метод получения доступа к нему. Например,

http://en.wikipedia.org/wiki/Main_Page

указывает на главную страницу английской Википедии и в качестве метода доступа предлагает использовать протокол http.

Стандарт URL изложен в документе RFC 1738, доступном по ссылке http://www.ietf.org/rfc/rfc1738. В этом документе указаны описаны различные схемы для протоколов ftp, http, nntp и т.д. Послкольку URL – это частный случай URI, его схема в общем случае выглядит так же, однако для разных протоколов актуальны те или иные ее части. Например, для протокола telnet, схема URL выглядит следующим образом:

telnet://<user>:<password>@<host>:<port>/

Uniform Resource Name (URN)

Унифицированные имена ресурсов (URN) предназначены, чтобы служить постоянными, независимыми от расположения, идентификаторами ресурсов и разработаны для упрощения отображения других пространств имен (которые совместно используют свойства URN) в URN-пространство. Таким образом, синтаксис URN позволяет закодировать символьные данные в форме, которая может быть отправлена посредством существующих протоколов, записана при помощи большинства клавиатур, и т.д. В отличие от URL, который ссылается на какое-то место, где хранится документ, URN ссылается на сам документ, и при перемещении документа в другое место ссылка не изменится.

URN определяется стандартом RFC 1737, доступным по ссылке http://www.ietf.org/rfc/rfc1737, и включает в себя идентификатор (название) пространства имен и имя в этом пространстве. URN состоит из NID (Namespace Identifier, идентификатор пространства имен) и NSS (Namespace-Specific String – имя, уникальное для данного пространства имен). Типичный пример URN – это имя книги в стандарте ISDN. Схематично это выглядит следующим образом:

Таким образом, формально структура URN имеет следующий вид:

"urn:" <NID> ":" <NSS>

«urn:» – схема (обязательная, регистронезависимая часть, с которой начинаются все URN).

NID – Namespace Identifier, идентификатор пространства имен. Данная компонента определяет синтаксическую интерпретацию компоненты NSS. Минимальная длина – 2 символа, максимальная – 32, разрешенные символы: латинские буквы, цифры, символ "-". NID должен начинаться только с буквы или цифры. Отметим, что слово «urn» для NID является зарезервированным, дабы избежать неоднозначности при определении URN в целом.

NSS – Namespace Specific String. Данная компонента служит непосредственно для передачи каких-либо данных.

Типичным примером URN является описание книги в формате ISBN. Схематично это выглядит следующим образом:

URN могут использоваться для описания различных объектов. Рассмотрим пример описания некоторого человека. URN в данном случае будет выглядеть следующим образом:

паспорт Украины: Иванов Иван Иванович, серия 1234 номер 123456.

Здесь «паспорт Украины» – название идентификатора пространства имен, а «Иванов Иван Иванович, серия 1234 номер 123456» – это уникальное имя в этом пространстве.

С помощью данного URN мы однозначно идентифицируем человека, но не сможем определить его местоположение. Здесь нам поможет URL. Выглядеть это может примерно так:

<12 3 4 5 6 7 >

Дата добавления: 2015-12-08; просмотров: 1475;