Как измеряется количество информации?

Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод:

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.

Подходы к определению количества информации. Формулы Хартли и Шеннона. Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log₂N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log₂100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";
на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p₁log₂ p₁ + p₂ log₂ p₂ + . . . + p_N log₂ p_N), где p_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p₁, ..., p_N равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.). В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2⁸).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 2¹⁰ байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 2²⁰ байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 2³⁰ байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

При этом важно отличать двоичные кратные приставки от соответствующих десятичных:

"один К" – 1 К=2¹⁰=1024 от "один кило" – 10³=1000,

"один М" – 1 М=2²⁰=1048576 от "один мега" – 10⁶=1000000 и т.д.

Этим часто злоупотребляют производители компьютерной техники, в частности, производители жестких магнитных дисков, которые при указании их информативной емкости используют меньшую единицу измерения с тем, чтобы результирующее значение выражалось бóльшим числом (как в известном мультфильме – "А в попугаях-то я длиннее!").

Очевидно, что универсального способа измерения количества информации без учета аспекта такого измерения не существует (например, сколько содержится информации в тексте литературного, музыкального, скульптурного или художественного произведения – однозначного ответа получить нельзя).

Однако, важнейшим результатом теории информации является вывод: в определенных условиях можно пренебречь качественными особенностями информации и выразить ее количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

Обработка является одной из основных операций, выполняемых над информацией, и главным средством увеличения объема и разнообразия информации. Средства обработки информации – это всевозможные устройства и системы, созданные человеком. В первую очередь, это компьютер – универсальная машина, обрабатывающая информацию путем выполнения определенных алгоритмов.

Понятие "алгоритм" так же, как и понятие "информация" относится к фундаментальным неопределяемым понятиям информатики, а также математики. Свое происхождение термин "алгоритм" берет от имени узбекского ученого, жившего в XII веке в Ташкенте – Абу Мухаммед ибн Муса аль-Маджус аль-Хорезми, который разработал правила письменных арифметических вычислений для чисел, записанных в позиционной десятичной системе счисления. В процессе перевода его научного труда на латинский язык имя автора было усечено до последней компоненты и трансформировано (в силу фонетических особенностей латиницы) в слово "Algorithmi", которым долгое время обозначались изобретенные им методы вычислений.

В наши дни этот термин имеет другое смысловое наполнение:

Алгоритм – это определенная последовательность инструкций (предписаний), доступные для понимания исполнителем и предназначенные для достижения им указанной цели или решения поставленной задачи.

Исполнитель алгоритма – это некоторая абстрактная или реальная (техническая, биологическая или биотехническая) система, способная выполнить действия, предписываемые алгоритмом.

В качестве исполнителя алгоритма могут выступать: человек, животное и автоматическое устройство. В информатике универсальным исполнителем алгоритмов является компьютер.

Исполнителя характеризуют:

· среда (или обстановка) – "место обитания" исполнителя;

· система команд – каждый исполнитель может выполнять команды только из некоторого строго заданного списка. Для каждой команды должны быть заданы условия применимости (в каких состояниях среды может быть выполнена команда) и описаны результаты выполнения команды;

· элементарные действия – то, что исполнитель совершает после вызова соответствующей команды;

· отказы – возникают, если команда вызывается при недопустимом для нее состоянии среды.

Обычно исполнитель ничего не знает о цели алгоритма. Он выполняет все полученные команды, не задавая вопросов "почему" и "зачем".

Изучение алгоритмов является спецификой науки о вычислениях. В последнее время здесь были достигнуты значительные успехи. К числу основных проблем, изучаемых этой наукой можно отнести следующие: поиск новых и улучшение существующих алгоритмов; математическое исследование эффективности алгоритмов; разработка математических методов доказательства того, что данный алгоритм является "наилучшими из возможных"; согласование положений теории вычислений с практическими соображениями.

К числу основных свойств алгоритма относятся следующие:

· Понятность (доступность) – алгоритм должен учитывать специфику исполнителя и, при необходимости, ему должны предоставляться дополнительные сведения;

· Дискретность (раздельность) – выполнение каждого очередного шага алгоритма должно начинаться только после полного завершения предыдущего шага;

· Детерминированность (определенность) – выполнение алгоритма исполнителем носит механический характер, т.е. выбор каждого очередного шага алгоритма зависит не от предпочтений исполнителя, а от результатов, достигнутых им на предыдущем шаге;

· Результативность (конечность) – либо решение задачи достигается за конечное, хотя бы и большое, число шагов, либо делается вывод о невозможности продолжения выполнения алгоритма по той или иной причине (есть алгоритмы, не обладающие этим свойством – например, вычисление иррационального числа p);

· Массовость – если алгоритм позволяет решить некоторую задачу, то он же должен быть применим для целого класса подобных задач, различающихся лишь наборами исходных данных, образующих область применимости алгоритма (есть алгоритмы, не обладающие этим свойством, т.к. порой невозможно организовать еще один набор исходных данных либо в силу их уникальности, либо в связи со значительными затратами времени, финансов или материальных ресурсов).

На практике используются следующие формы представления алгоритмов:

· Словесная запись (не формализованная запись алгоритма на естественном языке, например, рецепт приготовления манной каши);

· Блок-схема (наиболее наглядная графическая форма представления алгоритмов, используемая профессионалами особенно в тех случаях, когда алгоритм обладает изощренной логикой исполнения);

· Псевдокоды (язык программирования для бедных, когда нет возможности преподавать основы алгоритмизации с использованием ЭВМ – полуформализованные описания алгоритмов, включающий в себя как элементы "птичьего" языка программирования);

Компьютерная программа (жестко формализованная запись алгоритма, ориентированная на исполнителя – ЭВМ). Для разработки компьютерных программ используются инструментальные средства, называемые языками программирования

<1 234 5 6 7 >

Дата добавления: 2015-08-08; просмотров: 1138;