Автор формулы вычисления количества информации. Подходы к измерению информации

30.01.2019

Информация и информационные процессы (4 час) – 8 класс

  1. Информация. Информационные объекты различных видов. Основные информационные процессы: хранение, передача и обработка информации. Роль информации в жизни людей.
  2. Восприятие, запоминание и преобразование сигналов живыми организмами.
  3. Понятие количества информации: различные подходы. Единицы измерения количества информации.
  4. Обобщающий урок по теме, самостоятельная работа.

Урок.

Цели:
  • образовательные – дать понятие количества информации, познакомить с вероятностным и алфавитным подходом при определении количества информации, познакомить с единицами измерения информации, формировать практические навыки по определению количества информации.
  • развивающие – продолжить формирование научного мировоззрения, расширять словарный запас по теме «Информация»
  • воспитательные – формировать интерес к предмету, воспитывать настойчивость в преодолении трудностей в учебной работе.

1. Организационный этап (приветствие, определение отсутствующих на уроке)

2. Проверка домашнего задания, активизация знаний

по теме «Информация», полученных на предыдущих 2 уроках. С целью формирования речи, закрепления основополагающих понятий данной темы проверка домашнего задания проводится в виде фронтального устного опроса по следующим вопросам:

  1. Что вы понимаете под информацией? Приведите примеры. Предполагаемые ответы: обычно учащиеся легко приводят примеры информации, которые они получают сами в окружающем мире – новости, школьный звонок, новые знания на уроках, сведения, полученные при чтении научно-популярной литературы, опыт и эмоции, полученные при чтении художественной литературы, эмоциональные переживания, полученные от прослушивания музыки, эстетические каноны, сведения о костюме и быте 18 века, эмоции, полученные при просмотре картин художников 18 века. Желательно, чтобы учащиеся приводили примеры информации и в технических, и в биологических системах и др. (форма бородки ключа содержит информацию о замке, определенная температура воздуха в помещении – информация для системы пожаротушения, в биологической клетке содержится информация о биологическом объекте, частью которого она является…)
  2. Мы знаем, что две другие важные сущности мира вещество и энергия существовали до живых организмов на Земле. Существовала ли информация и информационные процессы до появления человека? Предполагаемый ответ – да, существовала. Например, информация, содержащаяся в клетке растения о виде растения, об условиях прорастания, размножения и пр. позволяет растению расти и размножаться без вмешательства человека; информация, накопленная поколениями хищных животных, формирует условные и безусловные рефлексы поведения следующих поколений хищников.
  3. Вещество – то, из чего все состоит, энергия – то, что все приводит в движение. Верно ли суждение, что информация управляет миром. Обоснуйте свой ответ. Ответ: информация действительно управляет миром. Сигнал с Земли спутнику заставляет изменить траекторию его движения; если мы на пути видим лужу, то информация о ее виде, о том, что она мокрая и грязная, заставляет нас принять решение обойти лужу. Характерный жест человека (вытянутая вперед рука с вертикально расположенной ладонью) заставляет нас остановиться, информация на бородке ключа и форма щели замка позволяет принять решение о выборе ключа из связки, сформированные поколениями определенного вида птиц рефлексы управляют миграционными процессами. Читая художественную литературу, мы впитываем жизненный опыт героев, который влияет на принятие определенных решений в нашей собственной жизни; слушая определенную музыку, мы формируем соответствующий вкус, влияющий на наше поведение, окружение и пр.
  4. Назовите виды информации по форме представления, приведите примеры. Ответ: числовая (цена на товар, числа в календаре), текстовая (книга, написанная на любом языке, текст учебников), графическая (картина, фотография, знак СТОП), звуковая (музыка, речь), видео (анимация + звук), командная (перезагрузить компьютер - нажатие клавиш Ctrl+Alt+Delete/Enter).
  5. Какие действия можно производить с информацией? Ответ: ее можно обрабатывать, передавать, хранить и кодировать (представлять).
  6. Назовите способы восприятия информации человеком. Ответ: человек воспринимает информацию с помощью 5 органов чувств - зрение (в форме зрительных образов), слух (звуки – речь, музыка, шум…), обоняние (запах с помощью рецепторов носа), вкус (рецепторы языка различают кислое, горькое, соленое, холодное), осязание (температура объектов, тип поверхности…)
  7. Приведите примеры знаковых систем. Ответ: естественный язык, формальный язык (десятичная система счисления, ноты, дорожные знаки, азбука Морзе), генетический алфавит, двоичная знаковая система.
  8. Почему в компьютере используется двоичная знаковая система для кодирования информации? Ответ: двоичная знаковая система используется в компьютере, так как существующие технические устройства могут надежно сохранять и распознавать только два различных состояния (знака).

3. Вероятностный подход к измерению количества информации (см. мультимедийную презентацию).

Сегодня мы с вами поговорим об измерении информации, т. е. об определении ее количества. (Учащиеся записывают тему урока в тетрадь – «Количество информации» ). Как вы думаете, какая из книг содержит большее количество информации (показать тонкую и толстую)? Как правило, учащиеся выбирают толстую, так как в ней больше записано слов, текста, букв (некоторые ребята задают вопрос о том, какого типа информация содержится в книге – графическая или текстовая? Следует уточнить, что в книге содержится только текстовая информация). Какое сообщение несет для вас больше информации «завтра учимся по обычному расписанию» или «завтра вместо литературы будет химия»? Учащиеся интуитивно ответят, что второе, потому что, несмотря на почти одинаковое количество слов, во втором сообщении содержится более важная, новая или актуальная для них информация. А первое сообщение вообще не несет никакой новой информации. Вы заметили, что посмотрели на информацию с точки зрения количества символов, в ней содержащихся, и с точки зрения ее смысловой важности для вас? Существует 2 подхода при определении количества информации – смысловой и технический (алфавитный). Смысловой применяется для измерения информации, используемой человеком, а технический (или алфавитный) – компьютером.

Для человека получение новой информации приводит к расширению знаний, или к уменьшению неопределенности. Например, сообщение о том, что завтра среда, не приводит к уменьшению неопределенности, поэтому оно не содержит информацию. Пусть у нас имеется монета, которую мы бросаем на ровную поверхность. Мы знаем до броска, что может произойти одно из двух событий – монета окажется в одном из двух положений: «орел» или «решка». После броска наступает полная определенность (визуально получаем информацию о том, что выпал, например, «орел»). Информационное сообщение о том, что выпал «орел» уменьшает нашу неопределенность в 2 раза, так как получено одно из двух информационных сообщений.

В окружающей действительности достаточно часто встречаются ситуации, когда может произойти больше, чем 2 равновероятных события. Так, при бросании шестигранного игрального кубика – 6 равновероятных событий. Событие выпадение одной из граней кубика уменьшает неопределенность в 6 раз. Чем больше начальное число событий, тем больше неопределенность нашего знания, тем больше мы получим информации при получении информационного сообщения.

Количество информации можно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений. (Выделенное курсивом учащиеся записывают в тетрадь).

Существует формула, которая связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение:

N=2 I (N – количество возможных информационных сообщений, I – количество информации, которое несет полученное сообщение).

Для количественного выражения любой величины необходимо определить единицу измерения. Например, для измерения длины выбран определенный эталон метр, массы – килограмм.

4. Единицы измерения информации

За единицу измерения количества информации принимается такое количество информации, которое содержится в сообщении, уменьшающем неопределенность знания в 2 раза. Такая единица называется битом.

Вернемся к рассмотренному выше получению информационного сообщения о том, что выпал «орел» при бросании монеты. Здесь неопределенность уменьшилась в 2 раза, следовательно, это сообщение равно 1 биту. Сообщение о том, что выпала определенная грань игрального кубика, уменьшает неопределенность в 6 раз, следовательно, это сообщение равно 6 битам.

Минимальной единицей измерения количества информации является бит, а следующей по величине единицей – байт, причем

1 байт = 8 битов

В международной системе СИ используют десятичные приставки «Кило» (10 3), «Мега» (10 6), «Гига» (10 9),… В компьютере информация кодируется с помощью двоичной знаковой системы, поэтому в кратных единицах измерения количества информации используется коэффициент 2 n .

1 килобайт (Кбайт) = 2 10 байт = 1024 байт
1 мегабайт (Мбайт) = 2 10 Кбайт = 1024 Кбайт
1 гигабайт (Гбайт) = 2 10 Мбайт = 1024 Мбайт
1 терабайт (Тбайт) = 2 10 Гбайт = 1024 Гбайт

Терабайт – очень крупная единица измерения информации, поэтому применяется крайне редко. Всю информацию, которое накопило человечество, оценивают в десятки терабайт.

5. Определение количества информации

Задача 1. Определите количество экзаменационных билетов, если зрительное сообщение о номере одного вытянутого билета несет 5 битов информации. Количество билетов – это количество информационных сообщений. N=2 I = 2 5 = 32 билета.

Задача 2. Какое количество информации несет сообщение об оценке за контрольную работу? Вы можете получить за контрольную 2, 3, 4 или 5. Всего 4 сообщения (N=4). Формула принимает вид уравнения - 4=2 I = 2 2 , I=2.

Задания для самостоятельного выполнения: (формула всегда должна быть перед глазами, можно также вывесить таблицу со степенями 2) (3 мин.)

  1. Какое количество информации мы получаем в зрительном сообщении о падении симметричной восьмигранной пирамиды на одну из граней? Ответ: 3 бита, потому что количество возможных событий (сообщений) N=8, 8=2 I = 2 3 , I=3.
  2. Из непрозрачного мешочка вынимают шарики с номерами и известно, что информационное сообщение о номере шарика несет 5 битов информации. Определите количество шариков в мешочке. Ответ: в мешочке 32 шарика, т. к. N=2 I = 2 5 = 32.
  3. Какое количество информации при игре в крестики-нолики на поле размером 4 Х 4 клетки получит второй игрок после первого хода первого игрока. Ответ: Количество событий до начала игры N=16, 16=2 I = 2 4 , I=4. Второй игрок после первого хода первого игрока получит 4 бита информации.

6. Алфавитный подход к определению количества информации

Суть технического или алфавитного подхода к измерению информации определяется по количеству использованных для ее представления знаков некоторого алфавита. Например, если при представлении числа XVIII использовано 5 знаков римского алфавита, то это и есть количество информации. То же самое число, т. е. ту же самую информацию, можно записать в десятичной системе (18). Как видим, получается 2 знака, т. е. другое значение количества информации. Для того, чтобы при измерении одной и той же информации получалось одно и то же значение количества информации, необходимо договориться об использовании определенного алфавита. Так как в технических системах применяется двоичный алфавит, то его же используют для измерения количества информации. Количество знаков в алфавите N=2, N=2 I , I – количество информации, которое несет один знак. 2 2 = 2 1 , I=1бит. Интересно, что сама единица измерения количества информации «бит» (bit) получила свое название от английского словосочетания «BI nary digiT » - «двоичная цифра».

Чем большее количество знаков в алфавите, тем большее количество информации несет 1 знак алфавита.

Определите самостоятельно количество информации, которое несет 1 буква русского алфавита.

Ответ: буква русского алфавита несет 5 битов информации (при алфавитном подходе к измерению информации).

Какое количество информации содержится в одном символе 8 разрядного двоичного кода (символ А – 11000000)? Ответ: 8 битов или 1 байт.

Практическая работа (раздаточный материал – инструкционная карта для выполнения практической работы) по определению количества информации с помощью калькулятора:

  1. Определите информационный объем следующего сообщения в байтах (сообщение напечатано на карточке, карточки на каждой парте):

Количество информации, которое несет в себе знак, зависит от вероятности его получения. В русской письменной речи частота использования букв в тексте различна, так в среднем на 1000 знаков осмысленного текста приходится 200 букв «а» и в сто раз меньше количество букв «ф» (всего 2). Таким образом, с точки зрения теории информации, информационная емкость знаков русского алфавита различна (у буквы «а» она наименьшая, а у буквы «ф» - наибольшая).

Определяем количество символов (количество символов в строке*количество строк) – 460 символов = 460 байт

Введите и сохраните этот текст на рабочем столе с помощью программы Блокнот. Определите информационный объем этого файла с помощью компьютера (Выделите объект àПКМ à Свойства) Ответ: 460 байт.

Можно записать этот текст в виде звукового файла 1.wav и сравнить с текстовым (Пуск à программы à стандартные à развлечения à звукозапись…). Определить его информационный объем с помощью компьютера – 5,28 Мб (5 537 254 байта). Объяснить учащимся, что это отличие вызвано различием в представлении звуковой и текстовой информации. Особенности такого представления будут рассмотрены позже.

2. Определите какое количество учебников поместится на диске, информационный объем которого 700 Мб. Ответ: 1. определить количество символов в учебнике (количество символов в строке*количество строк на странице * количество страниц) 60 * 30 *203 = 365400 символов = 365400 байт = 365400/1024/1024 Мб= 0,35 Мб. Количество учебников К=700/0,35= 2000 учебников.

7. Подведение итогов урока в форме фронтального опроса:

  1. Какие существуют подходы к определению количества информации? Ответ: существует 2 подхода к измерению количества информации – смысловой и технический или алфавитный.
  2. В чем состоит отличие одного подхода от другого? Ответ: при смысловом подходе количество информации – мера уменьшения неопределенности знания при получении информационного сообщения, при алфавитном – количество знаков в сообщении * количество информации, которое несет 1 знак алфавита.
  3. Назовите единицы измерения информации от самых маленьких до самых больших. Ответ: бит, байт, Кб, Мб, Гб, Тб.
  4. На какую величину отличается байт от Кб, Кб от Мб, Мб от Гб? Ответ: 1024 (2 10).
  5. Сколько битов содержится в 1 байте? Ответ: 8.
  6. Что такое бит при смысловом и алфавитном подходе к определению количества информации? Ответ: при смысловом подходе бит – уменьшение неопределенности знания в 2 раза при получении информационного сообщения; при алфавитном подходе бит – информационная емкость одного знака при двоичном кодировании.

8. Домашнее задание

  1. Параграфы 1.3.1 и 1.1.3 (Н. Угринович «Информатика. Базовый курс. 8 класс») 2 вопроса на стр. 29 (1. Приведите примеры информационных сообщений, которые приводят к уменьшению неопределенности знания. 2. Приведите примеры информационных сообщений, которые несут 1 бит информации).
  2. Задачи: 1. Какое количество информации содержит сообщение об оценке за контрольную работу? 2. Вычислите, какое количество информации в битах содержится в 1 Кб, 1 Мб? 3. Рассчитайте, какое количество книг (дома возьмите любую художественную книгу) поместится на дискете, объемом 1,44 Мб.

Понятие «количество информации» сформулировано в работах американских учёных Хартли и (особенно) Шеннона. Оно является центральным в «классической» теории информации, основная проблема которой – изучение передачи информации по каналам связи, хранения её, кодирования и декодирования, борьбы с шумами и помехами. Отметим – безотносительно к смыслу (семантике) передаваемых сообщений. В настоящее время развиваются и другие разделы теории информации – динамическая теория информации, семантическая теория информации, теория квантовой информации. Но в их основе находится теория информации Шеннона и её методы измерения количества информации. Мы рассмотрим основные формулы, относящиеся к передаче информации в дискретном (цифровом, алфавитном) виде. Сейчас – это основной метод работы с информацией. Да и формулы проще, чем в «непрерывной» теории.

По К. Шеннону количество информации I N в сообщении, содержащем N символов определяется по формуле:

I N = -N pi log 2 pi (1)

M - число букв (символов) в используемом алфавите;

pi - частота (статистическая вероятность) появления i-той буквы в языке сообщения;

минус – чтобы величина I N была неотрицательной.

Двоичные логарифмы используются в теории информации исходя из естественного требования, чтобы в минимальном сообщении содержалось количество информации, равное 1. Минимальный алфавит состоит из двух символов, например 0 и 1 (меньше нельзя): M=2, минимальное сообщение – из одного символа N=1, частоты символов равны: Pi=.

Подставив эти значения в формулу (1) действительно получим 1:

I 2 = -1((-1) + (-1)) = 1.

Это минимальное количество информации I=1, получило название «бит» (от английских слов binary digit – двоичный знак). Если в (1) использовать натуральные логарифмы, то единица информации называется «нат» . Между битами и натами существуют соотношения:

1 бит = 1.44 ната; 1нат= 0.69 бита;

Поскольку в компьютере, калькуляторе содержится стандартная функция для вычисления натуральных логарифмов, то в практическом плане удобнее сначала вычислить количество информации в натах, а затем перевести в биты, умножив на 1.44.

Рассмотрим иную ситуацию – выбор варианта (напомним, что в системном анализе варианты называются альтернативами).

Если делаем выбор одного из n возможных вариантов (с известными вероятностями этих вариантов pi, i= 1;2;…n) то количество информации, то количество информации определяется по формуле:

I = -pi log 2 pi (2)

Если все варианты равновероятны:

N pi =1; pi=1/n;

И тогда формула (2) принимает вид:

I = log 2 n (3).

Это – исторически первая формула теории вероятностей, формула Хартли.

В частном случае бинарного алфавита (M=2; 0 и 1) число вариантов равно 2 N ; pi = E - N ; log 2 pi = -N; I=N; (4)

Это совпадает с (1) при бинарном равновероятном алфавите и N символах в сообщении.

Формулы (1) и (2) отражают количество информации, но не ее ценность. Количество информации в сообщении, определяемое формулой Шеннона, не зависит от сочетания букв: переставив (случайным образом или кодированием) буквы мы можем делать сообщение бессмысленным. Количество информации по Шеннону сохранится, а ценность информации может исчезнуть.

Эта информация (по Шеннону) полезна в статистической теории связи, но бесполезна в системном анализе и других дисциплинах, занимающихся знаниями.

Количество и ценность информации – разные понятия и не стоит подменять одно другим.

Допустим, что любое сочетание букв в тексте является ценным. В этом умозрительном, нереальном случае количество ценной информации совпадает с полным количеством, определяемым формулой (2) и не может превышать его. По жизни ценной информации в тексте меньше, иногда её нет вообще. Поэтому максимальное количество информации в (2) названо информационной тарой [Корогодин]. Это понятие играет существенную роль при рецепции (приеме/ передаче) информации и при ее перекодировке.

Текст на русском языке содержит N r букв кириллицы (алфавит содержит 32 буквы; M r =32;). Английский перевод содержит N a букв; M a =26; Русский текст – результат выбора определенного варианта из N a = 32 Na возможных. Английский перевод – выбор (преопределенный русским текстом) одного варианта из N a = 26 Na возможных. Если смысл не искажён, то количество ценной информации одинаково, а количество информации по Шеннону различно. Процессы генерации, рецепции обработки сопровождаются «переливаем» информации из одной тары в другую. При этом, как правило, количество информации по Шеннону уменьшается, а количество ценной информации сохраняется и, даже, возрастает.

Таким образом, информационная тара – это мощность множества, из которого могут быть выбраны варианты (алфавит, слова, тексты). Информационная емкость – свойство информационных систем (например, информационная емкость компакт-диска равна 720 МБ).

Энтропия (информационная) — есть мера НЕУПОРЯДОЧЕННОСТИ системы. Это величина безразмерная. Чем меньше энтропия, тем больше порядок (определенность состояния системы). Бесконечно большая энтропия характеризует полный хаос (полную неопределенность состояния системы).

Информация — это сведения, которые способны уменьшать неопределенность. Чем бОльшую неопределенность снимают сведения, тем бОльшее количество информации они содержат. Информация, количеством 1 бит способна снять неопределенонсть при выборе одной из двух РАВНОВЕРОЯТНЫХ альтернатив

Формула Хартли определяет количество информации, содержащееся в сообщении длины n.

Имеется алфавит А, из букв которого составляется сообщение:

Количество возможных вариантов разных сообщений:

где N — возможное количество различных сообщений, шт; m — количество букв в алфавите, шт; n — количество букв в сообщении, шт.

Пример: Алфавит состоит из двух букв «B» и «X», длина сообщения 3 буквы — таким образом, m=2, n=3. При выбранных нами алфавите и длине сообщения можно составить разных сообщений «BBB», «BBX», «BXB», «BXX», «XBB», «XBX», «XXB», «XXX» — других вариантов нет.

Формула Хартли определяется:

где I — количество информации, бит.

При равновероятности символов формула Хартли переходит в собственную информацию.

Формула Хартли была предложена Ральфом Хартли в 1928 году как один из научных подходов к оценке сообщений.

Допустим, нам требуется что-либо найти или определить в той или иной системе. Есть такой способ поиска, как «деление пополам». Например, кто-то загадывает число от 1 до 100, а другой должен отгадать его, получая лишь ответы «да» или «нет». Задаётся вопрос: «число меньше N?». Любой из ответов «да» и «нет» сократит область поиска вдвое. Далее по той же схеме диапазон снова делится пополам. В конечном счёте загаданное число будет найдено.

Сколько вопросов надо задать, чтобы найти задуманное число от 1 до 100. Допустим загаданное число 27. Вариант диалога:

Больше 50? Нет. Больше 25? Да. Больше 38? Нет. Меньше 32? Да. Меньше 29? Да. Больше 27? Нет. Это число 26? Нет.

Если число не 26 и не больше 27, то это явно 27. Чтобы угадать методом «деления пополам» число от 1 до 100, нам потребовалось 7 вопросов.

Можно просто спрашивать: это число 1? Это число 2? И т. д. Но тогда вам потребуется намного больше вопросов. «Деление пополам» — самый оптимальный способ нахождения числа. Объём информации, заложенный в ответ «да»/«нет», равен одному биту (действительно, ведь бит имеет два состояния: 1 или 0). Итак, для угадывания числа от 1 до 100 нам потребовалось семь бит (семь ответов «да»/«нет»).

Такой формулой можно представить, сколько вопросов (бит информации) потребуется, чтобы определить одно из возможных значений. N — это количество значений, а k — количество бит. Например, в нашем примере 100 меньше, чем 27, однако больше, чем 26. Да, нам могло бы потребоваться и всего 6 вопросов, если бы загаданное число было 28.

Формула Хартли:

Количество информации (k), необходимой для определения конкретного элемента, есть логарифм по основанию 2 общего количества элементов (N).

Энтропийный (вероятностный) подход

Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией. Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости. Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.

При изучении различных явлений и объектов окружающего мира люди стремились связать с этими объектами число, ввести их количественную меру. Люди научились измерять расстояния, взвешивать различные предметы, вычислять площади фигур и объёмы тел. Научившись измерять время, его длительность, мы до сих пор пытаемся понять его природу. Термометр был придуман за много лет до того, как учёные поняли, что он измеряет: с момента появления первого термометра до создания термодинамики прошло примерно три столетия. Количественное изучение некоторого явления, объекта может опережать его качественное изучение, процесс формирования соответствующего понятия может следовать за количественным изучением.

Похожая ситуация сложилась и в отношении информации. Р. Хартли в 1928, а затем К. Шеннон в 1948 предложили формулы для вычисления количества информации, однако на вопрос о том, что такое информация, они так и не ответили. В теории связи информация выступает в виде различных сообщений: например, букв или цифр, как в телеграфии, или в виде непрерывной функции времени, как при телефонии или радиовещании. В любом из указанных примеров, в конечном итоге, задача состоит в передаче смыслового содержания человеческой речи. В свою очередь, человеческая речь может быть представлена в звуковых колебаниях или в письменном изложении. Это ещё одно из свойств этого вида информации: способность представлять одно и то же смысловое содержание в различном физическом виде. Впервые на это обратил особое внимание У. Эшби. Представление информации в различном физическом виде называется кодированием. Для того, чтобы общаться с другими людьми, человеку приходится постоянно заниматься кодированием, перекодированием и декодированием. Очевидно, что по каналам связи информация может передаваться в самых различных системах кодирования.

Р. Хартли первым ввел в теорию передачи информации методологию «измерения количества информации». При этом Р. Хартли считал, что информация, которую он собирался измерять, это «… группа физических символов – слов, точек, тире и т. п., имеющих по общему соглашению известный смысл для корреспондирующих сторон». Таким образом, Хартли ставил перед собой задачу ввести какую-то меру для измерения кодированной информации.

Пусть передаётся последовательность из n символов а 1 а 2 а 3 …а n , каждый из которых принадлежит алфавиту А m , содержащему m символов. Чему равно число К различных вариантов таких последовательностей? Если n = 1 (передаётся один символ), то K = m; если n=2 (передаётся последовательность из 2-х символов), то K = m*m = m 2 ; в общем случае для последовательности из n символов получим

Количество информации, содержащееся в такой последовательности, Хартли предложил вычислять как логарифм числа K по основанию 2:

I = Log 2 K, (2.1)

где K = m n .

То есть, количество информации, содержащееся в последовательности из n символов из алфавита A m , в соответствии с формулой Хартли равно

I = Log 2 (m n) = n Log 2 m . (2.2)

Замечание 1. Хартли предполагал, что все символы алфавита A m могут с равной вероятностью (частотой) встретиться в любом месте сообщения. Это условие нарушается для алфавитов естественных языков: например, не все буквы русского алфавита встречаются в тексте с одинаковой частотой.

Замечание 2. Любое сообщение длины n в алфавите A m будет содержать одинаковое количество информации. Например, в алфавите {0; 1} сообщения 00111, 11001 и 10101 содержат одинаковое количество информации. Это означает, что при вычислении количества информации, содержащегося в сообщении, мы отвлекаемся от его смыслового содержания. «Осмысленное» сообщение и сообщение, полученное из него произвольной перестановкой символов, будут содержать одинаковое количество информации.

Пример. В телеграфном сообщении используются два символа – точка (.) и тире (-), т.е. алфавит состоит из m = 2 символов. Тогда при передаче одного символа (n =1) количество информации I = Log 2 2 = 1. Это количество было принято за единицу измерения количества информации и называется 1 бит (от английского binary unit = bit ) . Если телеграфное сообщение в алфавите {. ; -} содержит n символов, то количество информации I = n Log 2 2 = n (бит).

С помощью символов 0 и 1 кодируется информация в компьютере и при передаче в вычислительных сетях, т.е. алфавит состоит из двух символов {0 ; 1}; один символ и в этом случае содержит I = Log 2 2 = 1 бит информации, поэтому сообщение длиной n символов в алфавите {0 ; 1} в соответствии с формулой Хартли (2.2) будет содержать n бит информации.

Если рассматривать передачу сообщений в алфавите русского языка, состоящего из 33 букв, то количество информации, содержащееся в сообщении из n символов, вычисленное по формуле Хартли, равно I = n*Log 2 33 » n* 5.0444 бит. Английский алфавит содержит 26 букв, один символ содержит Log 2 26 » 4.7 бит, поэтому сообщение из n символов, вычисленное по формуле Хартли, содержит n* Log 2 26 » 4.7 *n бит информации. Однако, этот результат не является правильным, так как не все буквы встречаются в тексте с одинаковой частотой. Кроме того, к буквам алфавита надо добавить разделительные знаки: пробел, точку, запятую и др.

Формула (2.1) внешне напоминает формулу Больцмана для вычисления энтропии системы с N равновероятными микросостояниями:

S= - k*Ln(W), (2.3)

где k - постоянная Больцмана = 1,38*10 -23 , а W- вероятность спонтанного принятия одного из микросостояний системы в единицу времени t = 10 -13 сек., W = 1/N, т.е.

S= -k*Ln(1/N) = k*Ln(N), (2.4)

что полностью согласуется с формулой (2.1) за исключением множителя k и основания логарифма. Из-за этого внешнего сходства величину Log 2 K в теории информации также называют энтропией и обозначают символом H. Информационная энтропия – это мера неопределённости состояния некоторой случайной величины (физической системы) с конечным или счётным числом состояний. Случайная величина(с.в.) – это величина, которая в результате эксперимента или наблюдения принимает числовое значение, заранее неизвестно какое.

Итак, пусть X – случайная величина, которая может принимать N различных значений x 1 , x 2 , … x N ; если все значения с.в. X равновероятны, то энтропия (мера неопределённости) величины X равна:

H(X) = Log 2 N. (2.5)

Замечание. Если случайная величина (система) может находиться только в одном состоянии (N=1), то её энтропия равна 0. Фактически это уже не случайная величина. Неопределённость системы тем выше, чем больше число её возможных равновероятных состояний.

Энтропия и количество информации измеряются в одних и тех же единицах – в битах.

Определение. 1 бит – это энтропия системы с двумя равновероятными состояниями.

Пусть система X может находиться в двух состояниях x1 и x2 с равной вероятностью, т.е. N = 2; тогда её энтропия H(X) = Log 2 2 = 1 бит. Пример такой системы даёт нам монета, при подбрасывании которой выпадает либо орёл (x1), либо решка (x2). Если монета «правильная», то вероятность выпадения орла или решки одинаковая и равна 1/2.

Дадим ещё одно определение единицы измерения информации.

Определение. Ответ на вопрос любой природы (любого характера) содержит 1 бит информации, если он с равной вероятностью может быть «да» или «нет».

Пример. Игра в «пусто-густо». Вы прячете мелкий предмет в одной руке и предлагаете партнёру угадать, в какой руке вы его спрятали. Он спрашивает вас « в левой руке?» (или просто выбирает руку: левую или правую). Вы отвечаете «да», если он угадал, или «нет», в противном случае. При любом варианте ответа партнёр получает 1 бит информации, а неопределённость ситуации полностью снимается.

Формулу Хартли можно использовать при решении задач на определение выделенного элемента некоторого заданного множества. Этот результат можно сформулировать в виде следующего правила.

Если в заданном множестве M, состоящем из N элементов, выделен некоторый элемент x, о котором ничего более неизвестно, то для определения этого элемента необходимо получить Log 2 N бит информации.

Рассмотрим несколько задач на применение формулы Хартли.

Задача 1. Некто задумал натуральное число в диапазоне от 1 до 32. Какое минимальное число вопросов надо задать, чтобы гарантированно угадать задуманное (выделенное) число. Ответы могут быть только «да» или «нет».

Комментарий. Можно попытаться угадать задуманное число простым перебором. Если повезёт, то придётся задать только один вопрос, а при самом неудачном варианте перебора придётся задать 31 вопрос. В предложенной задаче нужно определить минимальное число вопросов, с помощью которых вы гарантированно определяете задуманное число.

Решение. По формуле Хартли можно вычислить количество информации, которое необходимо получить для определения выделенного элемента x из множества целых чисел {1,2,3 ……, 32}. Для этого необходимо получить Н = Log 2 32 = 5 бит информации. Вопросы надо задавать так, чтобы ответы на них были равновероятны. Тогда ответ на каждый такой вопрос будет приносить 1 бит информации. Например, можно разбить числа на две равные группы от 1 до 16 и от 17 до 32 и спросить, в какой группе находится задуманное число. Далее, аналогично следует поступить с выделенной группой, которая содержит уже лишь 16 чисел, и т.д. Пусть, например, задумано число 7.

Вопрос №1: Задуманное число принадлежит множеству {17 .. 32}? Ответ «нет» приносит вам 1 бит информации. Мы теперь знаем, что число принадлежит множеству {1 .. 16}.

Вопрос №2: Задуманное число принадлежит множеству {1 .. 8}? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {1 .. 8}.

Вопрос №3: Задуманное число принадлежит множеству {1 .. 4}? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {5 .. 8}.

Вопрос №4: Задуманное число принадлежит множеству {7 ; 8}? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {7 ; 8}.

Вопрос №5: Задуманное число равно 8? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что задуманное число равно 7. Задача решена. Было задано пять вопросов, в ответ получено 5 бит информации и определено задуманное число. ‚

Задача 2. (Задача о фальшивой монете). Имеется 27 монет, из которых 26 настоящих и одна фальшивая. Каково минимальное число взвешиваний на рычажных весах, за которое можно гарантированно определить одну фальшивую монету из 27, используя то, что фальшивая монета легче настоящей.

Рычажные весы имеют две чашки и с их помощью можно лишь установить, одинаково ли по весу содержимое чашек, и если нет, то содержимое какой из чашек тяжелее.

Решение. Это задача на определение одного выделенного элемента из 27. По формуле Хартли мы сразу можем определить количество информации, которое нужно получить для определения фальшивой монеты: оно равно I = Log 2 27 = Log 2 (3 3) = 3 Log 2 3 бит. Отметим, что ещё не зная стратегии взвешивания, можно сказать, сколько информации мы должны получить для решения задачи.

Если положить на чашки весов равное количество монет, то возможны три равновероятных исхода:

1. левая чашка тяжелее правой (Л > П);

2. левая чашка легче правой (Л < П);

3. левая чашка находится в равновесии с правой (Л = П);

Система «рычажные весы» может находиться в трёх равновероятных состояниях, поэтому одно взвешивание даёт Log 2 3 бит информации. Всего для решения задачи надо получить I = 3 Log 2 3 бит информации, значит надо сделать три взвешивания для определения фальшивой монеты. Мы уже знаем минимальное число взвешиваний, но ещё не знаем, как их следует проводить. Стратегия должна быть такой, чтобы каждое взвешивание давало максимальное количество информации. Разделим все монеты на три равные кучки A, B и C по 9 штук в каждой. Фальшивая монета, обозначим её буквой f, может с равной вероятность находиться в любой из трёх кучек. Выберем любые две из них, например A и B, и взвесим их. Возможны три исхода:

1) A тяжелее B (A > B); значит f Î B;

2) A легче B (A < B); значит f Î A;

3) A находится в равновесии с B (A = B); значит f Î С.

При любом исходе мы определим в какой кучке находится фальшивая монета f, но в этой кучке будет уже только 9 монет. Разобъём её на три равные кучки A1, B1, C1 по 3 монеты в каждой. Выберем любые две и взвесим их. Как и на предыдущем шаге, мы определим ту кучку монет, в которой находится фальшивая монета, но теперь кучка состоит только из трёх монет. Выберем любые две монеты и взвесим их. Это будет последнее, третье взвешивание, после которого мы найдём фальшивую монету. ‚

Задача 3 . Не используя калькулятор, оцените с точность до одного бита энтропию системы, которая может с равной вероятностью находится в 50 состояниях.

Решение. По формуле Хартли H = Log 2 50. Оценим данное выражение.

Очевидно, 32 < 50 < 64; логарифмируем это неравенство à Log 2 32 < Log 2 50 < Log 2 64 à 5 < Log 2 50 < 6. Энтропия системы с точностью до 1 бита 5 < H < 6 . ‚

Задача 4. Известно, что энтропия системы составляет 7 бит. Определите число состояний этой системы, если известно, что все они равновероятны.

Решение. Обозначим через N число состояний системы. Так как все состояния равновероятны, то H = Log 2 N à N = 2 H , т.е. N = 2 7 = 128. ‚