Алфавитный подход к измерению информации. Информационный объем текста и единицы измерения информации

28.01.2019

При определении количества информации на основе уменьшения неопределенности наших знаний мы рассматриваем информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты, и в коротком сообщении "Орел", и в длинной фразе "Монета упала на поверхность земли той стороной вверх, на которой изображен орел".

Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цветов точек изображения и так далее).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события). Тогда, если считать, что появление символов в сообщении равновероятно, по формуле (2.1) можно рассчитать, какое количество информации несет каждый символ.

Так, в русском алфавите, если не использовать букву ё, количество событий (букв) будет равно 32. Тогда:

32 = 2 I , откуда I = 5 битов.

Каждый символ несет 5 битов информации (его информационная емкость равна 5 битов). Количество информации в сообщении можно подсчитать, умножив количество информации, которое несет один символ, на количество символов.

Количество информации , которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на количество знаков.

Вопросы для размышления

1. Пусть две книги на русском и китайском языках содержат одинаковое количество знаков. В какой книге содержится большее количество информации с точки зрения алфавитного подхода?

Однако любое техническое устройство не воспринимает содержание информации.Поэтому в вычислительной технике используется другой подход к определению количества информации. Он называется алфавитным подходом .

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.

Алфавит - множество символов, используемых при записи текста.

Мощность (размер) алфавита - полное количество символов в алфавите.

Будем обозначать эту величину буквой N . Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение. В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле N = 2 I (см. содержательный подход ) каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2 I = 54. Получаем: I = 5.755 бит - такое количество информации несет один символ в русском тексте.

Чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.
Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.

Таким образом, алфавитный подход к измерению информации можно изобразить в виде таблицы:

При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.

Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые - старые», «понятные - непонятные» сведения.

Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.

Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 2 4 = 16. А если N =32, то один символ «весит» 5 бит.

Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы встречались при рассмотрении темы "Кодирование текствовой информации" . Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....
Поскольку 256 = 2 8 , то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название - байт.
1 байт = 8 бит.

Для измерения больших объемов информации используются следующие единицы:

1 Кб (один килобайт)= 1024 байт=2 10 байт
1 Мб (один мегабайт)= 1024 Кб=2 10 Кбайт=2 20 байт
1 Гб (один гигабайт)= 1024 Мб=2 10 Mбайт=2 30 байт
1Тбайт (один терабайт)=2 10 Гбайт=1024Гбайт=2 40 байт
1Пбайт(один петабайт)=2 10 Тбайт=1024Тбайт=2 50 байт
1Эбайт(один экзабайт)=2 10 Пбайт=1024Пбайт=2 60 байт
1Збайт(один зетабайт)=2 10 Эбайт=1024Эбайт=2 70 байт
1Йбайт(один йотабайт)=2 10 Збайт=1024Збайт=2 80 байт.

Объемный способ измерения информации

Технический способ измерения количества информации (или, точнее, информационного объема сообщения) основан на подсчета количества символов, из которых образовано сообщение. При этом не учитывается смысловое содержание сообщения. Например, многократное повторение одного и того же текста не несет новой информации, однако в результате занимает больший объем памяти, требует большего времени для передачи и т.п. Поэтому этот способ удобен в технических расчетах.

Мера К. Шеннона

Американский математик и инженер К. Шеннон в 1948 г. получил формулу для расчета количества информации, содержащейся в системе, обладающей произвольным набором неравновероятных (в общем случае) состояний

где n - число возможных состояний системы, pi - вероятность i-го состояния (причем pi = 1)

Чем меньше вероятность наступления события, тем большую информацию это событие несет.

Рассмотрим пример:

На книжном стеллаже восемь полок. Книга может быть поставлена на любую из них. Сколько информации содержит сообщение о том, где находится книга?

Применим метод половинного деления. Зададим несколько вопросов уменьшающих неопределенность знаний в два раза.

Задаем вопросы:

Книга лежит выше четвертой полки?

Книга лежит ниже третьей полки? -Да.

Книга - на второй полке?

Ну теперь все ясно! Книга лежит на первой полке! Каждый ответ уменьшал неопределенность в два раза.

Всего было задано три вопроса. Значит набрано 3 бита информации. И если бы сразу было сказано, что книга лежит на первой полке, то этим сообщением были бы переданы те же 3 бита информации.

Если обозначить возможное количество событий, или, другими словами, неопределенность знаний N, а буквой I количество информации в сообщении о том, что произошло одно из N событий, то можно записать формулу:

Количество информации, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения:

А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом.

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.

Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.

Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.

В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле, каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит.

Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.

Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке - 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.

Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице - 40 строк, в каждой строке - 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

В любой системе единиц измерения существуют основные единицы и производные от них.

Для измерения больших объемов информации используются следующие производные от байта единицы:

1 килобайт = 1Кб = 210 байт = 1024 байта.

1 мегабайт = 1Мб = 210 Кб = 1024 Кб.

1 гигабайт = 1Гб = 210 Мб = 1024 Мб.


Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.

Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.

Вопросы для самопроверки

Вопросы для самопроверки

1. Формальная и неформальная постановка задачи.

2. Дайте определение «модель» и требования к моделированию.

3. Характеристика стадий построения информационной модели.

4. Классификация моделей.

5. Виды форм представления информационных моделей.

6. Этапы разработки компьютерных моделей.

7. Информация, классификация информации.

8. Методы получения и использования информации.

9. Носитель информации.

10. Способы измерения информации.

11. Алфавитный подход к измерения информации.

Цель урока: познакомить с понятиями: “измерение информации”, “алфавит”, “мощность алфавита”, “алфавитный подход в измерении информации”, научить измерять информационный объём сообщений, с учётом информационного веса символов.

Тип урока: объяснительно-демонстрационный с элементами практикума.

Нагляднось: презентация “Измерение информации” (приложение 1).

Учебная литература: учебник “Информатика”. 8-й класс (базовый курс) И.Г.Семакин, “Информатика” задачник-практикум (1 часть) И.Г.Семакин.

Требования к знаниям и умениям:

Учащиеся должны знать:

  • что такое “алфавит”, “мощность алфавита”, “алфавитный подход в измерении информации”;
  • как измерить информационный объём;
  • как определяется единица измерения информации бит;
  • что такое байт, килобайт, мегабайт, гигабайт.

Учащиеся должны уметь:

  • приводить примеры сообщений, несущих 1 бит информации;
  • измерять информационный объем текста;
  • представлять количество полученной информации в различных единицах (битах, байтах, килобайтах, мегабайтах, гигабайтах).

План урока

  1. Орг. момент - 1 мин.
  2. Проверка домашнего задания - 2 мин.
  3. Новый материал. Измерение информации. Алфавитный подход - 25 мин.
  4. Закрепление изученного - 14 мин.
  5. Подведение итогов урока. - 2 мин.
  6. Домашнее задание - 1 мин.

I. Орг. момент.

II. Проверка домашнего задания.

Задачник-практикум № 1. с. 11 № 2, 5, 8, 11, 19 *.

III. Новый материал.

1. Введение.

Процесс познания окружающего мира приводит к накоплению информации в форме знаний.

Как же узнать, много получено информации или нет?

Необходимо измерить объём информации. А как это сделать мы сегодня узнаем.

Получение новой информации приводит к расширению знаний или, как иначе можно сказать, к уменьшению неопределённости знания.

Если некоторое сообщение приводит к уменьшению неопределённости нашего знания, то можно сказать, что такое знание содержит информацию (рисунок 1).

2. Как можно измерить количество информации.

Для измерения различных величин существуют эталонные единицы измерения.

Например:

  • Расстояние измеряют в миллиметрах, сантиметрах, дециметрах…
  • Массу измеряют в граммах, килограммах, тоннах…
  • Время измеряют в секундах, минутах, сутках, годах…

Следовательно, для измерения информации должна быть введена своя эталонная единица.

Существует два подхода к измерению информации:

б) Алфавитный. Позволяет измерять информационный объём текста на любом языке (естественном или формальном), при использовании данного подхода объём информации не связывают с содержанием текста, в данном случае, объём зависит от информационного веса символов.

3. Алфавитный подход к измерению информации.

Давайте вспомним, что же такое алфавит?

  • Алфавит – весь набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте.

*Алфавит включают и пробел (пропуск между словами).

Что такое мощность алфавита?

Например: мощность алфавита русских букв и используемых символов равна 54:

33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.

Наименьшую мощность имеет алфавит, используемый в компьютере (машинный язык), его называют двоичным алфавитом, т.к. он содержит только два знака “0”, “1”.

Информационный вес символа двоичного алфавита принят за единицу измерения информации и называется 1 бит.

Попробуйте определить объём информационного сообщения:

Информация, записанная на машинном языке, весит:

01110 - … бит

010010 - … бит

010 - … бита

0111111011110 - … бит

При алфавитном подходе считают, что каждый символ текста, имеет информационный вес.

Информационный вес символа зависит от мощности алфавита.

С увеличением мощности алфавита, увеличивается информационный вес каждого символа.

Для измерения объёма информации необходимо определить сколько раз информация равная 1 биту содержится в определяемом объёме информации.

Например:

1) Возьмём четырёхзначный алфавит (придуманный), (рисунок 2).

Все символы исходного алфавита можно закодировать всеми возможными комбинациями, используя цифры двоичного алфавита.

Получим двоичный код каждого символа алфавита. Для того чтобы закодировать символы алфавита мощность которого равна четырём, нам понадобится два символа двоичного кода.

Следовательно, каждый символ четырёхзначного алфавита весит 2 бита.

2) Закодируйте с помощью двоичного кода каждый символ алфавита, мощность которого равна 8 (рисунок 3) .

Вывод. Весь алфавит, мощность которого равна 8 можно закодировать на машинном языке с помощью трёх символов двоичного алфавита (рисунок 4).

Как вы думаете, каков информационный объём каждого символа восьмизначного алфавита?

Каждый символ восьмизначного алфавита весит 3 бита.

3). Закодируйте с помощью двоичного кода каждый символ алфавита, мощность которого равна 16.

Какой можно сделать вывод?

Алфавит из шестнадцати символов можно закодировать с помощью четырёхзначного двоичного кода.

Решите задачу.

Задача: Какой объём информации содержат 3 символа 16 – символьного алфавита?

Так как каждый символ алфавита мощностью 16 знаков можно закодировать с помощью четырёхзначного двоичного кода, каждый символ исходного алфавита весит 4 бита.

Так как всего использовали 3 символа алфавита мощностью 16 символов, следовательно: 4 бит 3 = 12 бит

Ответ: объём информации записанный 3 знаками алфавита мощностью 16 символов равен 12 бит.

Запишем таблицу соответствия мощности алфавита (N) и количеством знаков в коде (b) - разрядностью двоичного кода.

Найдите закономерность (рисунок 5)!

Какой вывод можно сделать?

Информационный вес каждого символа, выраженный в битах (b), и мощность алфавита (N) связаны между собой формулой: N = 2 b

Алфавит, из которого составляется на компьютере текст (документ) состоит из 256 символов.

Этот алфавит содержит символы: строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания и другие символы.

Узнайте, какой объём информации содержится в одном символе алфавита, мощность которого равна 256.

Решение. Из формулы N = 2 b следует 256 = 2 8 .

Вывод. Значит, каждый символ алфавита используемого в компьютере для печати документов весит 8 бит.

Эту величину приняли так же за единицу измерения информации и дали название байт.

8 бит = 1 байт

Задача. Статья содержит 30 страниц, на каждой странице - 40 строк, в каждой строке 50 символов. Какой объём информации содержит статья?

Ход решения.

1) На каждой странице 50 40 = 2000 символов;

2) во всей статье 2000 30 = 60000 символов;

3) т.к. вес каждого символа равен 1 байту, следовательно, информационный объём всей статьи 60000 1 = 60000 байт или 60000 8 = 480000 бит.

Как видно из задачи байт “мелкая” единица измерения информационного объёма текста, поэтому для измерения больших объёмов информации используются более крупные единицы.

Единицы измерения информационного объёма:

1 килобайт = 1 Кб = 210 байт = 1024 байт

1 мегабайт = 1 Мб = 210 Кб = 1024 Кб

1 гигабайт = 1 Гб = 210 Мб = 1024 Мб

Попробуйте перевести результат задачи, в более крупные единицы измерения:

    60000 байт 58,59375 Кб

    60000 байт 0,057 Мб

IV. Закрепление изученного.

Задачник-практикум № 1. С. 19 № 19, 20, 22, 23, 25.

V. Подведение итогов.

VI. Домашнее задание.

Задачник-практикум № 1. с. 20 № 21, 24, 26.

Информационный объем текста и единицы измерения информации


Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно