От чего зависит объем информации. Алфавитный подход к измерению информации. Алфавитный подход к определению количества информации

04.02.2019

Информационный объем текста и единицы измерения информации


Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Отчет «Это три четверти для целого» Конечно, только в данной ситуации, то есть когда нас интересует время суток с точностью в минутах и ​​до того, как мы получим сообщение, мы ничего не знаем. поэтому мы несем приблизительно. Мы можем использовать любую точность, с помощью которой мы можем вычислить логарифмы. 5. 91 бит информации.

Логарифм для кого-то не является интуитивно понятным. Мы уверены, что все будет хорошо работать для объединения независимых отчетов? Действительно, объем информации, получаемой путем принятия двух независимых отчетов, равен сумме количества информации в каждом сообщении, даже если мы вычисляем ее с использованием логарифма?

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Мы используем тот факт, что количество информации в сообщении равно логарифму количества опций до и после получения сообщения. Поэтому мы хотим проверить, является ли полученная совокупная информация суммой информации из двух независимых отчетов. Но когда мы внимательно смотрим на отношения, мы обнаруживаем, что проверить нечего. Мы уже знаем, что это правда, это основная особенность логарифма. Таким образом, мы видим, что переписи и логарифмы вместе дают значимые результаты. Информатика по логарифмам не позволяет.

Пример. Большая часть информации более экономична. Наконец, покажите тот же пример, как сохранить свою работу еще больше. Однако на этот раз мы вспомним полезное свойство логарифмов. Основной единицей информации является бит или двоичная двоичная цифра.

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

Объем информации в сообщении равен логарифму количества опций до и после приема сообщения. Отчет генерируется и автоматически отправляется на адрес электронной почты, указанный при регистрации, после отправки платежа. В зависимости от выбранного способа оплаты это может занять несколько минут.

Если вышеуказанная информация не отвечает на ваши вопросы, воспользуйтесь опцией контакта через. Единицы зависят от логарифма, используемого в формуле. Отступление - вы были известны как блок памяти для хранения одного 0 или одного. Почему он отвечает в теории информации? Бит - способность такого сообщения, которое полностью устраняет неопределенность в способности выбирать одно из двух равновероятных событий: либо 1, либо.

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

Неопределенность, связанная с таким выбором, является существенной. Поэтому бит должен быть единицей неопределенности или информации. Средняя неопределенность этой ситуации. Когда, какова вероятность того, что вероятность неопределенности будет самой большой из возможных? Будет, когда вероятности одинаковы.

То есть мы можем получить среднее количество бит на букву, сколь угодно близкое к значению, заданному шаблоном. Буквы, которые являются одним или несколькими сообщениями, называются дискретными или гранулированными. Если источник предоставляет одно из двух возможных сообщений, то он является двоичным.

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Объемный способ измерения информации

Технический способ измерения количества информации (или, точнее, информационного объема сообщения) основан на подсчета количества символов, из которых образовано сообщение. При этом не учитывается смысловое содержание сообщения. Например, многократное повторение одного и того же текста не несет новой информации, однако в результате занимает больший объем памяти, требует большего времени для передачи и т.п. Поэтому этот способ удобен в технических расчетах.

Потому что. Итак: сообщение имеет больший объем информации, тем больше его энтропия. Шаблон можно интерпретировать так, чтобы информация ассоциировалась с уменьшающейся энтропией. Поэтому при выборе систем кодирования мы пытаемся максимизировать энтропию сообщений.

Другие языки могут быть более экономичными - например, английский, где перевод на польский всегда занимает больше места, чем исходный текст. Но языков меньше, чем польских, например, португальский. Как любопытство, можно сказать, что даже язык - есть избыточность ≈ 80%.

Некоторые авторы указывают один, другие - другой. Мы выберем еще несколько проворных. Информация основана на определенных типах контента - существенных, которые тесно связаны с информационными свойствами. Чаще всего есть три информационных блока: рост объема информации, старость и распространение. Информация сильно выросла, поэтому очень выразительная кривая будет значительно увеличена.

Мера К. Шеннона

Американский математик и инженер К. Шеннон в 1948 г. получил формулу для расчета количества информации, содержащейся в системе, обладающей произвольным набором неравновероятных (в общем случае) состояний

где n - число возможных состояний системы, pi - вероятность i-го состояния (причем pi = 1)

Чем меньше вероятность наступления события, тем большую информацию это событие несет.

Информация стареет: она появляется, ломается и исчезает. Иногда она не полностью сухая, но она становится основой для следующего уровня. Большинство юношеских лет становятся ненужными и теряют свою ценность. Это правда, что это не всегда интересно для научной информации, хотя это заняло много времени, хотя и до Архангела или Исаака Ньютона. Он изучал научную литературу и отметил, что только 50% статей, посвященных проблемам электротехники, были опубликованы в специальных журналах этой науки. Остальные 25% статей были напечатаны более чем в одном академическом журнале, а остальные 25% представлены во многих популярных журналах.

Рассмотрим пример:

На книжном стеллаже восемь полок. Книга может быть поставлена на любую из них. Сколько информации содержит сообщение о том, где находится книга?

Применим метод половинного деления. Зададим несколько вопросов уменьшающих неопределенность знаний в два раза.

Задаем вопросы:

Книга лежит выше четвертой полки?

Книга лежит ниже третьей полки? -Да.

Книга - на второй полке?

Ну теперь все ясно! Книга лежит на первой полке! Каждый ответ уменьшал неопределенность в два раза.

Всего было задано три вопроса. Значит набрано 3 бита информации. И если бы сразу было сказано, что книга лежит на первой полке, то этим сообщением были бы переданы те же 3 бита информации.

Если обозначить возможное количество событий, или, другими словами, неопределенность знаний N, а буквой I количество информации в сообщении о том, что произошло одно из N событий, то можно записать формулу:

Количество информации, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения:

А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом.

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.

Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.

Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.

В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле, каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит.

Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.

Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке - 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.

Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице - 40 строк, в каждой строке - 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

В любой системе единиц измерения существуют основные единицы и производные от них.

Для измерения больших объемов информации используются следующие производные от байта единицы:

1 килобайт = 1Кб = 210 байт = 1024 байта.

1 мегабайт = 1Мб = 210 Кб = 1024 Кб.

1 гигабайт = 1Гб = 210 Мб = 1024 Мб.


Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.

Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.

Вопросы для самопроверки

Вопросы для самопроверки

1. Формальная и неформальная постановка задачи.

2. Дайте определение «модель» и требования к моделированию.

3. Характеристика стадий построения информационной модели.

4. Классификация моделей.

5. Виды форм представления информационных моделей.

6. Этапы разработки компьютерных моделей.

7. Информация, классификация информации.

8. Методы получения и использования информации.

9. Носитель информации.

10. Способы измерения информации.

11. Алфавитный подход к измерения информации.