Измерительная информатика. Измерение информации

02.02.2019

Билет № 2

1. Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.

2. Создание и редактирование текстового документа (исправление ошибок, удаление или вставка текстовых фрагментов), в том числе использование элементов форматирования текста (установка параметров шрифта и абзаца, внедрение заданных объектов в текст).

Каковы значения элементов, которые находятся в начале и конце очереди после выполнения вышеуказанных операций? Существует множество неправильных правил выбора сильных паролей. Существует также множество неточных или абсурдных способов измерения их силы.

Энтропия - это степень неопределенности системы. Характеризует количество состояний, в которых может находиться система. Таким образом, чтобы полностью описать состояние системы, объем информации должен соответствовать ее энтропии. И для его полного описания, это, конечно, 8 бит информации снова.

1. Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.

Как измерить информацию? Часто мы говорим, что, прочитав статью в журнале или просмотрев новости, не получили никакой информации, или наоборот, краткое сообщение может оказаться для нас информативным. В то же время для другого человека та же самая статья может оказаться чрезвычайно информативной, а сообщение - нет. Информативными сообщения являются тогда, когда они новы, понятны, своевременны, полезны. Но то, что для одного понятно, для другого - нет.

Энтропия одного элемента сообщения равна сумме энтропии всех символов, которые она может содержать. Если вы преодолели предыдущую главу, вы знаете, что длина и количество символов, которые она может содержать, чтобы рассчитать энтропийные пароли. Количество возможных символов может быть меньше.

Как вы можете видеть сами, даже если мы совершили такой харакири с лозунгом, как в последней строке предыдущей таблицы, у нас будет страдание, чтобы удвоить энтропию простого пылевого числового пароля. Сложность, следовательно, далека от столь же важна, как на первый взгляд.

Вопрос «как измерить информацию?» очень непростой. Существует два подхода к измерению количества информации.

Первый подход называется содержательным. В нем информация рассматривается с субъективной точки зрения, т.е. с точки зрения конкретного человека. В этом случае количество информации в сообщении не равно нулю, если сообщение пополняет знания человека.

Второй подход называется алфавитным. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода. Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте).

Если рассматривать информацию с субъективной точки зрения, то информация – это знания человека. Отсюда следует вывод, что сообщение информативно (содержит ненулевую информацию), если оно пополняет знания человека. Например, прогноз погоды на завтра – информативное сообщение, а сообщение о вчерашней погоде неинформативно: нам это уже известно.

Нетрудно понять, что информативность одного и того же сообщения может быть разной для разных людей. Например: 2×2=4 информативно для первоклассника, изучающего таблицу умножения, и неинформативно для старшеклассника. Если сообщение написано на непонятном человеку языке, оно тоже не будет нести информацию.

Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными

Для измерения информации нужна единица измерения, тогда мы сможем определять, в каком сообщении информации больше, в каком меньше.
Единица измерения информации называется «бит». Её определение звучит так:

Сообщение, уменьшающее неопределенность знаний в два раза, несет 1 бит информации.

Что такое «неопределенность знаний»? Лучше всего это пояснить на примерах.
Допустим, вы бросаете монету, загадывая, что выпадет: орел или решка? Есть всего два варианта возможного результата бросания монеты. Причем, ни один из этих вариантов не имеет преимущества перед другим. В таком случае говорят, что они равновероятны.
Так вот, в этом случае перед подбрасыванием монеты неопределенность знаний о результате равна двум.

Игральный кубик с шестью гранями может с равной вероятностью упасть на любую из них. Значит, неопределенность знаний о результате бросания кубика равна шести.
Следовательно, можно сказать так:

Неопределенность знаний о некотором событии – это количество возможных результатов события

Вернемся к примеру с монетой. После того, как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Произошло одно из двух возможных событий. Неопределенность знаний уменьшилась в два раза: было два варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации.

Сообщение о том, что произошло одно событие из двух равновероятных, несет один бит информации.

Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных (равновозможных) событий. Тогда количество информации i, заключенное в этом сообщении, и число событий N связаны формулой:

2 i = N.

Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то вычисления легко произвести "в уме". В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее).

Например, если из 256 одинаковых, но разноцветных шаров наугад выбрали один, то сообщение о том, что выбрали красный шар, несет 8 бит информации (2 8 =256).
Для угадывания числа (наверняка) в диапазоне от 0 до 100, если разрешается задавать только двоичные вопросы (с ответом "да" или "нет"), нужно задать 7 вопросов, так как объем информации о загаданном числе больше 6 и меньше 7 (2 6 2 7)

Количество информации i, содержащейся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2 i =N

Алфавитный подход к измерению информации

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита.

Алфавит - упорядоченный набор символов, используемый для кодирования сообщений на некотором языке.

Мощность алфавита - количество символов алфавита.

Двоичный алфавит содержит 2 символа, его мощность равна двум.
Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов.

Чтобы определить объем информации в сообщении при алфавитном подходе, нужно последовательно решить задачи:

Определить количество информации (i) в одном символе по формуле 2 i = N, где N - мощность алфавита

Определить количество символов в сообщении (m)

Вычислить объем информации по формуле: I = i * K.

Количество информации во всем тексте (I), состоящем из K символов, равно произведению информационного веса символа на К:

I = i * К.

Эта величина является информационным объемом текста.

Например, если текстовое сообщение, закодированное по системе ASCII, содержит 100 символов, то его информационный объем составляет 800 бит.

I = 8 * 100 = 800
Для двоичного сообщения той же длины информационный объем составляет 100 бит.

Необходимо так же знать единицы измерения информации и соотношения между ними.

Единицы измерения информации

Как уже было сказано, основная единица измерения информации - бит.

8 бит составляют 1 байт .
Наряду с байтами для измерения количества информации используются более крупные единицы:
1 Кбайт (один килобайт) = 210 байт = 1024 байта;
1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайт;
1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайт.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тб) = 1024 Гбайт = 240 байта,
1 Петабайт (Пб) = 1024 Тбайта = 250 байта.

Практическое задание выполняется на компьютере в программе Microsoft Office.

Различают меры информации синтаксического, семантического и прагматического уровней. Рассмотрим меру информации синтаксического уровня. Мера информации синтаксического уровня не связана с содержательной стороной информации, а оперирует только с обезличенной информацией, не выражающей смыслового отношения к объекту. Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации - (объемный подход) и количество информации – (энтропийный подход).

Объем информации (объемный подход). Сообщение представляет собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает объем информации, представленной последовательностью символов данного алфавита. Если теперь объем информации, содержащейся в сообщении из одного символа, принять за единицу объема, то объем информации будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то единица представления информации будет меняться.

Так в десятичной системе счисления единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем дит. Например, число 2010 имеет объем дит.

В двоичной системе счисления единицей измерения информации является бит (bit – binary digit – двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем бит. Например, код 11001011 имеет объем бит. Также имеются производные единицы измерения информации:

1 байт = 8 бит

1 Кбайт (Килобайт) = 1024 (2 10) байт;

1 Мбайт (Мегабайт) = 1024 (2 10) Кбайт;

1 Гбайт (Гигабайт) = 1024 (2 10) Мбайт;

1 Тбайт (Терабайт) = 1024 (2 10) Гбайт;

1 Пбайт (Петабайт) = 1024 (2 10) Тбайт.

Количество информации (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и др.) неопределенности. При этом в качестве меры неопределенности вводится энтропия, H , а количество информации I равно:

– начальная энтропия о состоянии исследуемой системы.

– конченая энтропия о состоянии исследуемой системы.

Когда в ходе испытания имевшаяся неопределенность снята (получен конечный результат, количество полученной информации совпадает с начальной энтропией, т.е.

Рассмотрим в качестве исследуемой системы систему, имеющую конечное множество возможных состояний. Система может в каждый момент времени случайным образом принять одно из возможных состояний. Если система приняла некоторое состояние, говорят, что произошло событие. Вероятность – это числовая характеристика степени возможности наступления того или иного события. Вероятность достоверного события (которое обязательно произойдет) равна 1, невозможного события (которое не произойдет никогда) равна 0. Вероятность случайного события (которое может произойти или не произойти) находится в интервале .

Например, подбрасывается монета. При этом возможны два события: А – при подбрасывании монеты выпал «орел» или В – при подбрасывании монеты выпала «решка». Эти события равновероятны. Вероятность выпадения «орла» при бросании монеты равна ½, вероятность выпадения «решки» так же равна ½.

Для снятия неопределенности в ситуации из двух равновероятных событий необходим один опыт и соответственно один бит информации. При неопределенности, состоящей из четырех равновероятных событий, достаточно двух бит информации, чтобы угадать искомый факт. При неопределенности, состоящей из восьми равновероятных событий, достаточно трех бит информации и т.д. Таким образом, если сообщение указывает на одни из n равновероятных вариантов, то оно несет количество информации, равное. Эта формула была предложена американским инженером Р.Хартли в 1928 г.

Формула Хартли: .

Рассмотрим пример . Загадано число в диапазоне от 1 до 8, т.е. имеется 8 равновероятных событий (загадано число 1, загадано число 2 и т.д.). Нужно отгадать, какое число загадано. Хартли рассматривал процесс отгадывания следующим образом: необходимо задать вопрос, предполагающий ответ в форме «Да/Нет» (т.е. в двоичной форме), и уменьшающий неопределенность ситуации в два раза. Допустим, загадано число 5. Пытаясь выяснить это, задаются вопросы:

Число находится в интервале от 1 до 4? Нет

Число находится в интервале от 7 до 8? Нет

Это число 6? Нет

Следовательно, загадано число 5.

В результате отгадывания было задано 3 вопроса, каждый из которых привел к получению 1 единицы информации, т.е. было получено количество информации равное 3. Это же количество информации мы получим и по формуле Хартли: , т.е. сообщение о верно угаданном числе содержит количество информации равное 3.

Определим теперь, являются ли равновероятными события «первой вышла из дверей здания женщина» или «первым вышел из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Например, если зданием является военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины, а если речь идет о станции метро, то вероятность может быть одинаковой. Для задач такого рода американский ученый К.Шеннон предложил в 1948 г. другую формулу, учитывающую возможную неодинаковую вероятность событий.

Формула Шеннона:

Где - вероятность того, что именно i -е состояние выбрано из набора n состояний.

Если вероятности равны, то каждая из них равна 1/n .

Чем выше вероятность события, тем меньшее количество информации возникает после его осуществления, и наоборот.

Рассмотрим пример. В классе четыре ученика: Антон, Владимир, Николай, Петр. Учитель обязательно спросит одного из них, при этом вероятность того, что спросят Антона, равна 0.5, вероятность того, что спросят Владимира – 0.2, вероятность того, что спросят Николая – 0.1, вероятность того, что спросят Петра – 0.2.

Учитель спросил ученика. Каково количество информации в этом сообщении? Рассчитаем его по формуле Шеннона:

Мера информации семантического уровня определяется способностью пользователя принимать поступившее сообщение.

Мера информации прагматического уровня определяется полезностью информации (ценностью) для достижения пользователем поставленной цели.

Конец работы -

Эта тема принадлежит разделу:

Информатика. Лекция 1. Информация и информационные процессы

Лекция Информация и информационные процессы... План... Понятие информации Измерение информации...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Понятие информации
Люди ежедневно общаются друг с другом, передают в тои или иной форме какие-то сведения, осмысливают полученные факты, делают определенные умозаключения, т.е. работают с информацией. Термин

Свойства информации
Как и всякий объект, информация обладает свойствами. Характерной отличительной особенностью информации от других объектов природы и общества, является дуализм: на свойства информации влияют как сво

Информация в общении людей
Формы представления информации в современном мире разнообразны. Рассмотрим, каким образом происходит обмен информацией среди людей. Информация, получаемая посредством визуального наблюдени

Понятие системы счисления
Компьютер может обрабатывать информацию, представленную только в числовой форме. Вся другая информация (тексты, графика, звуки) для обработки на компьютере должна быть преобразована в числовую форм

Перевод десятичного числа в другую систему счисления
Для перевода целой части числа применяется следующее правило: нужно разделить число на основание той системы счисления, в которую осуществляется перевод, выделить целую часть частного и остаток от

Перевод чисел из двоичной системы счисления в восьмеричную (шестнадцатеричную)
1. Исходная дробь делится на триады (тетрады), начиная с позиции десятичной точки влево и вправо. Неполные крайние триады (тетрады) дописываются нулями. 2. Каждая триада (тетрада) заменяет

Логические элементы ЭВМ
Основу любого дискретного вычислительного устройства составляют элементарные логические схемы. Работа этих схем основана на правилах алгебры логики. Создателем алгебры лог

Лекция 3. Общая характеристика информационных процессов
План: 1. Получение информации. 2. Передача информации. 3. Обработка информации. 4. Накопление и хранение информации. Литература

Получение информации
Информацию мы получаем всевозможными способами: в процессе разговора, посредством печатных изданий и различных средств коммуникации – радио, телевидения, компьютера и др. Рассмотрим класси

Передача информации
Информация передается в виде сообщений от некоторого источника информации к ее получателю посредством канала связи между ними. Канал связи (англ. channel, data line

Обработка информации
Обработка информации – это процесс получения одних информационных объектов из других путем выполнения некоторых алгоритмов. При этом, информационный объект – обобщающее понятие, оп

Накопление и хранение информации
Понятие хранения информации всем знакомо: мы все храним семейные документы, письма, фото. В каждом доме набираются немалые стопки журналов, газет и т.п. Хранение информации – это процесс накопления

Первое поколение ЭВМ
· Период времени – 1946 – 1959. · Элементная база – электронные лампы. · Основные устройства ввода – пульт, перфокарточный, перфоленточный ввод. · Основные устройства выв

Второе поколение ЭВМ
· Период времени – 1960 – 1969. · Элементная база – полупроводники (транзисторы). · Основные устройства ввода – добавилась клавиатура. · Основные устройст

Третье поколение ЭВМ
· Период времени – 1970 – 1979. · Элементная база – интегральные схемы. · Основные устройства вывода – добавился графопостроитель и принтер. · Ключевые ре

Четвертое поколение ЭВМ
· Период времени – с 1980. · Элементная база – большие интегральные схемы. · Устройства ввода – добавились сканер, мышь. · Устройства вывода – добавился ц

Суперкомпьютеры
Традиционной сферой применения суперкомпьютеров всегда были научные исследования: · Физика плазмы и статическая механика, молекулярная и атомная физика, теория элементарных частиц, теория

Мини-ЭВМ
Мини-ЭВМ (малые ЭВМ) – надежные, недорогие и удобные в эксплуатации компьютеры, обладающие несколько более низкими по сравнению с мэйнфреймами возможностями. Используются для управления производств

Микро-ЭВМ
Микро-ЭВМ классифицируют следующим образом: · Универсальные. Многопользовательские микро-ЭВМ, оборудованные несколькими видеотерминалами и функционирующие в режиме разделе

Базовое ПО
В базовое ПО входя: · базовая система ввода-вывода (BIOS – Basic Input/Output System); · операционная система (сетевая операционная система); · операционные оболочки.

Сервисное программное обеспечение
Расширением базового ПО является набор сервисного, дополнительно устанавливаемого ПО. В сервисное ПО входят: · Программы контроля, тестирования и диагностики, которые испо

Инструментарий технологии программирования
В настоящее время бурно развивается направление, связанное с технологией создания программного обеспечения. Это связано с переходом на промышленную технологию производства программ, стремлению к со

Прикладное программное обеспечение
Прикладное ПО предназначено для решения функциональных задач и является самым много численным классом программных продуктов. Пакет прикладных программ (ППП) – комплекс вза

Понятие модели и моделирования
Слово «модель» (лат. modelium) означает «мера», «способ», «сходство с какой-то вещью». Модель – это упрощенное представление, аналог реального объекта, процесса или явлени

Аспекты моделирования
Моделировать можно внешний вид, структуру, поведение объекта, а также все возможные их комбинации. Структурой объекта называют совокупность его элементов, а также существу

Основные этапы построения моделей
Процесс моделирования можно разбить на следующие этапы: · Постановка цели моделирования (цель должна уточнять какой из аспектов изучаемого объекта представляет интерес: внешний вид, структ

Этапы решения задач на компьютере
При решении любой задачи с помощью компьютера предполагается, что информация подвергается обработке по предварительной составленной инструкции, называемой программой. Поэтому под решением задач на

Основы алгоритмизации
«Алгоритм» является базовым основополагающим понятием информатики, а алгоритмизация (программирование) – основным разделом курса информатики. Понятие алгоритма, ка

Способы представления алгоритмов
Существует несколько способов представления алгоритмов. Словесный способ. Описание алгоритма состоит из словесного перечня действий. Например:

Циклический алгоритм
Алгоритмы, определенные действия в которых многократно повторяются, называются алгоритмами циклической структуры. Многократно повторяющиеся действия составляют тело цикла. Существует несколько видо

Технология программирования
Программирование - создание компьютерных программ с помощью языков программирования. В общем смысле слова, программирование – формализация предопределенного состояния, по реакции н

Структурное программирование
Структурное программирование - методология разработки программного обеспечения, в основе которой лежит представление программы в виде иерархической структуры блоков. Предложена в 7

Объектно-ориентированное программирование (ООП)
Объектно-ориентированное программирование (ООП) - методология программирования, в которой основными являются понятия «объект» и «класс». Основные принципы ООП: абстракция,

Языки программирования
Язык программирования– формализованный язык для описания алгоритма решения задачи на компьютере. Языки программирования делятся на языки низкого и

Системы программирования
Система программирования (programming system) – это комплекс средств, предназначенных для создания и эксплуатации программ на конкретном языке программирования на ЭВМ определенного

Понятия база данных, система управления базами данных
В широком смысле слова база данных – это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области. Информация об объекте или отношениях объектов, выраженная в знак

Иерархическая модель данных
В иерархической модели данные представлены в виде древовидной (иерархической) структуры (см. Рисунок 1). Основные понятия модели: атрибут, узел, уровень, групповое отношение

Сетевая модель
Основные понятия как в иерархической модели данных. Основное различие этих моделей состоит в том, что в сетевой модели узел может быть членом более чем одного группового отношения. Согласно этой мо

Реляционная модель данных
Понятие реляционный (relation – отношение) связано с работами британского ученого Эдгара Кодда, работы которого стали основой теории реляционных баз данных. Реляционная модель ориентирована на орга

Общая характеристика
Коммуникационная сеть – система, состоящая из объектов, осуществляющих функции генерации, преобразования, хранения и потребления продукта, называемых пунктами (узлами) сети, и лини

Компьютерная сеть
На самом обобщенном уровне сеть – это система, которая позволяет производить обмен информацией. Минимальный набор компонентов, составляющих базовую коммуникационную модель, состоит из источника, пр

Адресация в локальной сети
Каждый узел локальной сети идентифицирован своим логическим IP-адресом, который определяет положение компьютера в сети. Каждый IP-адрес состоит из идентификатора сети (ID сети) и идентифик

Способы подключения к Интернету
Существует несколько основных способов подключения к Internet: - Коммутируемый доступ по телефонной линии при помощи модема. Моде́м (аббревиатура, составленная из сло

Интернет-провайдеры
Доступ в Internet предоставляют Интернет-провайдеры. Интернет-провайдер (Internet Service Provider, ISP) - организация, предоставляющая услуги доступа к Интернету и иные, связанные с Интернетом усл

Структура поисковой системы
Все поисковые системы Internet состоят из трех базовых компонентов: · Веб-паук (web spider); · Индексатор; · Поисковая машина. Веб-паук представ

Правила поиска
1. Вводите слова поискового запроса по возможности без ошибок. Если Вы ошиблись в написании слова или словосочетания, поисковая система поможет Вам скорректировать запрос при помощи ассоци

Закачка файлов
Каждый браузер имеет собственный модуль закачек, позволяющий скачивать информацию из Internet. Но в случае обрыва связи приходится повторно выполнять скачивание, кроме того скачивание проходит медл