Содержание и объем информации. Синтаксическая мера информации. Вопрос3.Меры и единицы количества и объема информации. Кодирование данных в эвм

05.02.2019

Сообщения - совокупность знаков, отображающих ту или иную информацию.

Сигнал - физический процесс, отображающий (несущий) передаваемое сообщение.

Инф-я - вся совокупность сведений об окр. нас мире, о всевозможных протекающих в нём процессах, кот. мб восприняты живыми организмами, электр.машинами и др. информационными системами.

Это длилось так долго, потому что данные, необходимые для этих крупномасштабных анализов, были объемными и сильно фрагментированными - размещались во многих базах данных и «хранилищах данных», поддерживаемых различными брендами. Затем он проводил анализ на кластере напрямую, избегая трудоемких сложностей притягивания данных из разных источников и их объединения, чтобы их можно было анализировать. Это изменение позволило компании быть намного быстрее и точнее с ее продвижением.

И эти рекламные акции имеют более высокое качество, потому что они более своевременны, более гранулированы и более персонализированы. Шелли говорит, что он удивлен тем, насколько легко было перейти от старых к новым подходам к управлению данными и высокопроизводительной аналитике.

Свойства :

1) Объективность : объективно-существующая вне и независимо от человеч. сознания. Информация объективна, если она не зависит от методов ее фиксации, чьего-либо мнения.

2) Достоверность : отражает истинные положения дел.

3) Полезность : п. мб оценена применительно к людям, к нуждам конкретных её потребителей. Зависит от времени и объекта.

Мы видели подобные выигрыши во многих других отраслях и функциях: от финансов до маркетинга до отелей и игр, а также от управления человеческими ресурсами до ремонта машин. Наш статистический анализ говорит нам, что то, что мы видим, - это не просто несколько ярких примеров, а более фундаментальная трансформация экономики. Мы убедились, что почти никакая сфера деятельности не останется в стороне от этого движения.

Новая культура принятия решений

Технические проблемы использования больших данных очень реальны. Но управленческие проблемы еще больше - начиная с роли старшей исполнительной команды. Одним из наиболее важных аспектов больших данных является его влияние на то, как принимаются решения и кто их делает. Когда данные скудны, дороги для получения или недоступны в цифровой форме, имеет смысл позволить людям, принимающим решения, принимать решения, которые они выполняют на основе накопленного ими опыта, а также моделей и отношений, которые они наблюдали, и усвоены. «Интуиция» - это ярлык данного стиля вывода и принятия решений.

4) Актуальность : важна для настоящего времени. Только вовремя полученная информация мб полезна.

5) Точность : определяется степенью её близости к реальному состоянию объекта, процесса.

6) Полнота : достаточна для понимания и принятия решения.

7) Понятность : выражена на языке, доступном получателю.

Информатика - наука, изучающая структуру и наиболее общие св-ва информации, ее поиск, хранение, передачу и обработку с применением ЭВМ.

Сила больших данных не стирает потребность в зрении или человеческом прозрении. Для особо важных решений эти люди, как правило, высоко в организации, или они дорогие аутсайдеры, привезенные из-за их опыта и послужной список. Разумеется, ряд руководителей высшего звена по-настоящему ориентированы на данные и готовы переопределить свою собственную интуицию, когда данные не согласны с ней. Но мы считаем, что во всем мире бизнеса сегодня люди слишком много полагаются на опыт и интуицию и недостаточно на данные.

Для наших исследований мы построили 5-точечную композитную шкалу, в которой была достигнута общая степень, в которой компания была ориентирована на данные. Полностью 32% наших респондентов оценили свои компании на уровне или ниже 3 по этой шкале. Руководители, заинтересованные в ведении большого перехода данных, могут начать с двух простых методов. Во-первых, они могут привыкнуть спрашивать «Что говорят данные?», Когда сталкиваются с важным решением и следуют более конкретным вопросам, таким как «Откуда взялись данные?», Какие анализы были «?» и «Насколько мы уверены в результатах?» Во-вторых, они могут позволить себе отменить данные; немногие вещи более эффективны для изменения культуры принятия решений, чем видеть, что старший исполнитель уступает, когда данные опровергли догадки.

Вопрос2. Модели баз данных. Реляционная модель.

База данных - это информационная модель, позволяющая упорядоченно хранить данные о группе объектов, обладающих одинаковым набором свойств.Ядром любой базы данных является модель данных. Модель данных – это совокупность структур данных и операций их обработки. Существует три основных типа моделей данных : иерархическая, сетевая и реляционная.

Когда дело доходит до понимания того, какие проблемы решать, конечно, экспертиза домена остается критической. Традиционные эксперты в области бизнеса, те, кто знаком с областью, - это те, кто знает, где лежат самые большие возможности и проблемы. Они будут бесценны в оказании помощи компании в определении того, какие предложения и рынки следует делать после следующего.

Прагматическая мера информации

По мере продвижения большого движения данных роль экспертов домена будет сдвигаться. Пабло Пикассо, возможно, думал о экспертах в области, когда он сказал: Компьютеры бесполезны. Они могут дать вам только ответы. Вот один из способов создания возможностей с нуля.

Иерархическая модел ь данных представляет собой совокупность элементов данных, расположенных в порядке их подчинения и образующих по структуре перевернутое дерево.

Сетевая модель данных похожа на иерархическую модель, но в сетевой модели каждый элемент мб связан с любым другим элементом.

Наиболее популярной с начала 80-х гг. была и до сих пор остается реляционная модель данных. Реляционная модель данных использует организацию данных в виде двумерных таблиц. Каждая такая таблица, называемая реляционной таблицей или отношением, представляет собой двумерный массив и обладает следующими свойствами :

Выберите бизнес-единицу, чтобы стать полигоном. У него должен быть лидер, дружественный к кванту, подкрепленный командой ученых-данных. Вызовите каждую ключевую функцию, чтобы определить пять бизнес-возможностей, основанных на больших данных, каждый из которых может быть прототипирован в течение пяти недель командой, состоящей не более чем из пяти человек.

Внедрение процесса инноваций, который включает в себя четыре этапа: экспериментирование, измерение, обмен и репликацию. Имейте в виду Закон Джой: «Большинство умнейших людей работают на кого-то другого». Откройте некоторые из ваших наборов данных и аналитических задач для заинтересованных сторон в Интернете и во всем мире.

1.все столбцы в таблице однородные, т.е. все элементы в одном столбце имеют

одинаковый тип и максимально допустимый размер;

2.каждый столбец имеет уникальное имя;

3.одинаковые строки в таблице отсутствуют;

4.порядок следования строк и столбцов в таблице не имеет значения.

Основными структурными элементами реляционной таблицы являются поле и запись. Поле (столбец реляционной таблицы) – элементарная единица логической организации данных, которая соответствует конкретному атрибуту информационного объекта. Запись (строка реляционной таблицы) – совокупность логически связанных полей, соответствующая конкретному экземпляру информационного объекта.

Компании не смогут воспользоваться всеми преимуществами перехода на использование больших данных, если они не смогут эффективно управлять изменениями. В этом процессе особенно важны пять областей. Компании преуспевают в эпоху больших данных не просто потому, что у них больше или лучше данных, а потому, что у них есть команды лидеров, которые задают четкие цели, определяют, какой успех выглядит, и задают правильные вопросы. Напротив, у нас все еще должны быть бизнес-лидеры, которые могут найти отличную возможность, понять, как развивается рынок, творчески мыслить и предлагать поистине новые предложения, сформулировать убедительное видение, убедить людей охватить его и усердно его реализовать, и эффективно взаимодействовать с клиентами, сотрудниками, акционерами и другими заинтересованными сторонами.

Вопрос3.Меры и единицы количества и объема информации. Кодирование данных в эвм.

Меры информации :

-синтаксическая - мера кол-ва инф., которая оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту, на синтаксическом уровне учитываются тип носителя и способ представления информации , скорость передачи и обработки , размеры кодов представления информации.

Успешными компаниями следующего десятилетия станут те, чьи руководители могут все это изменить, изменяя способы принятия решений многими организациями. По мере того, как данные становятся дешевле, дополнения к данным становятся более ценными. Некоторые из наиболее важных из них - ученые-данные и другие специалисты, умеющие работать с большим количеством информации. Статистика важна, но многие ключевые методы использования больших данных редко преподаются на традиционных курсах статистики. Возможно, еще важнее умение чистить и организовывать большие наборы данных; новые виды данных редко бывают в структурированных форматах.

-семантическая -используется для измерения смыслового содержания информации.для измерения количества смыслового содержания информации наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя» . Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

Инструменты визуализации и методы также увеличиваются. Наряду с учеными-информатиками новое поколение компьютерных ученых привносит методы работы с очень большими наборами данных. Экспертиза при разработке экспериментов может помочь преодолеть разрыв между корреляцией и причинностью. Лучшие ученые-исследователи также предпочитают говорить на языке бизнеса и помогают лидерам переформулировать свои задачи таким образом, чтобы справиться с большими данными.

Вопрос3.Меры и единицы количества и объема информации. Кодирование данных в эвм

В последние годы инструменты, доступные для обработки объема, скорости и разнообразия больших данных, значительно улучшились. В целом, эти технологии не являются чрезмерно дорогостоящими, и большая часть программного обеспечения является открытым исходным кодом. Он принимает входящие потоки данных и распространяет их на дешевые диски; он также предоставляет инструменты для анализа данных.

-прагматическая - определяет полезность информации(ценность) для достижения пользователем поставленной цели. Эта мера также является величиной относительной (обусловленной особенностями использования этой информации в той или иной системе)

Основная единица измерения информации - бит. Бит – минимальная единица измерения кол-ва информации, соответствующая одной двоичной цифре («0» или «1»).

Хотя внимания к технологиям недостаточно, он всегда является необходимым компонентом большой стратегии данных. Эффективная организация ставит информацию и соответствующие права решения в том же месте. В эпоху больших данных информация создается и передается, а опыт часто бывает не там, где раньше. Коварный лидер создаст организацию, достаточно гибкую, чтобы свести к минимуму синдром «не придумал здесь» и максимизировать межфункциональное сотрудничество. Люди, которые понимают проблемы, должны сочетаться с нужными данными, а также с людьми, у которых есть методы решения проблем, которые могут эффективно их использовать.

Единицы : -1байт=8бит; -1Килобайт=2^10=1024байт; -1Мегобайт=2^20байт; -1Гигобайт=2^30байт; -1Терабайт=2^40байт; -1Петабайт=2^50байт.

ЭВМ - электронное уст-во, используемое для автоматизации процессов приема, хранения, обработки и передачи инф., которые осуществляются по разработанным человеком алгоритмам.

В ЭВМ применяется двоичная система счисления, т.е. все числа в компьютере представляются с помощью 0 и 1(двоичные цифры), поэтому компьютер может обрабатывать только информацию, представленную в цифровой форме. Для преобразования числовой, текстовой, графической, звуковой информации в цифровую необходимо применить кодирование. Кодирование – это преобразование данных одного типа через данные другого типа (преобразование инф. в форму пригодную для передачи по определенному каналу связи).Целые числа кодируются двоичным кодом довольно просто (путем деления числа на два). Для кодирования нечисловой информации используется следующий алгоритм: все возможные значения кодируемой информации нумеруются и эти номера кодируются с помощью двоичного кода.

Первый вопрос, о котором спрашивает организация, основанная на данных, - это не «Что мы думаем?», Но «Что мы знаем?» Это требует отхода от действий исключительно от уговоров и инстинкта. Это также требует взлома вредной привычки, которую мы заметили во многих организациях: притворяясь, что они больше управляются данными, чем они есть на самом деле. Только потом были подчинены подчиненные, чтобы найти числа, которые оправдали бы решение. Несомненно, многие препятствия на пути успеха остаются. Слишком мало ученых с данными, чтобы обойти.

Технологии являются новыми, а в некоторых случаях и экзотическими. Слишком легко ошибиться в корреляции для причинности и найти ошибочные шаблоны в данных. Но основные тенденции, как в области технологий, так и в результате выигрыша в бизнесе, безошибочны. Факты очевидны: решения, основанные на данных, как правило, являются лучшими решениями. Лидеры либо обнимают этот факт, либо заменяются другими, кто это делает. В секторе за сектором компании, которые выясняют, как объединить знания домена с наукой о данных, будут отстраняться от своих конкурентов.

ЛЕКЦИЯ 3

§ 10. ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ ИНФОРМАТИКИ.

ИНФОРМАЦИЯ И ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ КАК ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ИНФОРМАЦИИ

Вы уже знакомы с общенаучным определением информации, которое было дано в лекции 1 . На ранних этапах изучения информатики вы, как правило, оперировали несколько иными определениями, доступными для понимания. Например, и нформация – это сведения об окружающем нас мире, о протекающих в нем процессах, которые воспринимают живые организмы, управляющие машины и другие системы.

Мы не можем сказать, что все победители будут использовать большие данные для преобразования решений. Но данные говорят нам, что это самая надежная ставка. Это минимальная единица организма, способная к самовоспроизводству. Все живые организмы состоят из клеток, и общепризнано, что ни один организм не является живым существом, если он не состоит по крайней мере из одной клетки. Некоторые микроскопические организмы, такие как бактерии и простейшие, представляют собой отдельные клетки, тогда как животные и растения состоят из многих миллионов клеток, организованных в тканях и органах.

Некоторое несоответствие определяется следующим положением.

За долгую жизнь значение латинского слова «информация» претерпевало эволюции, то расширяя, то предельно сужая свои границы. Вначале под словом «информация» подразумевали «представление», «понятие», затем – «сведения», «передача сообщений». Сегодня понятие информации стоит в одном ряду с такими фундаментальными понятиями, как материя, энергия и др., точное определение которым дать весьма затруднительно.

Хотя бесклеточные вирусы и экстракты выполняют многие функции живой клетки, им не хватает самостоятельной жизни, способности расти и воспроизводить себя в клетках, и поэтому не считаются живыми существами. Биология изучает клетки с точки зрения их молекулярного строения и того, как они взаимодействуют друг с другом с образованием очень сложных организмов, таких как человек. Чтобы понять, как работает здоровый живой организм, как он растет и развивается, а что не удается в случае какого-либо неудачи, необходимо знать клетки, которые его составляют.

Информация всегда связана с материальным носителем, а ее передача - с затратами энергии. Однако одну и ту же информацию можно хранить в различном материальном виде (на бумаге, магнитном носителе, фотопленке и т. д.) и передавать с различными энергетическими затратами (по почте, по телефону, с курьером и т. д.), причем последствия (в том числе и материальные) переданной информации совершенно не зависят от физических затрат на ее передачу. Например, легкое нажатие кнопки опускает тяжелый театральный занавес или взрывает большое здание, красный свет светофора останавливает поезд, а неожиданное неприятное известие может вызвать инфаркт. Поэтому информационные процессы не сводимы к физическим, и информация, наряду с материей и энергией, является одной из фундаментальных сущностей окружающего нас мира.

Общие характеристики ячеек. Существуют ячейки разных форм и размеров. Некоторые из более мелких бактериальных клеток имеют цилиндрическую форму длиной менее одного микрона или мкм. На противоположном конце находятся нервные клетки, тела сложной формы с множеством тонких расширений, которые могут достигать нескольких метров в длину.

Почему клетки настолько малы? Большинство клеток являются микроскопическими, но их размер варьируется в очень широком диапазоне. Некоторые бактериальные клетки можно увидеть в хорошем оптическом микроскопе, а некоторые животные клетки имеют размер, который позволяет им видеть невооруженным глазом. Например, клетки человеческого яйца или зиготы являются размером конечной точки этого предложения. Наибольшие клетки соответствуют яйцеклетки птиц, но их размер нетипичен, потому что почти все их массы заняты питательными веществами, которые образуют почку, которая не является функциональной частью клетки.

В любом обществе люди передают, хранят и перерабатывают информацию. Сообщение по радио, звонок на урок, красный свет светофора - все это передача информации. Записи в дневнике, древние папирусы, библиотеки, архивы, справочные системы - это хранилища информации. При вычислениях, поиске нужной справки, написании научной статьи происходит переработка информации. Разнообразные действия с информацией и их комбинации называются информационными процессами .

Человечество всегда пользовалось информацией, но только в середине XX в. информационные процессы стали предметом научных исследований, так как именно в это время появились средства связи, устройства автоматики и вычислительной техники. Выяснилось, что эффективность их работы с помощью физических понятий описать невозможно, и что существенные характеристики таких устройств нужно описывать совсем другими способами. В результате впервые было уточнено понятие информации, и возникла математическая теория информации – наука об измерении и передаче информации . Сегодня теория информации является теоретическим фундаментом всей информатики.

Ученые, занимающиеся исследованиями в теории информации, решили, что обычное (всеми принятое) значение слова « информация » слишком расплывчато, и дали ему такое значение: «мера определенности в сообщении ». Содержание данного определения будет подробно раскрыто в следующих параграфах.

Таким образом, теорию информации вызвали к жизни потребности практики, ведь л юбое автоматическое устройство перерабатывает информацию: поезд, нажимая на определённый участок рельса, передаёт сигнал, включающий красный свет светофора; приборы автоматической телефонной станции (АТС) преобразуют номер телефона, набираемый нами, в соединение с нужным абонентом. Вершиной технических достижений в области работы с информацией является компьютер.

В теории информации в наше время разрабатывают много систем, методов, подходов, идей. Однако ученые считают, что к современным направлениям в теории информации добавятся новые, появятся новые идеи.

Одной из важнейших задач теории информации является изучение природы и свойств информации, создание методов ее обработки.

Любой процесс передачи информации можно представить несложной схемой, как на рис.6.

Рис.6. Схема процесса передачи информации

Каждая из трёх частей в приведённой схеме имеет определённые свойства (как принято говорить - параметры). От этих свойств зависит качество передачи.

Что это за свойства, объясняет пример, ставший классическим. Когда вы пишете записку и отдаёте её в руки адресату, то вы играете роль и передатчика, и канала связи. Вид информации при передаче в данном случае не меняется; написанный текст в том же виде передаётся и принимается в нужное время и без искажений. Если же вы посылаете записку через знакомого, то канал связи становится самостоятельной частью схемы, и в нём могут произойти не зависящие от вас события. Например, записка потеряется или попадет под дождь. В таких обстоятельствах говорят: в канале связи возникли помехи. Или передача задержится, если знакомый не сразу найдёт адресата. Значит, увеличится время передачи. Или знакомый записку прочитает и сообщит адресату её содержание на словах. В результате изменится (преобразуется) вид информации - из письменной она превратится в устную. При этом не исключено, что содержание информации исказится - «канал связи» скажет либо не всё, либо не то. И, наконец, вас, вероятно, огорчит, что записку прочитал не только ваш адресат, т. е. произошёл несанкционированный (не разрешенный передатчиком) доступ к информации.

Из этого примера видно, какие параметры может иметь процесс передачи информации и какие проблемы, связанные с ними, приходится решать. Нас интересуют надёжность и время передачи, преобразования и защита информации. Сами части схемы передачи могут быть очень сложны. Например, канал телефонной связи - это не только провода, но и устройства на АТС, соединяющие абонентов; приборы, усиливающие сигнал при передаче на дальние расстояния, и т. д.

Различные технические средства обеспечивают необходимое в каждом конкретном случае качество передачи. Их разрабатывают специалисты по технике связи. Однако большую роль в теории информации играют и математические методы. В их основе лежат принципы измерения информации, с открытия которых и началась теория информации.

Считается, что теория информации как самостоятельная научная дисциплина, связанная с восприятием, передачей, переработкой, хранением и использованием информации, была основана американским ученым К. Шенноном в конце 40-х годов XX века.

Предложенная Шенноном теория основывалась на фундаментальном понятии количественной меры неопределенности - энтропии - и связанном с нею понятия количества информации. Другим фактором в становлении теории информации стало осознание того, что носитель информации - сигнал - имеет случайную природу.

§ 11. ИЗМЕРЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ.

ОБЪЕМНЫЙ МЕТОД

Понятно, что информации бывает много или мало. Но для проектирования системы передачи информации необходимо знать более точно, сколько информации и за какое время она может быть передана.

В технике часто используют довольно простой, но грубый способ измерения информации, который можно назвать объемным. Именно с этим способом вы встречались до настоящего времени. Он основан на подсчете числа символов в сообщении, т. е. связан с его длиной и не учитывает содержания. Правда, длина сообщения зависит от мощности алфавита - числа различных символов, употребляемых для записи сообщения. Например, одно и то же число «девятнадцать» в десятичном алфавите записывается двумя символами - 19 , а в двоичном алфавите - пятью символами - 10111.

В десятичной системе мощность алфавита равна 10 (десять цифр), а в двоичной - 2. Чем больше мощность алфавита, тем короче запись. Самый бедный алфавит - двоичный: он состоит из двух символов, неважно каких. И у большого, и у маленького алфавита есть свои плюсы и минусы. Достоинства большого алфавита - короткие записи, но он требует более сложных устройств для кодирования. Чем больше разных символов, тем сложнее их различать, а значит, и труднее передавать без искажений.

Недаром в одном из первых телеграфных кодов - азбуке Морзе - использовалось только три знака (точка, тире, пауза), а во всей компьютерной технике принята двоичная система. Какой алфавит выбрать - решают проектировщики конкретной системы передачи. Но для измерения информации желательно иметь единицы, которые не зависели бы от алфавита.

В вычислительной технике применяются две стандартные единицы измерения: бит и байт. Бит - это один символ двоичного алфавита . (Слово «бит» получилось в результате сокращения английского выражения binary digit - «двоичная цифра»). Байт - это один символ, который можно представить восьмиразрядным двоичным кодом. Мощность алфавита этого представления равна числу различных восьмиразрядных двоичных кодов, т. е. 2 8 = 256 , и может включать, например, все символы клавиатуры пишущей машинки или терминала ЭВМ.

У специалистов из области вычислительной техники по этому поводу есть даже шутливая поговорка «За один байт восемь битов дают».

Для сообщения, записанного в двоичной системе, количество информации в нём - просто число двоичных символов. Число 25 , выраженное в двоичной системе как 11001 , содержит 5 символов и, следовательно, 5 битов информации. Правда, в той же системе его можно записать и по-другому; 0011001 . Такое сообщение будет содержать 7 битов информации.

Одним битом можно передать только одно из двух сообщений - 0 или 1 . Эти короткие сообщения порой несут большую смысловую нагрузку: могут означать ответ «да» или «нет», сигнал включения или отключения электроэнергии. Но для передачи они предельно просты. Двух битов достаточно для передачи четырёх различных сообщений: 00, 01, 10, 11 . Согласно правилам комбинаторики, записью из n двоичных символов можно передать одно из 2 n сообщений.

Общее количество символов, используемых в обычных текстах, больше чем 2 7 = 128 , но меньше чем 2 8 = 256 . (На клавиатуре компьютера можно насчитать около 150 знаков.) Поэтому одного байта как раз достаточно, чтобы закодировать в двоичной системе любой символ обычного текста. Для сложных математических символов (квадратного корня, интеграла и др.), букв различных шрифтов и алфавитов (например, греческого) одного байта недостаточно.

А как измерить количество информации в сообщении, если оно записано не в двоичной системе? И зачем измерять такое сообщение в битах и байтах? Это нужно для того, чтобы знать, сколько символов будет в сообщении, если его закодировать с помощью двоичного алфавита. Конечно, и в двоичной системе, как мы видели, одно и то же число можно закодировать по-разному. Однако для каждого сообщения существует минимальное количество битов. Как его определить?

Рассмотрим запись десятичных чисел в двоичной системе. Первые 2 n чисел – от 0 до 2 n - 1 – можно записать n битами. Например, для записи чисел от 0 до 7 хватит трёх битов (2 2 < 7 < 2 3 ), от 0 до 31 - пяти и т. д. Если N - степень числа 2 (N = 2 n ), то для его записи нужно n + 1 бит. Так, 32 = 2 n соответствует 100 000 в двоичной системе (6 битов). Для других чисел количество битов равно показателю наибольшей степени двойки, не превышающей этого числа, плюс 1 . Например, для числа 57 эта степень равна 5 : 57 больше 32 , но меньше 64 . Поэтому для записи 57 нужно не меньше 5 + 1 = 6 битов. Чтобы найти максимальную степень числа 2 для любого N , необходимо вычислить log 2 N и взять от него целую часть; ее обозначают квадратными скобками: . Итак, минимальное число битов для записи любого десятичного числа N равно + 1.

При записи обычных текстов каждый символ, как правило, кодируется одним байтом. Следовательно, число байтов примерно равно числу символов; но байтов может быть больше за счет пробелов в тексте.

Измерение информации, основанное на подсчете числа символов в сообщении, называют объемом информации . Такое измерение необходимо для того, чтобы оценить возможности технических устройств, работающих с ней. Для запоминающих устройств – оперативной памяти компьютера, дисков, дискет и т.д. – объём информации, которая может в них храниться (объём памяти), измеряется в килобайтах, мегабайтах и гигабайтах. Чем больше объём памяти компьютера, тем шире его возможности. Время передачи сообщения по каналу связи зависит не только от длины текста, но и от того, какой объём информации за единицу времени можно передать через канал, или от пропускной способности. Данная величина измеряется обычно в килобайтах в секунду. При этом необходимо помнить, что «кило-» в вычислительной технике чуть больше обычного. Причиной тому двоичная система счисления. Ведь в ней круглыми числами являются не степени десятки, а степени двойки. Вот и подобрали такие числа 2 , которые лучше всего соответствуют принятому смыслу этих приставок. Поэтому применительно к компьютерам наши приставки означают:

кило- 2 10 = 1024,

мera- 2 20 = 1024 2 = 1 048 576,

гига- 2 30 = 1024 3 = 1 073 741 824.

Рассмотренный в данном параграфе метод измерения количества информации достаточно прост, но полностью игнорирует человеческую оценку информации. Например, последовательному ряду из 100 букв приписывается определенное значение количества информации. При этом не обращается внимания на вопрос, имеет ли эта информация смысл, и имеет ли, в свою очередь, смысл ее практическое применение.

В соответствии с объемным методом совокупность 100 букв - фраза из 100 букв из газеты, пьесы Шекспира или теоремы Эйнштейна - имеет в точности одинаковое количество информации». Такой подход к измерению количества информации соответствует техническим задачам, в которых канал связи должен передать всю информацию вне зависимости от ценности этой информации для адресата. Передающей системе важно одно: передать нужное количество информации за определенное количество времени.

Однако из следующего параграфа вы узнаете, что информацию можно измерять и иначе.

§ 12. КОЛИЧЕСТВО ИНФОРМАЦИИ.

ЭНТРОПИЙНЫЙ ПОДХОД

В повседневной жизни мы, как правило, оцениваем полученные сведения со смысловой стороны: новые сведения воспринимаем не как определенное количество информации, а как новое содержание. Есть ли информация в сообщении «на Земле существует растительность»? Конечно, нет. Ведь здесь нет никакого нового содержания. А вот фраза «на Марсе есть растительность» содержит информацию, потому что она отражает вероятность знания, возможность явления, а не утверждает всем известное.

Вот еще один пример. Пассажиры едут в автобусе. Водитель объявляет остановку. Кто-кто выходит, остальные не обращают внимания на слова водителя - переданную им информацию. Почему? Дело в том, что информация здесь имеет разную ценность для получателей, в роли которых в этом примере выступают пассажиры. Вышел тот, для кого информация была ценна. Таким образом, ценность информации – это свойство информации, влияющее на поведение ее получателя.

Как же вычислить количество информации в конкретном сообщении, учитывая его ценность? Такая оценка количества информации основывается на законах теории вероятностей. Это и понятно. Сообщение имеет ценность, несет информацию только тогда, когда мы узнаем из него об исходе события, имеющего случайный характер, когда оно в какой-то мере неожиданно. Ведь сообщение об уже известном никакой информации не содержит.

В теории информации принят так называемый энтропийный подход - подход, который учитывает ценность информации, содержащейся в сообщении для его получателя. Энтропийный подход исходит из следующей модели. Получатель сообщения имеет определенные представления о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности – энтропия - характеризуется некоторой математической зависимостью от совокупности этих вероятностей. Количество информации в сообщении определяется тем, насколько уменьшается эта мера после получения сообщения.

Например, тривиальное сообщение, т. е. сообщение о том, что получателю и без того известно, не изменяет ожидаемых вероятностей и не несет для него никакой информации.

Сообщение несет полную информацию о данном множестве событий, если оно целиком снимает всю неопределенность. В этом случае количество информации в нем равно исходной энтропии.

Если вам, допустим, кто-то позвонит по телефону и скажет: «Днем бывает светло, а ночью темно», то такое сообщение вас удивит лишь нелепостью высказывания очевидного и всем известного, а не новостью, которую оно содержит.

Иное дело, например, результат финала в шахматном турнире. Кто выиграет: Карпов или Каспаров? Или партия закончится вничью? Исход здесь трудно предсказать.

И чем больше интересующее нас событие имеет случайных исходов, тем ценнее сообщение о его результате, тем больше информации.

Сообщение о событии, у которого только два одинаково возможных исхода, содержит одну единицу информации, называемую битом. Выбор единицы информации не случаен. Этот выбор, также как и в объемном методе измерения количества информации, связан с наиболее распространенным двоичным способом кодирования при передаче и обработке информации.

Попытаемся хотя бы в самом упрощенном виде представить энтропийный подход к измерению количества информации, который является краеугольным камнем всей теории информации.

Мы уже знаем, что количество информации зависит от вероятностей тех или иных исходов события. Если событие имеет два равновероятных исхода, это означает, что вероятность каждого исхода равна 1/2 . Такова вероятность выпадения «орла» или «решки» при бросании монеты. Если событие имеет три равновероятных исхода, как в нашем примере с шахматным турниром, то вероятность каждого равна 1/3 . Сумма вероятностей всех исходов всегда равна единице: ведь какой-нибудь из всех возможных исходов обязательно наступит. Событие может иметь и неравновероятные исходы. Так, при футбольном матче между сильной и слабой командами вероятность победы сильной команды велика – например, 4/5 . Вероятность ничьей намного меньше, например 3/20 . Вероятность же поражения совсем мала.

Рассмотрим классический пример с колодой карт, содержащей 32 различные карты. Чтобы выбрать одну из карт, существует 32 возможности, которые характеризуют исходную неопределенность ситуации. Если при равной вероятности уже выбрана какая-то из них (например, король червей), то неопределенности нет. Таким образом, число 32 в рассматриваемом примере можно было бы считать количеством информации, заложенным в одном выборе из 32 возможностей. Р. Хартли предложил в качестве меры неопределенности логарифм от числа возможностей:

H = k log a m . (1)

Здесь H - количество информации, k - коэффициент пропорциональности, m - число возможных выборов, а - основание логарифма. Чаще всего принимают k =1 и a =2 . Тогда стандартной единицей количества информации будет выбор из двух возможностей. Такая единица, как вы уже знаете, носит наименование бита и представляется одним символом двоичного алфавита.

Бит выбран в качестве единицы количества информации потому, что принято считать, что двумя двоичными словами исходной длины m или словом длины 2 m можно передать в два раза больше информации, чем одним исходным словом. Число выборов при этом увеличивается в 2 m раз, тогда как значение H в соотношении (1) просто удваивается. Интересно, что в соотношении (1) Н характеризует число вопросов (двоичных), ответы на которые позволяют выбрать одну из альтернатив. Так, в примере с колодой карт из 32 карт необходимо и достаточно получить ответы «да» и «нет» на пять вопросов (2 5 = 32 ). Ответ на каждый вопрос вдвое сокращает область дальнейшего выбора. Пусть, например, необходимо выбрать даму пик. Такими вопросами будут:

1. Карта красной масти? Ответ: «нет».

2. Трефы? Ответ: «нет».

3. Одна из четырех старших? Ответ: «да».

4. Одна из двух старших? Ответ: «нет».

5. Дама? Ответ: «да».

Таким образом, выбрана дама пик. Этот выбор можно описать последовательностью из пяти двоичных символов 00101 , в которой 0 соответствует «нет», а 1 соответствует «да».

В данном примере предполагалось, что выборы равновероятны и число их конечно. К. Шеннону принадлежит обобщение H на случай, когда H зависит не только от m , но и от вероятностей выбора символов и вероятностей связей между ними.

Соотношение это выглядит следующим образом:

где Р i - вероятность выбора i -го символа алфавита. Удобнее в качестве меры количества информации пользоваться не значением h i , а средним значением количества информации, приходящейся на один символ алфавита:

Значение H достигает максимума при равенстве всех Р i , т. е. при Р i =1/ m . В этом случае последнее соотношение превращается в формулу Р. Хартли (1):

H max = - log P = log m.

Энтропия всегда отрицательна, поскольку величины под знаками логарифмов меньше единицы. По смыслу она противоположна информации, так как информация снимает неопределённость. Поэтому среднее количество информации I в множестве C , т. е. количество информации, приходящееся в среднем на одно сообщение о событии из C , вычисляется по формуле

I ( C ) = – H ( C ). (4)

Итак, количество информации есть числовая характеристика сигнала, которая не зависит от его формы и содержания и характеризует степень неопределенности, которая исчезает после выбора (получения) сообщения в виде данного сигнала.

Подведём итог. Информацию можно измерять длиной сообщения в битах. Такой способ ничего не говорит об информативности сообщения, но зато характеризует объём работы системы связи при передаче. Если же в задаче необходимо учитывать информативность, то следует пользоваться энтропийным подходом к измерению информации. При этом нужно уточнить, о каком множестве событий будет сообщаться, каковы их вероятности, после чего вычислить I ( C ).