Семантическая информация формула. Семантическая мера информация

27.06.2020

Cемантика устанавливает смысловую связь между внутренним языком системы и языком внешней среды. И в отношении этой взаимосвязи информация обладает определенными специфическими свойствами, получившими название семантических.

Оценка объема семантической информации возможна различными способами. Все они в принципе сводятся к получению так называемого семантического конденсата сообщения. В частности, это может быть реализовано путем последовательного исключения из поступившего сообщения элементов, не несущих дополнительной по отношению к остающейся его части смысловой нагрузки.

Необходимо отметить, что понятие смысла сообщения не является вполне однозначным, так как смысл того или иного сообщения зависит и от того, что пытается передать источник информации, и от того, что в этом сообщении является интересным для получателя. Например, один собеседник говорит другому: «Нектоприобрел обалдевающе шикарный , cтрашно дорогой , импортный костюм ».

Объем информации (в предположении равновероятности появления отдельных символов алфавита) будет равен

где m – количество символов алфавита; n – количество символов, вошедших в сообщение, или его семантический конденсат.

Если систем-приемник не интересуют эмоциональные всплески источника, то при оценке объема семантической информации он удалит из текста такие слова, как «обалдевающе» и «страшно». В этом случае объем семантической информации будет равен

Если же получателя интересует только сам факт приобретения, то объем семантической информации еще более уменьшится, поскольку в конденсате останутся только подчеркнутые слова. В этом случае будем иметь

Однако получатель информации может извлечь из этого сообщения такой смысл, о котором источник, возможно, и не думал. Действительно, он может из этого утверждения заключить, что источник завидует купившему. В этом случае конденсат будет выглядеть так:

«Некто приобрел страшно дорогой костюм – завидно».

(Величина I будет равна бит.)

Возможность вывода различных как чисто логических, так и чисто ассоциативных суждений в системе знаний получателя на основе одного и того же информационного сообщения выражает свойство интерпретируемости последнего.

В силу свойства дополняемости, о котором речь пойдет далее, сообщение, поступившее в некоторую систему знаний, может привести к появлению в ней некоторого дополнительного объема ассоциированной информации, получающейся путем логического, правдоподобного вывода или на основе каких-либо иных ассоциаций, связанных с воспринятым информационным образом. В связи с этим мы можем говорить и о количестве ассоциированной информации. Заметим, однако, что речь в данном случае идет только о такого рода информации, истинность которой не могла быть доказана в рассматриваемой системе знаний до появления данного сообщения или требовала дополнительных подтверждений.

Например, основываясь на полученном выше сообщении, адресат может сделать еще один неожиданный для себя вывод:

«Некто богат!» бит.)

«Да, некто модник». бит.).

Помимо этого, в разгоряченном мозгу могут возникнуть и другие, не менее удивительные предположения:

«Да, некто не собирается ли жениться?» бит.)

Мы видим, что получение некоторого сообщения может вызвать у получателя волнообразный, а иногда и лавинообразный процесс генерации ассоциативной информации; в некоторых случаях это может привести к весьма печальным последствиям.

Таким образом, общее количество семантической информации в принципе может превышать количество информации в сообщении. В общем случае величина и характер расхождения указанных мер зависят, помимо всего прочего, от систем знаний участников информационного обмена.

Если один и тот же текст записать дважды, то общее количество информации в этой записи будет ровно в два раза больше, чем в исходном тексте. Объем же семантической информации останется прежним.

Отношение объема семантической информации к общему объему (количеству) информации характеризует информативность сообщения :

В качестве примера сообщения, обладающего почти 100%-ной информативностью, можно привести известную стихотворную фразу: «Aх! Наконец достигли мы ворот Мадрида!..» (А.С. Пушкин. Каменный гость).

Каждое слово в этой фразе несет важную смысловую нагрузку: трудность долгого пути, желанность цели и т.п. Уберите из текста любое из этих слов и вы потеряете какую-то связанную с ним ассоциацию. Очевидно, что разные люди воспринимают смысл сообщений по-разному. И вполне очевидно, что характер и глубина ассоциативного осмысления зависят от уровня развития и индивидуальных особенностей их систем знаний. Не с этим ли связано такое разнообразие эстетических предпочтений?

В отношении систем, выступающих в роли источников знаний, данное свойство проявляется как информированность. Именно с этим свойством связаны некоторые методики оценки квалификации специалистов.

Семантически связанная область каких-либо знаний формально может быть представлена в виде некоторой информационной структуры, называемой тезаурусом. Он представляет собой упорядоченную по степени общности совокупность понятий, связанных между собой соответствующими отношениями. Общий образ бытия внешнего мира в системе естественного языка составляет его тезаурус. Путем иерархического деления последнего из него могут быть вычленены частные тезаурусы отдельных отраслей знаний. Понятие тезауруса сформировалось в процессе развития компьютерной обработки информации.

Между тезаурусами различных систем знаний могут существовать определенные несоответствия и даже противоречия. Например, понятие «функция» имеет совершенно различный смысл в математике и теории организаций.

Истинность – свойство информации, заключающееся в соответствии (изоморфизме) извлекаемого из нее образа тому прообразу исходного оригинала, который существует в системе знаний и к которому может быть приведен этот образ путем выполнения соответствующих процедур интерпретации.

Из этого определения, в частности, следует, что изображение какого-либо объекта или субъекта в кривом зеркале можно рассматривать как истинное только в том случае, если субъект, воспринимающий этот образ, способен так его интерпретировать, чтобы он совпал с прообразом его оригинала. В этой трактовке истинность и узнаваемость есть понятия, весьма близко связанные между собой. Поскольку истинность означает непротиворечивость утверждения, содержащегося в сообщении, в некоторой логической системе, опирающейся на свои аксиомы, то она, вообще говоря, имеет неоднозначный характер, так как источники и получатели информации могут обладать разными логическими системами (существует же, например, так называемая женская логика, и не все понимали язык Эзопа).

Заметим, что истинность очень часто носит вероятностный характер. Адекватная данной системе знаний оценка истинности сообщения осуществляется путем сравнительного анализа аргументов за и против относительно утверждения, извлекаемого из этого сообщения, и возможных его альтернатив, синтезируемых в рамках данной системы знаний. При этом, очевидно, что чем полнее синтезированное множество альтернатив, тем достовернее будет эта оценка. Однако следует иметь в виду, что свойство истинности в таком частичном его толковании следует рассматривать только лишь относительно рациональной информации. Поэтому данное свойство следовало бы трактовать как правдивость. Ведь относительность –атрибут скорее правдивости, нежели истинности. Истина в высшем смысле этого слова абсолютна и является предметом Веры.

Как показывает практический опыт, интерес человека к тому или иному сообщению существенно зависит от того, насколько велика степень новизны содержащейся в нем семантической информации (рис. 1.4.4).

Новизна информации свидетельствует, что в сообщении содержатся утверждения (образы), которыми система знаний до получения этой информации в явном виде не располагала. Последнее замечание весьма существенно, поскольку язык данной системы в принципе позволяет получить любые, допустимые в нем утверждения (в том числе, очевидно, и принятое). Поэтому новизну следует понимать только в плане интерпретации, т.е. в том плане, что указанное утверждение не выведено путем соответствующих преобразований имеющейся в системе знаний информации и не сопоставлено с приходящими извне образами (т.е. заранее предполагалась). Оправдывающееся предположение не есть абсолютно новая информация. Степень новизны может быть оценена как отношение

где – объем семантической информации, представляющейся получателю сообщения X новой; – общий объем семантической информации в сообщении X .

Рис. 1.4.4. Качественная зависимость интереса индивида
к тому или иному сообщению от степени новизны
семантической информации (пунктир – зависимость риска
разрушения системы знаний от степени новизны)

Влияние степени новизны на интерес внешне проявляется, например, в том, что много раз слышанное (или виденное) вызывает обычно скуку и порой даже отвращение, а чрезмерно новое и непонятное часто просто пугает. Однако внутренний смысл подобной зависимости связан с действием принципа сохранения, защищающего в данном случае систему знаний от проникновения в нее чужеродной, разрушительной информации. На рис. 1.4.4, помимо кривой интереса, представлена кривая степени риска разрушения системы знаний. Блокирование, снижение интереса фактически означает сопротивление системы вторгающейся в нее информации, сокращение интенсивности ее переработки. Можно сказать, что система отказывается от приема «неизвестной ей пищи, боясь быть отравленной».

Одна и та же семантическая информация может быть представлена в различной форме (не говоря уже о различных языках). При этом, как правило, ее общий объем существенным образом зависит от выбранной формы сообщения. Например, информацию о том, что решением данного уравнения является синус, можно передать в виде сообщения

или сообщения

Оба сообщения в семантическом плане будут эквивалентны. Однако объемы информации в них будут значительно отличаться.

Условием, определяющим выбор формы сообщения, являются возможности системы знаний источника и получателя. Действительно, форма сообщения должна быть такой, чтобы оно могло быть интерпретировано соответствующей системой знаний. Из сказанного следует, что, передавая или просто преобразуя информацию, можно осуществлять ее сжатие (уменьшение объема). Указанная возможность составляет суть свойства сжимаемости, характеризуемое коэффициентом сжимаемости

где – объем (количество) информации в сообщении ; и – семантически эквивалентные сообщения.

Как уже отмечалось выше, допустимая для данного сообщения величина сжатия определяется характером и уровнем развития соответствующих систем знаний (язык, память, интерпретатор). В природе и обществе существует невообразимое большое число различных форм представления информации, обеспечивающих достаточно высокую степень сжатия. Однако наиболее мощный способ сжатия информации – представление ее в форме некоторого закона (правила), позволяющего в случае необходимости перевести ее в развернутую форму. Так, вместо записанного выше бесконечного ряда можно использовать такую форму его представления:

Сжимаемость есть проявление принципа семантической эквивалентности различных форм представления информации. Сжимаемость заключается в возможности передачи одной и той же семантической информации (вообще знаний) в различных формах.

Свойство дополняемости отражает активную роль информации, которая, проникая в систему знаний, активизирует последнюю, индуцируя в ней некоторый дополнительный объем ассоциированной семантической информации. В результате этого, как отмечалось выше, реальный объем семантической информации может существенно измениться. Сообщение, проникая в систему, как бы обволакивается своеобразной информационной "шубой", дополняющей его в семантическом плане. Если бы информация не обладала свойством дополняемости, то она не могла бы обладать свойством сжимаемости, а значит, и в принципе не могла быть интерпретируемой. Ведь при интерпретации выявляются смысловые связи между элементами сообщения и элементами системы знаний.

Дополняемость порождает весьма важное свойство систем – способность восстанавливать смысл сообщения даже в случае потери некоторой части содержащейся в нем информации. Очевидно, что в каждом конкретном случае существует некоторый предельный объем потерь, при превышении которого восстановление становится невозможным.

Необходимым условием восстанавливаемости является наличие в апостериорной информации определенных закономерностей, выявляемых с помощью априорной информации (с помощью знаний). В этом смысле восстановление информационных сообщений есть, по сути дела, распознавание. Например, если вы знаете, что сумма углов плоского треугольника равна 180 0 , то вы сможете по двум известным (заданным) углам определить величину третьего.

Похожая информация.

Для измерения информации вводятся два параметра: количество информации I и объем данных V д.

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п.

Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике смысловые связи устанавливаются между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления.

Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Рис. 2.1. Меры информации

2.2.1. Синтаксическая мера информации

Синтаксическая мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных V д в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения — бит ( bit — binary digit — двоичный разряд);
в десятичной системе счисления единица измерения — дит (десятичный разряд).

Пример. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных V д = 8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных V д = 6 дит.

Количество информации определяется по формуле:

где H (α) - энтропия, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Энтропия системы Н (α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где p i - вероятность того, что система находится в i -м состоянии.

Для случая, когда все состояния системы равновероятны, ее энтропия определяется соотношением

где N - число всевозможных отображаемых состояний;

m - основание системы счисления (разнообразие символов, применяемых в алфавите);

n - число разрядов (символов) в сообщении.

2.2.2. Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя .

Тезаурус — это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений смыслового содержания информации S и тезауруса пользователя S p изменяется количество семантической информации I с , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2:

при S p =0 пользователь не воспринимает, не понимает поступающую информацию;
при S p → ∞ пользователь все знает, поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса I с = f (S p )

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

2.2.3. Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Для сопоставления введенные меры информации представим в табл. 2.1.

Таблица 2.1. Единицы измерения информации и примеры

Мера информации	Единицы измерения	Примеры (для компьютерной области)
Синтаксическая: шенноновский подход компьютерный подход	Степень уменьшения неопределенности	Вероятность события
Синтаксическая: шенноновский подход компьютерный подход	Единицы представления информации	Бит, байт, Кбайт и т.д.
Семантическая	Тезаурус	Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д.
Семантическая	Экономические показатели	Рентабельность, производительность, коэффициент амортизации и т.д.
Прагматическая	Ценность использования	Денежное выражение
Прагматическая	Емкость памяти, производительность компьютера, скорость передачи данных и т.д.	Время обработки информации и принятия решений

Раздел очень прост в использовании. В предложенное поле достаточно ввести нужное слово, и мы вам выдадим список его значений. Хочется отметить, что наш сайт предоставляет данные из разных источников – энциклопедического, толкового, словообразовательного словарей. Также здесь можно познакомиться с примерами употребления введенного вами слова.

Что значит "семантическая информация"

Семантическая информация

в логике, характеристика содержания, которая передаётся в некотором сообщении. Существуют разные подходы к измерению С. и. В концепции И. Бар-Хиллела (США) и Р. Карнапа (Австрия) сообщение понимается как пропозициональная формула (высказывание), а С. и. измеряется числом состоянии универсума, при которых эта формула ложна. Это реализация идеи Г. В. Лейбница о том, что логически истинные предложения, верные во всех возможных мирах, не могут нести фактической информации. А. А. Харкевич предложил измерять ценность информации через изменение вероятности достижения определённой цели, возникающее под воздействием данного сообщения. С. и. сообщения любой природы можно оценивать как степень изменения системы знаний (тезауруса) адресата в результате восприятия данного сообщения. Эта мера одновременно оценивает новизну и доступность сообщения относительно данного адресата, тем самым такая трактовка С. и. является в значительной мере прагматической (см. Прагматика). Отправитель сообщения тоже получает С. и., которая характеризуется возникшим у него новым знанием о состояниях тезаурусов адресатов.

Лит.: Bar-HillieI Y., Carnap R., Semantic information, «The British Journal for the Philosophy Science», 1953, v. 4, ╧ 14; Харкевич А. А., О ценности информации, «Проблемы кибернетики», 1960, в. 4; Шрейдер Ю. А., Об одной модели семантической теории информации, там же, 1965, в. 13; Финн В. К., О семантической информации, в кн.: Джордж Ф., Мозг как вычислительная машина, М., 1963, с. 479≈485; Information and inference, ed. by I. Hintikka and P. Suppes, Dordrecht, 1970.

Ю. А. Шрейдер.

Википедия

Семантическая информация

Семантическая информация - смысловой аспект информации, отражающий отношение между формой сообщения и его смысловым содержанием.

Начиная с работ Клода Шеннона, принято считать, что понятие информации складывается из трех аспектов: синтаксического, семантического и прагматического. Синтаксический связан с техническими проблемами хранения и передачи информации, семантический имеет отношение к смыслу и значению истинности сообщений, прагматический затрагивает вопросы влияния информации на поведение людей. Теория семантической информации исследует область человеческих знаний и является составной частью искусственного интеллекта.

Классификация мер

Меры информации

Формы адекватности информации

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов её представления, надежность и точность преобразования этих кодов и т. п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Прагматические свойства информации проявляются только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели.

Для измерения информации вводятся два параметра: количество информации I и объем данных V. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Объем данных V д в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд);
в десятичной системе счисления единица измерения - дит (десятичный разряд).

Рис. 2.1. Меры информации

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию I b (a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала H b (a).

Тогда количество информации I b (a) о системе, полученной в сообщении b, определится как

I b (a) = H(a)-H b (a),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность системы H b (a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации I b (a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна

где P i - вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны P i = , ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N - число всевозможных отображаемых состояний;

m - основание системы счисления (разнообразие символов, применяемых в алфавите);

n - число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y=1/V д, причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных в системе). Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.2.

Рис. 2.2. Зависимость количества семантической информации, воспринимаемой потребителем

Рассмотрим два предельных случая, когда количество семантической информации I c
равно 0:

при S p = 0 пользователь не воспринимает, не понимает поступающую информацию;
при S p ® ¥ пользователь все знает и поступающая информация ему не нужна.

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему:

Тема 2. Основы представления и обработки информации в компьютере

Литература

1. Информатика в экономике: Учебное пособие/Под ред. Б.Е. Одинцова, А.Н. Романова. – М.: Вузовский учебник, 2008.

2. Информатика: Базовый курс: Учебное пособие/Под ред. С.В. Симоновича. – СПб.: Питер, 2009.

3. Информатика. Общий курс: Учебник/Соавт.: А.Н. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; Под общ. ред. В.И. Колесникова. – М.: Дашков и К, 2009.

4. Информатика для экономистов: Учебник/Под ред. Матюшка В.М. - М.: Инфра-М, 2006.

5. Экономическая информатика: Введение в экономический анализ информационных систем.- М.: ИНФРА-М, 2005.

Меры информации (синтаксическая, семантическая, прагматическая)

Для измерения информации могут применяться различные подходы, но наибольшее распространение получили статистический (вероятностный), семантический и прагматический методы.

Статистический (вероятностный) метод измерения информации был разработан К. Шенноном в 1948 году, который предложил количество информации рассматривать как меру неопределенности состояния системы, снимаемой в результате получения информации. Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе Х, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как:

где - дополнительное количество информации о системе Х , поступившее в форме сообщения;

Начальная неопределенность (энтропия) системы X ;

Конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.

Если система X может находиться в одном из дискретных состояний, количество которых n , а вероятность нахождения системы в каждом из них равна и сумма вероятностей всех состояний равна единице, то энтропия вычисляется по формуле Шеннона:

где - энтропия системы Х;

а - основание логарифма, определяющее единицу измерения информации;

n – количество состояний (значений), в котором может находится система.

Энтропия величина положительная, а так как вероятности всегда меньше единицы, а их логарифм отрицательный, поэтому знак минус в формуле К.Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.

Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увеличение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии)

Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Количество информации достигает максимального значения, если события равновероятны.

Р. Хартли предложил следующую формулу для измерения информации:

I=log2n ,

где n - количество равновероятных событий;

I – мера информации в сообщении о наступлении одного из n событий

Измерение информации выражается в ее объёме. Чаще всего это касается объёма компьютерной памяти и объёма данных, передаваемых по каналам связи. За единицу принято такое количество информации, при котором неопределённость уменьшается в два раза, такая единица информации получила название бит .

Если в качестве основания логарифма в формуле Хартли используется натуральный логарифм (), то единицей измерения информации является нат (1 бит = ln2 ≈ 0,693 нат). Если в качестве основания логарифма используется число 3, то - трит , если 10, то - дит (хартли).

На практике чаще применяется более крупная единица - байт (byte ), равный восьми битам. Такая единица выбрана потому, что с ее помощью можно закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Кроме байтов информация измеряется полусловами (2 байта), словами (4 байта) и двойными словами (8 байт). Широко используются также еще более крупные единицы измерения информации:

1 Килобайт (Кбайт - kilobyte ) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт - megabyte ) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт - gigabyte ) = 1024 Мбайт = 230 байт.

1 Терабайт (Тбайт - terabyte ) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт - petabyte ) = 1024 Тбайт = 250 байт.

В 1980 году российский математик Ю. Манин предложил идею построения квантового компьютера, в связи с чем появилась такая единица информации как кубит (quantum bit, qubit) – «квантовый бит» – мера измерения объема памяти в теоретически возможном виде компьютера, использующем квантовые носители, например - спины электронов. Кубит может принимать не два различных значения («0» и «1»), а несколько, соответствующих нормированным комбинациям двух основных состояний спина, что дает большее число возможных сочетаний. Так, 32 кубита могут закодировать около 4 млрд состояний.

Семантический подход. Синтаксической меры не достаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений.

Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винером и развита нашим отечественным ученым А.Ю. Шрейдером.

Тезаурусом называется совокупность сведений , которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность..

Зависимость объема смысловой информации сообщения от тезауруса получателя

Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса (знаний о существе поступившего сообщении, то есть =0), или наличия такого тезауруса, который не изменился в результате поступления сообщения (), то объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (), при котором объем семантической информации будет максимальным (). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль , но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю уже все известно.

Прагматическая мера информации определяет ее полезность в достижении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до, и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:

где - вероятность достижения цели до получения сообщения;

Вероятность достижения цели поле получения сообщения;