Понятие информации, форма представления, единицы измерения

31.01.2019

Единицы измерения и хранения данных

Информации и способы её представления в вычислительной технике

Определения и основные свойства информации

Информация (от лат. informatio - осведомление, разъяснение, изложение) - в широком смысле абстрактное понятие, имеющее множество значений в зависимости от контекста. В узком смысле этого слова - сведения (сообщения, данные) независимо от формы их представления. В настоящее время не существует единого определения термина информация. С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков.

Определения информации

1. Информация - совокупность данных, зафиксированных на материальном носителе, сохранённых и распространённых во времени и пространстве.

2. Информация – это совокупность сведений (данных), которая воспринимается из окружающей среды (входная информация), выдается в окружающую среду (исходная информация) или сохраняется внутри определенной системы.

3. Информация – это продукт взаимодействия данных и адекватных им методов. Информация возникает в процессе взаимодействия данных и соответствующих методов.

Свойства информации

1. Объективность информации . Информация объективна, если она не зависит от методов ее фиксации, чьего-либо мнения или суждения.

2. Достоверность информации . Информация достоверна, если она отражает истинное положение дел.

3. Полнота информации . Информацию является полной, если ее достаточно для понимания и принятия решений.

4. Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления.

5. Актуальность информации – важность для настоящего времени, злободневность, насущность.

6. Полезность (ценность) информации . Полезность может быть оценена применительно к нуждам потребителей и по отношению к результатам решения конкретных задач.

Сигналы и данные

Все физические объекты находятся в состоянии непрерывного движении или изменения, которое сопровождается обменом энергией и ее переходом из одной формы в другую. Энергообмен между объектами сопровождаются появлением сигналов. Все сигналы имеют в своей основе материальную энергетическую природу. При взаимодействии сигналов с физическими телами в последних возникают определенные изменения свойств - это явление называется регистрацией сигналов . Такие изменения можно наблюдать, измерять или фиксировать разными способами - при этом возникают и регистрируются новые сигналы, то есть образуются данные.

Данные - это зарегистрированные сигналы , совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки. Преобразование и обработка данных позволяет получить информацию.

Единицы измерения и хранения данных

В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом. При этом различают следующие подходы к оценке информации.

1. Структурный подход . Измеряет количество информации простым подсчетом информационных элементов, составляющих сообщение. Применяется для оценки возможностей запоминающих устройств или объемов передаваемых сообщений.

2. Статистический подход . Учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Применяется при оценке значимости получаемой информации.

3. Семантический подход . Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и ее соответствия реальности.

На практике чаще используется структурный подход. При этом наименьшей единицей представления информации является бит (bit - binary digit), который может принимать только два значения (0/1 или да/нет).

Наименьшей единицей измерения является байт , поскольку одним байтом, как правило, кодируется один символ текстовой информации.

Более крупная единица измерения - килобайт (Кбайт). В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт.

Более крупные единицы измерения данных образуются добавлением префиксов мега, гига, тера.

1 Мбайт = 1024 Кбайт = 10 20 байт

1 Гбайт = 1024 Мбайт = 10 30 байт

1 Тбайт = 1024 Гбайт = 10 40 байт

При хранении данных решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ. В качестве единицы хранения данных принят объект переменной длины, называемый файлом.

Файл - это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.

Энтропия - мера измерения недостающей информации.

Энтропия (информационная ) - мера хаотичности информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Информационная энтропия для независимых случайных событий X с N возможными состояниями (от 1 до N) рассчитывается по формуле:

где Х – дискретная случайная величина с диапазоном изменчивости N ,

P (X i ) – вероятность i – го уровня X .

Операции с данными

Обработка данных включает в себя множество различных операций.

1. Сбор данных - накопление информации с целью обеспечения достаточной полноты для принятия решений.

2. Формализация данных - приведение данных из разных источников к одинаковой форме.

3. Фильтрация данных - отсеивание «лишних» данных.

4. Сортировка данных - упорядочение данных по заданному признаку.

5. Архивация данных - организация хранения данных в удобной и легкодоступной форме.

6. Защита данных - комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных.

7. Транспортировка данных - прием и передача данных между удаленными участниками информационного процесса.

8. Преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую.

Существует много различных систем и единиц измерения данных. Каждая научная дисциплина и каждая область человеческой деятельности может использовать свои, наиболее удобные или традиционно устоявшиеся единицы. В информатике для измерения данных используют тот факт, что разные типы данных имеют универсальное двоичное представление и потому вводят свои единицы данных, основанные на нем.

Наименьшей единицей измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объему в символах.

Более крупная единица измерения – килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что для вычислитель­ной техники, работающей с двоичными числами, более удобно представление чисел в виде степени двойки и потому на самом деле 1 Кбайт равен 2 10 байт (1024 байт). Однако всюду, где это не принципиально, с инженерной погрешностью (до 3 %) «забывают» о «лишних» байтах.

В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт.

Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига-, тера-; в более крупных единицах пока нет практической надобности.

    1 Кбайт = 1024 байт = 2 10 байт ≈ 10 3 байт.

    1 Мбайт = 1024 Кбайт = 2 10 Кбайт = 2 20 байт = 1.048.576 байт ≈ 10 6 байт.

    1 Гбайт = 1024 Мбайт = 2 10 Мбайт = 2 30 байт = 1.073.741.824 байт ≈ 10 9 байт.

    1 Тбайт = 1024 Гбайт = 2 10 Гбайт = 2 40 байт = 1.099.511.627.776 байт ≈ 10 12 байт.

    1 Пбайт = 1024 Тбайт = 2 10 Тбайт = 2 50 байт = 1.125.899.906.842.624 байт ≈ 10 15 байт.

Таким образом, например, минимальный объем видеопамяти необходимый дляLCD-монитора с разрешением 12801024dpiв режиме цветопередачиTrue Color (32 бита) составит:

1280102432 бит = 41.943.040 бит = 5.242.880 байт = 5.120 Кбайт = 5 Мбайт.

Единицы хранения данных

Поскольку адресные данные тоже имеют размер и тоже подлежат хранению, хранить данные в виде мелких единиц, таких как байты, неудобно. Их неудобно хранить и в более крупных единицах (килобайтах, мегабайтах и т. п.), поскольку неполное заполнение одной единицы хранения приводит к неэффективности хранения.

В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл – это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяеттип файла.

Проще всего представить себе файл в виде безразмерного канцелярского досье, в которое можно по желанию добавлять содержимое или извлекать его оттуда. Поскольку в определении файла нет ограничений на размер, можно представить себе файл, имеющий 0 байтов (пустой файл) , и файл, имеющий любое число байтов.

В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним. Кроме функций, связанных с адресацией, имя файла может хранить и сведения о типе данных, заключенных в нем. Для автоматических средств работы с данными это важно, поскольку по имени файла они могут автоматически определить адекватный метод извлечения информации из файла.

Единицы представления данных

Существует множество систем представления данных. С одной из них, принятой в информатике и вычислительной технике, двоичным кодом, мы познакомились выше. Наименьшей единицей такого представления является бит (двоичный разряд) . Совокупность двоичных разрядов, выражающих числовые или иные данные, образуют некий битовый рисунок. Практика показывает, что битовым представлением удобнее работать, если этот рисунок имеет регулярную форму. В настоящее время в качестве таких форм используются группы из восьми битов, которые называют байтами .

Понятие о байте как о группе взаимосвязанных битов появились вместе с первыми образцами электронной вычислительной техники. Долгое время понятие байта было машинно-зависимым, то есть в различных вычислительных машинах длина байта была разной. Только в конце 60-х годов понятие байта стало универсальным и машинно-независимым .

Выше мы видели, что во многих случаях целесообразно использовать не восьмиразрядное кодирование, 16-разрядное, 24-разрядное, 32-разрядное и более. Группа из 16-ти взаимосвязанных бит (двух взаимосвязанных байтов) в информатике называется словом . Соответственно, группа из четырёх взаимосвязанных байтов (32 разряда) называются удвоенным словом , а группа из восьми байтов (64 разряда) – учетверённым словом .

Существует много систем и единиц измерения данных. Каждая научная дисциплина и каждая область человеческой деятельности может использовать свои, наиболее удобные и традиционно устоявшиеся единицы. В информатике для измерения данных используют тот факт, что разные типы данных имеют универсальное двоичное представление и поэтому вводят свои единицы данных, основанные на нём.

Наименьшей единицей измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объёму в символах (пока исключение составляет универсальная кодировка UNICODE ).

Более крупная единица – килобайт (Кбайт). Условно можно считать 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что для вычислительной техники, работающей с двоичными числами, более удобно представление чисел в виде степени двойки и потому на самом деле 1 Кбайт равен 2 10 байт (1024 байт).

В килобайтах измеряют сравнительно небольшие объёмы данных. Условно можно считать, что одна страница неформатированного машинного текста составляет около 2 Кбайт.

Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига-, тера-, пента-, экса-, зета-, йотта-.

Единицы Значения Метрический аналог
1 Кбайт 1024 байта (2 10) 1000 (10 2)
1 Мбайт 1024 Кбайт (2 20) 1000000 (10 6)
1 Гбайт 1024 Мбайт (2 30) 10 9
1 Тбайт 1024 Гбайт (2 40) 10 12
1 Пбайт 1024 Тбайт (2 50) 10 15
1 Эбайт 1024 Пбайт (2 60) 10 18
1 Збайт 1024 Эбайт (2 70) 10 21
1 Йбайт 1024 Збайт (2 8 0) 10 24

Особо обратим внимание на то, что при переходе к более крупным единицам «инженерная» погрешность, связанная с округлением, накапливается и становится недопустимой, поэтому на старших единицах измерения округления производятся реже.

Запоминающие устройства

Это устройства, предназначенные для хранения информации.

Наиболее важными характеристиками ЗУ являются емкость (объем храни-

мой информации) и быстродействие (время доступа к информации).

Внутренние ЗУ непосредственно взаимодействуют с процессором, имеют высокое быстродействие и относительно небольшую емкость. К внутренним ЗУ относятся: внутренняя память процессора (регистры), кэш-память, оперативная

память (ОП, ОЗУ, RAM), постоянная память (ПП, ПЗУ, ROM), энергонезави-

симая память (CMOS).

Регистры – это внутренняя память процессора. Она имеет высокое быст-

родействие и малую емкость (сотни байтов). Данные загружаются в регистры из ОП, обрабатываются в них процессором, а потом опять записываются в ОП.

К внутренним ЗУ относится кэш-память процессора, но часто и различные

внешние устройства имеют свою собственную кэш-память. Обмен данными внутри процессора происходит в несколько раз быстрее, чем обмен с другими устройствами, например с оперативной памятью. Для того чтобы уменьшить количество обращений к оперативной памяти, внутри процессора создают бу- ферную область – так называемую кэш-память. Это как бы «сверхоперативная память». Когда процессору нужны данные, он сначала обращается в кэш- память, и только если там нужных данных нет, происходит его обращение в оперативную память. Принимая блок данных из оперативной памяти, процес- сор заносит его одновременно и в кэш-память. «Удачные» обращения в кэш- память называют попаданиями в кэш. Процент попаданий тем выше, чем боль- ше размер кэш-памяти, поэтому высокопроизводительные процессоры ком- плектуют повышенным объемом кэш-памяти. Сегодня кэш-память устанавли- вается «пирамидой».

Основная память (ОП) предназначена для хранения и оперативного об- мена информацией с прочими блоками машины. ОП содержит два вида за- поминающих устройств: постоянное запоминающее устройство (ПЗУ) и опера- тивное запоминающее устройство (ОЗУ).

ПЗУ (ROM – Read Only Memory) предназначено для хранения неиз-

меняемой (постоянной) программной и справочной информации; позволяет опе-

ративно только считывать информацию, хранящуюся в нем.

ОЗУ (RAM – Random Access Memory) предназначено для оперативной записи, хранения и считывания информации (программ и данных), непосредст- венно участвующей в информационно-вычислительном процессе, выполняемом

ПК в текущий период времени. Главными достоинствами оперативной памяти являются ее высокое быстродействие и возможность обращения к каждой ячей- ке памяти отдельно (прямой адресный доступ к ячейке). В качестве недостатка

оперативной памяти следует отметить невозможность сохранения информации в ней после выключения питания машины (энергозависимость).

Кроме основной памяти на системной плате ПК имеется и энергонезависимая память CMOS RAM (Complementary Metal–Oxide Semiconductor RAM), постоян- но питающаяся от своего аккумулятора; в ней хранится информация об аппаратной конфигурации ПК (обо всей аппаратуре, имеющейся в компьютере), которая про- веряется при каждом включении системы.

Внешние ЗУ (электромеханические устройства – накопители на дисках – жесткий диск, флэш-память) взаимодействуют с процессором через внутренние ЗУ, имеют большую емкость и относительно низкое быстродействие.

Единицы представления данных

Существует множество систем представления данных. С одной из них,

принятой в информатике и вычислительной технике, двоичным кодом, мы по-

знакомились выше. Наименьшей единицей такого представления является бит (двоичный разряд). Группы из восьми битов называются байтами. Байт – ми- нимальная адресуемая ячейка памяти.

Группа из 16 взаимосвязанных битов (двух взаимосвязанных байтов) в ин- форматике называется словом. Соответственно, группы из четырех взаимосвя- занных байтов (32 бита) называются удвоенным словом.

Единицы измерения данных

Наименьшей единицей измерения является байт.

Более крупные единицы измерения данных образуются добавлением пре-

фиксов кило– , мега– , гига– , тера– , пета– .

1Кбайт = 1024 байт = 210 байт.

1 Мбайт = 1024 Кбайт = 220 байт.

1 Гбайт = 1024 Мбайт =230 байт.

1 Тбайт = 1024 Гбайт = 240 байт.

1 Пбайт = 1024 Тбайт = 250 байт.

Единицы хранения данных

При хранении данных решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ

(если доступ не обеспечен, то это не хранение).

В качестве единицы хранения данных принят объект переменной длины,

называемый файлом. Файл – это последовательность произвольного числа байтов, обладающая уникальным собственным именем.

Проще всего представить себе файл в виде безразмерного канцелярского

досье, в которое можно по желанию добавлять содержимое или извлекать его оттуда. Поскольку в определении файла нет ограничений на размер, можно

представить себе файл, имеющий 0 байтов (пустой файл), и файл, имеющий любое число байтов.

В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним. Кроме функций,

связанных с адресацией, имя файла может хранить и сведения о типе данных, заключенных в нем (расширение или тип файла). Для автоматических средств работы с данными это важно, поскольку по имени файла они могут автоматиче- ски выбрать наиболее адекватный метод для извлечения информации из него.

Файловая система предоставляет возможность работы с двумя вариантами имен файлов – длинным и коротким.

До появления операционной системы Windows 95 общепринятым спосо- бом именования файлов на компьютерах IBM PC было соглашение 8.3. Соглас- но этому соглашению, принятому в MS DOS, имя файла состоит из двух частей:

собственно имени и расширения имени. На имя файла отводилось 8 символов, а на его расширение – 3 символа. Имя от расширения отделяется точкой. Как имя, так и расширение могут включать только алфавитно-цифровые симво-

лы латинского алфавита.

При записи имени файла разрешается использовать только буквы англий-

ского алфавита и цифры. Начинаться имя должно с буквы. Пробелы и знаки препинания не допускаются, за исключением восклицательного знака (!), тиль-

ды (~) и символа подчеркивания (_).

После введения в действие операционной системы Windows 95 требования к именам файлов стали существенно мягче. Они действуют и во всех после-

дующих версия операционных систем Windows.

1. Разрешается использовать до 255 символов.

2. Разрешается использовать символы национальных алфавитов, в частно-

сти русского.

3. Разрешается использовать пробелы и другие ранее запрещенные симво-

лы, за исключением следующих девяти: /\:*?"<>|.

4. В имени файла можно использовать несколько точек. Расширением имени считаются все символы, стоящие за последней точкой.

Роль расширения имени файла чисто информационная, а не командная.

Если файлу с рисунком присвоить расширение имени ТХТ, то содержимое файла от этого не превратится в текст. Его можно просмотреть в программе, предназначенной для работы с текстами, но ничего вразумительного такой про- смотр не даст.

Понятие о файловой структуре

Требование уникальности имени файла очевидно – без этого невозможно гарантировать однозначность доступа к данным. В средствах вычислительной техники требование уникальности имени обеспечивается автоматически – соз- дать файл с именем, тождественным уже имеющемуся, нельзя.

Хранение файлов организуется в иерархической структуре, которая в дан- ном случае называется файловой структурой. В качестве вершины структуры служит имя носителя, на котором сохраняются файлы. Далее файлы группиру-

ются в каталоги (папки), внутри которых могут быть созданы вложенные ка-

талоги (папки). Путь доступа к файлу начинается с имени устройства и вклю-

чает все имена каталогов (папок), через которые он проходит. В качестве разде-

лителя используется символ «» (обратная косая черта).

Уникальность имени файла обеспечивается тем, что полным именем файла считается собственное имя файла вместе с путем доступа к нему. Понятно, что в этом случае на одном носителе не может быть двух файлов с тождествен- ными полными именами.

<Путь доступа к файлу> <Имя. расширение>

Пример записи полного имени файла:

<имя носителя>\<имя каталога– 1>...\<имя каталога– N>\<собственное имя файла>

Вот пример записи двух файлов, имеющих одинаковое собственное имя и размещенных на одном носителе, но отличающихся путем доступа, то есть

полным именем:

С:Мои документыЛекцииИнформатикаЛекция 1.doc

С:Мои документыЛекцииИсторияЛекция 1.doc

В данных примерах мы имеем два файла с одинаковым собственным име- нем Лекция 1.doc. Однако это разные файлы. Они различаются полными име- нами, в состав которых кроме собственного имени входит также и путь досту- па. Забегая вперед, скажем, что не только на одном носителе, но и на одном компьютере не может быть двух файлов с одинаковыми полными именами, так как все носители имеют разные имена. А если заглянуть дальше, в Интернет, то можно сказать, что и во всем мире не может быть двух файлов с одинаковыми полными именами, так как в масштабах Всемирной сети каждый компьютер имеет уникальный адрес.

О том, как на практике реализуются файловые структуры, мы узнаем не-

сколько позже, когда познакомимся со средствами вычислительной техники и с понятием файловой системы (см. раздел Файловая система).

Контрольные вопросы

1. Назовите наиболее важные характеристики запоминающих устройств.

2. Охарактеризуйте внутренние запоминающие устройства.

3. Перечислите внутренние запоминающие устройства.

4. Дайте характеристику регистрам процессора.

5. Дайте характеристику кэш-памяти.

6. Что включает в себя основная память ПК?

7. Дайте характеристику ПЗУ.

8. Дайте характеристику ОЗУ.

9. Что означают ROM и RAM?

10. Дайте характеристику CMOS.

11. Охарактеризуйте внешние запоминающие устройства.

12. Какие устройства относятся к внешним запоминающим устройствам?

13. Что является наименьшей единицей представления данных?

14. Что такое байт?

15. Что такое компьютерное слово?

16. Что такое компьютерное удвоенное слово?

17. Что является наименьшей единицей измерения данных?

18. Какие единицы измерения данных вы знаете?

19. Что является единицей хранения данных?

20. Что такое файл?

21. Назовите минимальный размер файла.

22. Что означает короткое и длинное имя файла?

23. Какие символы не допускаются в имени файла?

24. Допускается ли использование нескольких точек в имени файла?

25. Что означает расширение имени файла?

26. Что такое файловая структура?

27. Что является вершиной файловой структуры?

28. Что представляет собой путь доступа к файлу?

29. Что понимается под полным именем файла?