Информационные системы используемые в интернет. Фундаментальные исследования

12.04.2019
Шпаргалка по информационному праву Якубенко Нина Олеговна

39. ПОРЯДОК СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ И ИХ СЕТЕЙ. ИНФОРМАЦИОННЫЕ СИСТЕМЫ СВЯЗИ: ИНТЕРНЕТ, ЭЛЕКТРОННАЯ ПОЧТА, ЦИФРОВАЯ СВЯЗЬ И ДР

Как известно, Интернет называют еще – World Wide Web (WWW) – «всемирная информационная паутина». Причем не просто паутина, а паутина, включающая в себя многочисленные базы и банки данных.

Другими словами – это распределенная всемирная база знаний, включающая в себя множество различных информационных массивов (информационных ресурсов, баз данных или знаний), состоящих из документов, данных, текстов, объединенных между собой трансграничной телекоммуникационной информационной паутиной или сетью.

Эта всемирная информационная паутина сформирована на базе бесчисленного множества компьютеров (средств вычислительной техники) разных типов и назначения, программных средств, информационных ресурсов, средств связи и телекоммуникаций, по которым передается и получается информация.

Совокупность информационных массивов World Wide Web как бы пронизывается многочисленными «гипертекстовыми» связями. Каждая такая связь «соединяет» между собой любые точки текстовых или графических документов WWW или элементов документов. Они представляются в формате HTML (Hiper Text Markup Laguage) и могут состоять из текстовых и графических фрагментов, элементов оформления, отдельных данных и других аналогичных структур.

В состав Интернета входят и обеспечивают ее функционирование множество провайдеров (субъектов, предоставляющих информационные услуги пользователям Интернета), владельцев серверов (компьютеров, на которых размещаются запасы информации) и, наконец, пользователей услугами Интернета и потребителей информации.

В результате развитие телекоммуникационных систем, глобальных сетей и интерактивных средств распространения информации создает возможность доступа отдельного пользователя к практически неограниченным информационным массивам. Таким образом, создается единое мировое электронное информационное пространство.

В начале 90-х гг. бывший президент фирмы Appje Д. Скаллде и другие специалисты выдвигали идеи навигации в едином открытом информационном пространстве – «навигации знании». Таким открытым информационным пространством и стал Интернет.

Можно ли назвать такую сложную всемирную паутину, именуемую «Интернет», автоматизированной информационной системой? Для этого вернемся к определению, принятому законодателем.

Федеральным законом «Об информации, информатизации и защите информации» определено понятие «информационная система» – организационно упорядоченная совокупность документов (массивов документов) и информационных технологий, в том числе использованием средств вычислительной техники реализующих информационные процессы» (ст. 2).

В этой статье дано также определение термина «средства обеспечения автоматизированных информационных систем и их технологий – программные, технические, лингвистические, правовые, организационные средства (программы для электронных вычислительных машин; средства вычислительной техники и связи; словари, тезаурусы и классификаторы; инструкции и методики; положения, уставы, должностные инструкции; схемы и их описания, другая эксплуатационная и сопроводительная документация), используемые или создаваемые при проектировании информационных систем и обеспечивающие их эксплуатации».

Из книги Таможенный кодекс РФ автора Законы РФ

Статья 424. Сертификация информационных систем, информационных технологий, средств их обеспечения и защиты Информационные системы, информационные технологии, средства их обеспечения, а также программно-технические средства защиты информации, применяемые в таможенном

Из книги Таможенный кодекс РФ автора Дума Государственная

Статья 424. Сертификация информационных систем, информационных технологий, средств их обеспечения и защиты Информационные системы, информационные технологии, средства их обеспечения, а также программно-технические средства защиты информации, применяемые в таможенном

Из книги Градостроительный кодекс Российской Федерации. Текст с изменениями и дополнениями на 2009 год автора Автор неизвестен

Статья 57. Порядок ведения информационных систем обеспечения градостроительной деятельности и предоставления сведений информационных систем обеспечения градостроительной деятельности 1. Ведение информационных систем обеспечения градостроительной деятельности

Из книги Таможенный кодекс Российской Федерации. Текст с изменениями и дополнениями на 2009 год автора Автор неизвестен

СТАТЬЯ 424. Сертификация информационных систем, информационных технологий, средств их обеспечения и защиты Информационные системы, информационные технологии, средства их обеспечения, а также программно-технические средства защиты информации, применяемые в таможенном

Из книги Уголовный кодекс Украины в анекдотах автора Кивалов С В

Раздел XVI ПРЕСТУПЛЕНИЯ В СФЕРЕ ИСПОЛЬЗОВАНИЯ ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНЫХ МАШИН (КОМПЬЮТЕРОВ, СИСТЕМ И КОМПЬЮТЕРНЫХ СЕТЕЙ И СЕТЕЙ

Из книги Комментарий к правилам оказания услуг связи автора Сухарева Наталия Владимировна

Статья 361. Несанкционированное вмешательство в работу электронно-вычислительных машин (компьютеров), автоматизированных систем, компьютерных сетей или сетей электросвязи 1. Несанкционированное вмешательство в работу электронно-вычислительных машин (компьютеров),

Из книги Шпаргалка по информационному праву автора Якубенко Нина Олеговна

III. Порядок присоединения сетей связи телерадиовещания и их взаимодействия с сетью связи телерадиовещания оператора сети связи телерадиовещания, занимающего существенное положение Комментарий к пункту 14Реестр ведется по форме, установленной Мининформсвязи .

Из книги Право Европейского Союза автора Кашкин Сергей Юрьевич

17. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ ОСУЩЕСТВЛЕНИИ ПОИСКА, ПОЛУЧЕНИЯ И ПОТРЕБЛЕНИЯ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ РЕСУРСОВ, ИНФОРМАЦИОННЫХ ПРОДУКТОВ, ИНФОРМАЦИОННЫХ УСЛУГ Такие права и обязанности возникают у потребителей информации, действующих в

Из книги Экзамен на адвоката автора

18. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ ПРОИЗВОДСТВЕ, ПЕРЕДАЧЕ И РАСПРОСТРАНЕНИИ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ РЕСУРСОВ, ИНФОРМАЦИОННЫХ ПРОДУКТОВ, ИНФОРМАЦИОННЫХУСЛУГ Характер и особенности прав и обязанностей, возникающих при производстве, передаче и

Из книги Управление дебиторской задолженностью автора Брунгильд Светлана Геннадьевна

19. ИНФОРМАЦИОННЫЕ ПРАВООТНОШЕНИЯ, ВОЗНИКАЮЩИЕ ПРИ СОЗДАНИИ И ПРИМЕНЕНИИ ИНФОРМАЦИОННЫХ СИСТЕМ, ИХ СЕТЕЙ, СРЕДСТВ ОБЕСПЕЧЕНИЯ И МЕХАНИЗМОВ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ Информационные правоотношения, возникающие при осуществлении таких информационных процессов,

Из книги автора

52. ПРАВОВОЙ РЕЖИМ ИНФОРМАЦИОННЫХ СИСТЕМ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СРЕДСТВ ИХ ОБЕСПЕЧЕНИЯ Основными источниками правового регулирования отношений в области создания и применения автоматизированных информационных систем, информационных технологий средств связи и

Из книги автора

53. ПОРЯДОК РАЗРАБОТКИ И ВНЕДРЕНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ, ТЕХНОЛОГИЙ И СРЕДСТВ ОБЕСПЕЧЕНИЯ Отношения, возникающие при разработке и внедрении информационных систем, технологий и средств их обеспечения, регулируются нормами ГК РФ (гл. 38 «Выполнение

Из книги автора

54. ГОСУДАРСТВЕННАЯ ПОЛИТИКА В ОБЛАСТИ СОЗДАНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СРЕДСТВ ИХ ОБЕСПЕЧЕНИЯ Федеральным законом «Об информации, информатизации и защите информации» определена государственная политика в сфере создания и применения

Из книги автора

149. Как регулируется в праве Европейского Союза электронная цифровая подпись? В декабре 1999 г. Европейским парламентом совместно с Советом была принята Директива о порядке использования электронных подписей в Европейском сообществе. В соответствии со ст. 2 Директивы

Из книги автора

Вопрос 50. Справочные правовые системы, информационные Интернет-ресурсы в работе адвоката. Справочно-правовые системы (СПС) – это компьютерные базы данных, содержащие тексты нормативных правовых актов, решения высших судебных органов, материалы судебной практики,

Введение………………………………………………………………………3

1. Характеристика глобальных информационных сетей…………….4

2. История INTERNET ………………………………………………....7

3. Поиск информации Internet…………………………………………..9

4. Назначение Internet Explorer………………………………………....9

5. World Wide Web……………………………………………………….12

Заключение…………………………………………………………….16

Список использованной литературы…………………………………17

Введение

На сегодняшний день в мире существует более 130 миллионов компьютеров и более 80 % из них объединены в различные информационно-вычислительные сети от малых локальных сетей в офисах до глобальных сетей типа Internet, FidoNet, FREEnet и т.д. Всемирная тенденция к объединению компьютеров в сети обусловлена рядом важных причин, таких как ускорение передачи информационных сообщений, возможность быстрого обмена информацией между пользователями, получение и передача сообщений (факсов, E-Mail писем, электронных конференций и т.д.) не отходя от рабочего места, возможность мгновенного получения любой информации из любой точки земного шара, а так же обмен информацией между компьютерами разных фирм производителей работающих под разным программным обеспечением.

Такие огромные потенциальные возможности, которые несет в себе вычислительная сеть и тот новый потенциальный подъем, который при этом испытывает информационный комплекс, а так же значительное ускорение производственного процесса не дают нам право игнорировать и не применять их на практике.

Зачастую возникает необходимость в разработке принципиального решения вопроса по организации ИВС (информационно-вычислительной сети) на базе уже существующего компьютерного парка и программного комплекса, отвечающей современным научно-техническим требованиям с учетом возрастающих потребностей и возможностью дальнейшего постепенного развития сети в связи с появлением новых технических и программных решений.

1. Характеристика глобальных информационных сетей

Глобальные информационные сети – одно из основных достижений человечества в области информационных технологий, главная примета вхождения в эпоху информационного общества. Делая возможным оперативное общение на огромных расстояниях (в разных странах и даже на континентах), глобальные сети уже изменили для многих людей характер и возможности образования и профессиональной деятельности. Потенциальные возможности глобальных сетей пока используются лишь в малой мере, но эта область прикладной информатики является самой динамичной.

В настоящее время на Западе действует много глобальных сетей. Назовём для примера BITNET – сеть, объединяющую более 800 коллективных участников, преимущественно из числа университетов, колледжей и научных центров, охватывающую 35 стран Америки, Европы и Азии.

Из российских телекоммуникационных сетей крупнейшей (фактически действующей во всех странах СНГ и Прибалтики) является сеть RELCOM, созданная в 1990 году. Уже в 1996 году она имела порядка 300 узлов и насчитывала десятки тысяч абонентов. Сеть является членом Европейского консорциума EUNET, объединяющего многие сети Восточной Европы и Северной Африки, которая, в свою очередь, является участником гигантского мирового сообщества INTERNET. Ещё в 1994 году пользователи RELCOM имели доступ к более чем миллиону компьютеров по всему миру. Шлюз, позволяющий RELCOM выходить в зарубежные сети, находится в Москве, оттуда информация, адресованная за рубеж, поступает в Хельсинки – Амстердам – и далее по всему миру с использованием всех существующих видов связи.

Сеть универсальна, она предоставляет все виды услуг – от простой электронной почты до выхода в INTERNET. Подключившись к сети RELCOM, пользователь получает возможность обмениваться любой информацией со всеми абонентами этой сети и десятков других сетей. Это может быть личная или служебная переписка, обмен научной и деловой информацией с группой пользователей или со всеми пользователями, интересующимися данным вопросом (с помощью, так называемых, телеконференций).

Кроме RELCOM в России действуют не менее трёх десятков независимых сетей. Большинство из них являются ведомственными и имеют относительно немного клиентов. Например, любительская компьютерная сеть – FidoNet. В качестве каналов связи в ней используются практически только коммутируемые телефонные каналы. Пользователь сети имеет возможность обмена почтовыми сообщениями и файлами. На большинстве серверов сети действуют электронные «доски объявлений». Работа в этой сети ведётся в режиме очень похожем на разговор по телефону только в определённые часы.

Глобальные информационные сети включают в себя огромное множество абонентских пунктов, в ней существуют специальные компьютерные узлы связи, функционирующие круглосуточно. Пользователь включается в обмен информацией в желаемое для него время. Для этого он соединяется с ближайшей к нему хост-машиной, которая, в свою очередь, соединяется с другими хост-машинами в соответствии с адресом, указываемым пользователем сети. Хост-машина хранит поступившие на неё сообщения до тех пор, пока пользователь их не заберёт (или ограничивается разумным сроком хранения). Хост-машины постоянно связаны между собой по выделенным каналам связи и обмениваются информацией в автоматическом режиме под управлением специальных программ.

В глобальных компьютерных сетях используется структура древовидной топологии. Разрыв кабеля в такой сети выводит из строя лишь её часть – это важное преимущество сети древовидной топологии.

Процесс передачи данных по сети древовидной топологии определяет шесть компонент:

Компьютер-источник;

Блок протоколов;

Передатчик;

Физическая кабельная сеть;

Приёмник;

Компьютер-адресат.

В глобальных сетях существуют два режима информационного обмена. Диалоговый режим (или режим реального времени), в котором пользователь, получив порцию информации, может немедленно на неё реагировать, подавать новую команду в сеть для получения новых порций информации, называется on-line. В пакетном режиме, называемом off-line, пользователь передаёт порцию информации (или принимает её) в коротком сеансе связи и на некоторое время отключается от сети. Это время может быть достаточно длительным – от нескольких часов до нескольких суток – пока его запрос не будет обработан. On-line похож на разговор по телефону, off-line – на обмен обычными письмами по почте.

Пользователю глобальной сети доступен, по существу, весь мир. Самой известной глобальной сетью является сеть Интернет (это слово с некоторых пор стало нарицательным, поэтому, можно его писать с маленькой буквы), представляющая собой объединение огромного числа сетей, – отраслевого, регионального и ещё более узкого – локального уровня. “Малые” сети имеют выходы (шлюзы) в сети более высокого ранга, в согласованную систему адресов и протоколов (правил) передачи данных, и так образуют INTERNET – сеть сетей.

2. История INTERNET

Как и большинство технологий Интернет в своем развитии прошёл 3 периода:

1. Исследовательский (1957 – 1969). В агентстве перспективных проектов и исследований министерства обороны США начались эксперименты по соединению компьютеров друг с другом с помощью телефонных линий. Возникла сеть ARPA , предназначавшаяся для управления военными операциями и страной в период войны: каждая пара ПК в сети взаимодействуют автономно, а канал связи между ними в любой момент может быть разрушен, например бомбежкой. Уцелевший ПК может подключиться к сети через уцелевшие каналы связи.

2. Период становления (1969 – 1995). Датой рождения Интернета, который в начале назывался ARPAnet, принято считать 29 октября 1969 года, когда удалось соединить 4 ПК. Первый выход в свет засекреченная ARPAnet совершила в 1972 году, когда ее представляли на Международной компьютерной конференции связи. Уже тогда сеть содержала электронную почту e-mail. К концу 70-х годов были разработаны средства связи между ARPAnet и ее контрагентами в других странах. Мир оказался сведен в одно целое паутиной компьютерных сетей.

3. Период развития. В 80-ые годы сообщество сетей стало называться INTERNET. Были разработаны протоколы передачи данных. Как это часто происходит в жизни, и в компьютерной в частности, сначала появляется некое устройство, а потом правила пользования ею. Часто сам изобретатель не догадывается обо всех возможностях, скрытых в его изобретении. Примерно это произошло с INTERNET. Задуманная с довольно нелепой целью – связать всего-то около двух тысяч программистов с ничтожным количеством суперкомпьютеров, сеть выросла в глобальную информационную систему, охватывающую огромное количество людей и миллионы компьютеров. В 1990 году число объединившихся сетей достигло 3-х тысяч, а число ПК 200 тысяч. В 1992 году – 1млн. ПК, в 1995 году – 20 млн. ПК.

А в России?

В Россию Интернет проник в начале 90-х. Ряд университетов и исследовательских институтов приступили к построению своих сетей, например, на базе института атомной энергии им. Курчатова были созданы 2 сети: Relcom и Демос. До 1993 года сети предоставляли только услуги электронной почты.

В 1993 году мощный импульс развитию Интернета в России придала “Телекоммуникационная программа Международного научного фонда”. Она финансировалась Джорджем Соросом – известным американским мультимиллионером.

В 1994 году появилась сеть RUNnet (университетская).

В 1996 – 1998г. – сеть для нужд науки и высшей школы RBnet (на волоконно-оптических каналах).

В 1998г. – сеть Ростелеком (самый крупный поставщик услуг Интернета в России), Голден Телеком и Глобал Один. Другие сети: PIDOnet, Telnet, Glasnet. Сейчас 10 млн. пользователей Интернета – россияне.

В настоящее время на десятках миллионов компьютеров, подключенных в Интернет, хранится громадный объём информации (миллионы файлов, документов и т. д.) и сотни миллионов людей пользуются услугами Интернет.

3. Поиск информации в Internet

Пользователь ищет информацию в INTERNET либо с какой-либо целью, либо просто осматривается вокруг, чтобы знать, что есть в наличии. Море информации представлено в INTERNET, так что можно потратить огромное количество времени, просто переходя c одного сайта на другой и определяя, какая информация имеется в наличии. Эффект взрыва произвело появление таких средств управления поиском информации как GOPHER и WWW. GOPHER использует систему меню, чтобы позволить пользователям осуществлять выбор информации. WWW использует метафору web - паутина, т.к. эта система позволяет свободно перемещаться внутри системы, построенной на основе гипертекста (НТТР).

1

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю. Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». В данной статье рассмотрено построение информационно-аналитической системы, предназначенной для оперативного поиска информации в сети Интернет, распространение которой в Российской Федерации запрещено. Предложен подход к построению информационных систем, осуществляющих поиск информации в сетях общего пользования и обработку большого объема разнородных неструктурированных данных, которые представлены в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

анализ данных

информационно-поисковые системы

неструктурированные данные

2. Ерохин Г.Н., Дружинин В.А., Царегородцев А.Л., Махнева Т.В., Огородников И.Н., Карташев Е.А. Телемедицина отложенных консультаций на примере северных регионов // Информационно-измерительные и управляющие системы. – 2009. – Т. 7. – № 12. – С. 49–53.

3. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды 9-й Всероссийской научной конференции RCDL’2007: Сб. работ участников конкурса. – Т. 1. – Переславль- Залесский: «Университет города Переславля», 2007. – С. 166–174.

4. Карташев Е.А., Самков Л.М. Онлайновая информационно-аналитическая система мониторинга индикаторов жизнеобеспечения территориальных объектов Управление большими системами: сборник трудов. – 2009. – № 24. – С. 112–129.

5. Макунин, Алексей Анатольевич. Технология построения модульных автоматизированных информационных систем для сложных предметных областей и ее применение на примере информационной поддержки системы муниципального заказа органов местного самоуправления: дис. ... канд. техн. наук: 05.13.11. – Томск, 2005. – 228 с.

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю.

Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». Зачастую такая информация представлена на сайтах в сети Интернет, которые могут существенно различаться как по использующимся в них технологиям, так и по их функциональности. В свою очередь информация не структурирована и может быть представлена в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

На рынке существует ряд информационных систем, осуществляющих подобную обработку данных и применяемых в других сферах, но информация об их структуре и применяемых методах обработки данных не раскрывается. Зачастую они предоставляются по технологии SaaS (англ. software as a service), что неприемлемо с учетом специфики обрабатываемых данных.

Цель данной работы - предложить структуру информационной системы, обеспечивающей возможность оперативного получения неструктурированной информации с большого количества различных сайтов в сети Интернет и ее хранения для последующей обработки, при этом должна предусматриваться возможность увеличения объема обрабатываемых данных за счет увеличения количества применяемого оборудования (горизонтальное масштабирование) и использование невысокопроизводительного серверного оборудования.

Разработка автоматизированной информационной системы поиска и анализа информации в сети Интернет (далее АИС Поиск) осуществлялась в Югорском научно-исследовательском институте информационных технологий и предназначена: для взаимодействия с сайтами в сети Интернет; хранения и анализа собранной информации; предоставления результатов обработки информации в виде отчетов пользователю.

Взаимодействие с сайтами в сети Интернет направлено на сбор с них исходной информации, предусматривает работу в режиме запрос - ответ по следующим направлениям: поиск требуемой информации на сайте сети Интернет; загрузка найденной информации в АИС Поиск; актуализация информации, хранящейся в АИС Поиск, за счет сравнения с версией , расположенной на сайте сети Интернет (выполняется через определенный интервал времени, определяемый с учетом обновления информации).

Контекстная диаграмма потоков данных АИС Поиск

Хранение собранной информации с сайтов в сети Интернет предусматривает множество точек входа для сбора и обработки информации, при этом каждая из них может собирать и обрабатывать данные по своим уникальным правилам.

На этапе проектирования были разработаны диаграммы потоков данных, описывающие основные процессы АИС Поиск и потоки данных, циркулирующих в системе. На рисунке представлена контекстная диаграмма потоков данных АИС Поиск.

Рассмотрим процессы контекстной диаграммы подробнее.

1. Формирование критериев поиска документов (ключевые слова, тематические фразы, поисковые запросы, образцы изображений, фрагменты аудио- и видеозаписей) - определяются требования к содержанию документов, которые должны быть найдены на информационных ресурсах, расположенных в сети Интернет, и загружены в базу данных. Первоначальное наполнение осуществляется оператором, в последующем уточняется по результатам анализа документов.

2. Формирование задач поиска документов - определяется режим поиска документов на информационных ресурсах с учетом имеющихся возможностей, периодичности обновления информации и приоритетов пользователя. Формируется в виде задачи, для которой определяется: время запуска, информационные ресурсы, критерии поиска документов.

3. Поиск документов - обеспечивает выполнение задач по поиску документов: периодическая проверка наличия требующих запуска задач поиска документов, выполнение задачи поиска документов в рамках которой по количеству установленных критериев поиска документов и информационных ресурсов выполняется набор действий:

а) формирование запроса на получение данных к информационному ресурсу на основе определенных критериев поиска документов и его синтаксиса;

б) направление запроса на получение данных в информационный ресурс и ожидание ответа;

в) обработка ответа информационного ресурса (запись ссылок на найденные документы в базу данных).

4. Загрузка документов - обеспечивает загрузку документа по найденной ссылке: проверка доступности документа по найденной ссылке; сравнение загруженного документа с предыдущей версией, при ее наличии (проверка на наличие изменений) в базе данных; запись загруженного документа в базу данных.

5. Анализ документов - обеспечивает автоматическую обработку загруженных документов: извлечение объектов из документа (структурированные данные: ФИО, должности, название территорий и веществ, контактная информация, события и т.д.); определение характера связи для выявленных объектов: объект - субъект, негатив - позитив и т.д.; расчет вероятности отнесения документа к различным группам документов, ранее определенных пользователем (классификация документа); выявление похожих документов (с использованием методов классификации объектов по группам за счет выявления наперед неизвестных общих признаков (введен в 1939 году Robert Tryon) ); уточнение критериев поиска документов на основе ранее классифицированных и кластеризованных документов.

6. Формирование отчетов - подготовка данных для отображения пользователю (выполнение операций, которые не могут быть выполнены за время ожидания пользователем отклика АИС Поиск).

7. Представление отчетов - представление данных в виде отчетов на основе определенных шаблонов с учетом предпочтений пользователя, при этом ему предоставляется возможность установки фильтра для отбора данных в него включаемых.

8. Верификация данных - подтверждаются пользователем результаты анализа документов: классификация, извлеченные объекты, установленные связи.

По результатам изучения опыта построения подобных систем, в том числе представленных в , была выбрана модульная архитектура системы. Использование модульного подхода в качестве основы для такого инструментария позволяет не только просто строить сложные приложения, собирая их из «кирпичиков», но и обеспечивать их взаимозаменяемость для доработки программного обеспечения и расширения возможностей информационных систем. Основные преимущества модульной архитектуры этим не ограничиваются. Также к ключевым особенностям выбранного подхода к построению АИС Поиск можно отнести возможность выборочной ее компоновки, многократное использование однажды написанного кода и разработанных классов .

В общем виде структура АИС Поиск состоит из следующих модулей:

База данных (совокупность средств для обеспечения хранения и доступа к найденным данным).

Интерфейс пользователя (предоставляет инструменты пользователю для просмотра имеющихся данных и результатов их обработки, а также по управлению работой каждого из модулей).

Подсистема анализа (осуществляет обработку (классификация, определение объектов и связей) найденных данных).

Подсистема сбора данных (реализует заданный пользователем алгоритм работы Модулей взаимодействия (запуск, формирование параметров) и обеспечивает загрузку получаемых от них данных в Базу данных).

Модуль взаимодействия (обеспечивает получение данных с определенного информационного ресурса в соответствии с установленными параметрами).

Все эти собранные неструктурированные данные требуется быстро анализировать, что в свою очередь невозможно без соответствующей организации хранения этих данных. Тенденции последних лет показывают, что для хранения неструктурированных данных используются современные СУБД, сочетающие в себе гибкость модели хранилища документов и строгость и простоту реляционной модели.

Например, в СУБД PostreSQL 9.2 появилась поддержка типа данных JSON (JavaScript Object Notation), а в 9.3 добавились функции обработки значений в нём. Этот же тип данных теперь поддерживается и в MySQL начиная с версии 5.7.8. Аналогичный функционал есть и в СУБД Oracle, MSSQL.

Существует несколько подходов к хранению неструктурированных данных в информационных системах:

Непосредственно в базе данных, при этом большинство современных СУБД предусматривают для этого специализированный тип данных: JSONB в PostgreSQL, CLOB в Oracle и т.д.;

Вне базы данных (в виде файлов в соответствующих хранилищах), при этом в базе данных хранятся только ссылки на них. Основными недостатками данного варианта являются сложности с администрированием, обеспечением доступности и целостности данных. В свою очередь преимуществом данного подхода является возможность использования стандартных приложений по их обработке (просмотр), сокращение общего объема базы данных (не требуется выделять большой объем дискового пространства в одном месте), данные могут храниться на большом количестве различных серверов с небольшим объемом дискового пространства. На сегодняшний день данное направление активно поддерживается разработчиками СУБД и ведутся работы по устранению указанных недостатков, в частности в MS SQL Server 2012 появились таблицы FileTable для работы с файлами, а в Oracle - параметр SecureFiles для типа данных LOB.

Принимая во внимание, что наибольшую часть (объем) будут занимать неструктурированные данные, доступ к которым нужен будет эпизодически (на этапе загрузки для извлечения метаданных и несколько раз для демонстрации результатов пользователю), была предложена следующая структура: Файловый сервер - Драйвер доступа - СУБД.

В качестве файловых серверов было принято решение использовать сервера под управлением свободно распространяемой операционной системы Linux (Debian, или Astra Linux), а в качестве СУБД Postgres, так как она: свободно распространяемая, имеет развитые инструменты для полнотекстового поиска и может быть сертифицирована по требованиям безопасности информации например в составе операционной системы Astra Linux.

В соответствии с предложенным подходом нами в Югорском НИИ информационных технологий была осуществлена реализация АИС Поиск, которая используется компетентными ведомствами Ханты-Мансийского автономного округа - Югры для поиска доменных имен, указателей страниц сайтов в информационно-телекоммуникационной сети Интернет и сетевых адресов, позволяющих идентифицировать сайты в информационно-телекоммуникационной сети Интернет, содержащие информацию, распространение которой в Российской Федерации запрещено.

В настоящее время было обработано более 75 тыс. ссылок, загружено в базу данных более 21 тыс. уникальных документов. Для 922 документов было определено с высокой долей вероятности, что они содержат информацию, распространение которой в Российской Федерации запрещено, более 75 % из них были включены в соответствующий реестр, который ведется Роскомнадзором в соответствии с ч. 3 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации».

В ходе опытной эксплуатации АИС Поиск получены положительные оценки от конечных пользователей, также ими отмечается предсказуемость появления документов в базе данных в зависимости от сформированных критериев поиска документов (результаты аналогичны полученным при ручном поиске) и снижение трудоемкости. По результатам также было рекомендовано ввести АИС Поиск в промышленную эксплуатацию.

В дальнейшем планируется проведение работ по повышению эффективности работы пользователей с АИС Поиск, в частности за счет внесения изменений в интерфейс пользователя, сокращению время отклика системы на действия пользователя за счет предварительной подготовки данных и повышению скорости работы алгоритмов обработки данных. Планируется также проведение работ по сравнению результатов классификации документов с использованием различных алгоритмов и методов.

Библиографическая ссылка

Карташев Е.А., Царегородцев А.Л. АВТОМАТИЗИРОВАННАЯ ИНФОРМАЦИОННАЯ СИСТЕМА ПОИСКА И АНАЛИЗА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ // Фундаментальные исследования. – 2016. – № 10-2. – С. 296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Обработка информации в среде Internet существенно отличается от обработки информации в локальной сети и, тем более, на отдельном компьютере. Перечислим наиболее важные из них:

1. Большая протяженность коммуникационных линий, что сказывается на временных характеристиках обмена. Кроме того, большая удаленность лишает смысла загрузку программ с одного компьютера на другой и не позволяет выполнять пересылку больших объемов данных в реальном масштабе времени, как в сетевых СУБД локальных сетей.

2. Взаимодействие распределенных элементов ИС происходит с помощью обмена пакетами или сообщениями . Отдельные программные компоненты И С могут быть одного или различных производителей. В последнем случае особую роль приобретает решение проблемы поддержки стандартов на сетевые протоколы и на язык SQL.

3. Сеть Internet отличает от остальных глобальных сетей то, что по масштабам она больше всех других сетей (объединяет другие сети) и принципы ее организации оказывают существенное влияние на использование в сети баз данных.

Перед рассмотрением моделей и механизмов использования БД дадим краткую характеристику Internet.

Характеристика Internet

Основными видами услуг (сервиса), предоставляемых пользователям при подключении к Internet, являются:

электронная почта (E-mail);

телеконференции (UseNet);

система эмуляции удаленных терминалов (TelNet);

поиск и передача двоичных файлов (FTP);

поиск и передача текстовых файлов с помощью системы меню (Gopher);

поиск и передача документов с помощью гипертекстовых ссылок (WWW или "Всемирная паутина").

Создание и развитие этих способов связано с историей Internet. Каждый из них характеризуется своими возможностями и различием в организации протоколов обмена информацией. Под протоколом, в общем случае, понимается набор инструкций, регламентирующих работу взаимосвязанных систем или объектов в сети.

Электронная почта (E-mail) - наиболее простой и доступный способ доступа в сети Internet. Позволяет выполнять пересылку любых типов файлов (включая тексты, изображения, звуковые файлы) по адресам электронной почты в любую точку планеты за короткий промежуток времени в любое время суток. Для передачи сообщения необходимо знать электронный адрес получателя. Работа электронной почты основана на последовательной передаче информации по сети от одного почтового сервера к другому, пока сообщение не достигнет адресата. К достоинствам электронной почты относятся высокая оперативность и низкая стоимость. Недостаток электронной почты состоит в ограниченности объема пересылаемых файлов.

Система телеконференций UseNet разработана как система обмена текстовой информацией. Она позволяет всем пользователям Internet участвовать в групповых дискуссиях, называемых телеконференциями, в которых обсуждаются всевозможные проблемы. Сейчас в мире насчитывается более 10 тысяч телеконференций. Информация, посылаемая в телеконференции, становится доступной любому пользователю Internet, обратившемуся в данную телеконференцию. В настоящее время телеконференции позволяют передавать файлы любых типов. Для работы с телеконференциями наиболее часто используются средства программ просмотра и редактирования Web-документов.

TelNet - это протокол, позволяющий одному компьютеру использовать ресурсы другого (удаленного) компьютера. Другими словами - это протокол удаленного терминального доступа в сети.

FTP (File Transfer Protocol) - это протокол, позволяющий передавать файлы произвольного формата между двумя компьютерами сети. Программное обеспечение FTP разработано по архитектуре "клиент-сервер" и разделено на две части: серверную (FTP-сервер) и клиентскую. FTP-клиент, в общем случае, позволяет пользователям просматривать файловую систему FTP-сервера и производить с ней обмен файлами (выгружать файлы своего компьютера, загружать, переименовывать и удалять файлы удаленного компьютера). Достоинством данного протокола является возможность передачи файлов любого типа, в том числе исполняемых программ. К недостатку протокола FTP следует отнести необходимость априорного знания местоположения отыскиваемой информации (FTP-адреса).

Протокол Gopher реализующее его программное обеспечение предоставляют пользователям возможность работы с информационными ресурсами, не зная заранее их местонахождение. Для начала работы по этому протоколу достаточно знать адрес одного Gopher-сервера. В дальнейшем работа заключается в выборе команд, представленных в виде простых и понятных меню. При этом пункты меню одного сервера могут содержать ссылки на меню других серверов, что облегчает поиск требуемой информации в сети Internet. Во время работы с системой Gopher программа-клиент не поддерживает постоянного соединения с Gopher-сервером, что позволяет экономить сетевые ресурсы.

WWW (World Wide Web - всемирная паутина) представляет собой самое популярное и современное средство организации сетевых ресурсов. Она строится на основе гипертекстового представления информации.

Гипертекстовый документ {гипертекст) представляет собой текст, содержащий ссылки на другие фрагменты текстов произвольных документов, в том числе и этого документа. Гипертекстовый документ подготавливается на стандартизованном языке HTML (HyperText Markup Language - язык разметки гипертекста). Он состоит из страниц (web-страниц), доступ к которым основан на протоколе передачи гипертекста (HyperText Transfer Prococol, HTTP).

HTML-документ представляет собой ASCII-файл, доступный для просмотра и редактирования в любом редакторе текстов. В отличие от обычного текстового файла, в нем присутствуют специальные команды - тэги , которые указывают правила форматирования документа. С помощью тэгов описываются различные элементы документа: заголовки, абзацы (параграфы), списки, ссылки, формы и т. д.

Простейшим примером гипертекста является книга, оглавление которой содержит ссылки (внутренние) в виде номеров страниц на разделы, подразделы, пункты книги, кроме того, в книге имеются внешние ссылки на другие используемые источники информации.

Фрагмент документа может включать в себя информацию в виде обычного текста, графического изображения, звука и движущегося изображения (анимации). Гипертекст с нетекстовыми документами часто называют гипермедиа .

Важнейшим свойством гипертекста является наличие в нем ссылок на документы, размещаемые на территориально удаленных компьютерах. Документы могут создаваться и редактироваться различными людьми. Вся совокупность взаимосвязанных документов образует гигантскую "паутину". Эта модель подобна модели окружающего нас бесконечного информационного пространства, когда нет строгой иерархии связей, а есть множество связей без начала и конца.

Работа сети Internet основана на использовании протокола TCP/IP (Transmission Control Protocol/Internet Protocol - Протокол управления передачей данных/Протокол Internet), который используется для передачи данных в глобальной сети и во многих локальных сетях. TCP/IP в основном реализует функции транспортного и сетевого уровней модели OSI (подраздел 4.1). Он представляет собой семейство коммуникационных протоколов, которые по назначению можно разделить на следующие группы:

транспортные протоколы, служащие для управления передачей данных между двумя компьютерами;

протоколы маршрутизации, обрабатывающие адресацию данных и определяющие кратчайшие доступные пути к адресату;

протоколы поддержки сетевого адреса, предназначенные для идентификации компьютера по его уникальному номеру или имени;

прикладные протоколы, обеспечивающие получение доступа к всевозможным сетевым услугам;

шлюзовые протоколы, помогающие передавать по сети сообщения о маршрутизации и информацию о состоянии сети, а также обрабатывать данные для локальных сетей;

другие протоколы, не относящиеся к указанным категориям, но обеспечивающие клиенту удобство работы в сети.

Доступ пользователей к ресурсам Internet обычно производится с помощью программ-навигаторов, или броузеров (от англ. browser). В настоящее время к числу наиболее популярных программ этого класса относятся следующие: Netscape Navigator/ Communicator (Netscape) и MS Explorer (Microsoft). Хотя эти программы основаны на использовании протокола HTTP, они предоставляют простой доступ к другим сервисам Internet: электронной почте, новостям и т. д.

Броузер, обеспечивая доступ пользователя к ресурсам сети, по существу является программой-клиентом (или Web-клиентом). Программой, предоставляющей информационные ресурсы, является Web-сервер. Именно он осуществляет основную работу по сбору и получению информации из разных источников, после чего в стандартном виде предоставляет ее Web-клиенту. Рассмотрим организацию выбора информации для пользователя, если она находится в базах данных.