ФИО учителя: Трифонова Надежда Вячеславовна
Образовательное учреждение: ГБОУ СОШ пос. Сургут
Предмет: информатика
Класс: 7(1 группа)
Тема урока: «Визуализация информации в текстовых документах»
Цель урока: з накомство с основными способами визуализации информации и формирование осознанного понимания в необходимости использования данного инструмента в жизни.
Планируемые образовательные результаты:
предметные:
метапредметные:
личностные:
формирование представления о программной среде офисного пакета и его возможностях;
навык работы с офисными программами по созданию буклетов;
представления об изучаемых понятиях раздела: информация, способы представления визуальной информации;
формирование умений структурирования информации;
регулятивные:
познавательные:
коммуникативные:
владение анализом, синтезом, сравнением и обобщениям информации;
владение основами самооценки своих результатов;
поиск и выделение информации по заданию;
структурирование и визуализация информации;
решение проблем творческого и поискового характера;
владение информационным моделированием;
ИКТ-компетентность.
формирование навыка работы в парах;
формирование умения слушать и слышать мнение окружающих;
соблюдать нормы публичной речи, регламент в монологе в соответствии с коммуникативной задачей;
высказывать и обосновывать мнение (суждение) и запрашивать мнение партнера в рамках диалога.
готовность и способность обучающихся к саморазвитию и самообразованию на основе мотивации к обучению и познанию;
способность увязать учебное содержание с собственным жизненным опытом;
значимость подготовки в области информатики и ИКТ в условиях развития информационного общества.
Программное содержание: Текстовые документы. Обработка графической информации. Информация и информационные процессы.
Основные понятия и другие компоненты научных знаний по предмету:
визуализация информации и ее виды: диаграммы, иллюстрации, списки, таблицы;
виды списков;
представление о возможностях и инструментах в стандартной программе Paint;
представление об основных функциях и инструментах офисного пакета MS Office Publisher;
знания основных сочетаний «горячих клавиш» для выделения всего объекта или текста, его копирования или вырезания.
План изучения нового материала:
подведение к новой теме;
формулирование цели урока;
разбор основных понятий с опорой на уже имеющиеся знания по биологии, обществознанию и информатике;
создание мини-проекта в парах;
представления своих продуктов-буклетов;
SWOT-анализ продуктов(буклетов);
определение уровня достижения цели.
Тип урока: комбинированный, урок-проект.
Форма урока: защита проектов, фронтальная и парная работа.
Технология обучения:
метод проектов;
поисковый метод;
«принеси с собой свое устройство» (только элементы — при поиске информации используют смартфоны и планшеты, подключенные к школьному Интернету);
интерактивные технологии;
технологии менеджмента (элементы) — SWOT-анализ идеи или проблемы.
Оборудование (или оснащение) урока:
Приложение 1
PPTX / 2.83 Мб
Приложение 2 - буклет-образец
PUB / 644 Кб
проектор с экраном, ноутбук учителя, ноутбуки учеников (один на пару), презентация «Визуализация информации в текстовых документах» (Приложение 1), тетради и ручки, буклеты (Приложение 2), ПО: MS Publisher 2010, Paint.
Мизансцена урока: традиционная, учащиеся сидят по парам за партами — у каждой пары один ноутбук.
Подготовка к уроку (если есть необходимость):
для учителя:
для класса в зависимости от уровня сформированности ИКТ компетенций и личного опыта(не потребовалось — сильная группа):
заранее подобрать картинки под эмблему и выложить на рабочий стол в каждый ноутбук;
проверить наличие Интернета;
проверить наличие Paint, офисного пакета Microsoft Office версии не ранее 2007;
распечатать конспект и буклеты.
заранее произвести знакомство с программой по созданию буклетов;
попросить дома сформулировать идеи бизнес-проекта.
Технологическая карта хода урока
В русскоязычном секторе интернета очень мало учебных практических примеров (а с примером кода ещё меньше) анализа текстовых сообщений на русском языке. Поэтому я решил собрать данные воедино и рассмотреть пример кластеризации, так как не требуется подготовка данных для обучения.
Большинство используемых библиотек уже есть в дистрибутиве Anaconda 3 , поэтому советую использовать его. Недостающие модули/библиотеки можно установить стандартно через pip install «название пакета».
Подключаем следующие библиотеки:
Import numpy as np
import pandas as pd
import nltk
import re
import os
import codecs
from sklearn import feature_extraction
import mpld3
import matplotlib.pyplot as plt
import matplotlib as mpl
Для анализа можно взять любые данные. Мне на глаза тогда попала данная задача: Статистика поисковых запросов проекта Госзатраты . Им нужно было разбить данные на три группы: частные, государственные и коммерческие организации. Придумывать экстраординарное ничего не хотелось, поэтому решил проверить, как поведет кластеризация в данном случае (забегая наперед - не очень). Но можно выкачать данные из VK какого-нибудь паблика:
Import vk
#передаешь id сессии
session = vk.Session(access_token="")
# URL для получения access_token, вместо tvoi_id вставляете id созданного приложения Вк:
# https://oauth.vk.com/authorize?client_id=tvoi_id&scope=friends,pages,groups,offline&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.21&response_type=token
api = vk.API(session)
poss=
id_pab=-59229916 #id пабликов начинаются с минуса, id стены пользователя без минуса
info=api.wall.get(owner_id=id_pab, offset=0, count=1)
kolvo = (info//100)+1
shag=100
sdvig=0
h=0
import time
while h
Я буду использовать данные поисковых запросов чтобы показать, как плохо кластеризуются короткие текстовые данные. Я заранее очистил от спецсимволов и знаков препинания текст плюс провел замену сокращений (например, ИП – индивидуальный предприниматель). Получился текст, где в каждой строке находился один поисковый запрос.
Считываем данные в массив и приступаем к нормализации – приведению слова к начальной форме. Это можно сделать несколькими способами, используя стеммер Портера, стеммер MyStem и PyMorphy2. Хочу предупредить – MyStem работает через wrapper, поэтому скорость выполнения операций очень медленная. Остановимся на стеммере Портера, хотя никто не мешает использовать другие и комбинировать их с друг другом (например, пройтись PyMorphy2, а после стеммером Портера).
Titles = open("material4.csv", "r", encoding="utf-8", errors="ignore").read().split("\n")
print(str(len(titles)) + " запросов считано")
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("russian")
def token_and_stem(text):
tokens =
filtered_tokens =
for token in tokens:
if re.search("[а-яА-Я]", token):
filtered_tokens.append(token)
stems =
return stems
def token_only(text):
tokens =
filtered_tokens =
for token in tokens:
if re.search("[а-яА-Я]", token):
filtered_tokens.append(token)
return filtered_tokens
#Создаем словари (массивы) из полученных основ
totalvocab_stem =
totalvocab_token =
for i in titles:
allwords_stemmed = token_and_stem(i)
#print(allwords_stemmed)
totalvocab_stem.extend(allwords_stemmed)
allwords_tokenized = token_only(i)
totalvocab_token.extend(allwords_tokenized)
Pymorphy2
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
G=
for i in titles:
h=i.split(" ")
#print(h)
s=""
for k in h:
#print(k)
p = morph.parse(k).normal_form
#print(p)
s+=" "
s += p
#print(s)
#G.append(p)
#print(s)
G.append(s)
pymof = open("pymof_pod.txt", "w", encoding="utf-8", errors="ignore")
pymofcsv = open("pymofcsv_pod.csv", "w", encoding="utf-8", errors="ignore")
for item in G:
pymof.write("%s\n" % item)
pymofcsv.write("%s\n" % item)
pymof.close()
pymofcsv.close()
pymystem3
Исполняемые файлы анализатора для текущей операционной системы будут автоматически загружены и установлены при первом использовании библиотеки.
From pymystem3 import Mystem
m = Mystem()
A =
for i in titles:
#print(i)
lemmas = m.lemmatize(i)
A.append(lemmas)
#Этот массив можно сохранить в файл либо "забэкапить"
import pickle
with open("mystem.pkl", "wb") as handle:
pickle.dump(A, handle)
Stopwords = nltk.corpus.stopwords.words("russian")
#можно расширить список стоп-слов
stopwords.extend(["что", "это", "так", "вот", "быть", "как", "в", "к", "на"])
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
n_featur=200000
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000,
min_df=0.01, stop_words=stopwords,
use_idf=True, tokenizer=token_and_stem, ngram_range=(1,3))
get_ipython().magic("time tfidf_matrix = tfidf_vectorizer.fit_transform(titles)")
print(tfidf_matrix.shape)
Над полученной матрицей начинаем применять различные методы кластеризации:
Num_clusters = 5
# Метод к-средних - KMeans
from sklearn.cluster import KMeans
km = KMeans(n_clusters=num_clusters)
get_ipython().magic("time km.fit(tfidf_matrix)")
idx = km.fit(tfidf_matrix)
clusters = km.labels_.tolist()
print(clusters)
print (km.labels_)
# MiniBatchKMeans
from sklearn.cluster import MiniBatchKMeans
mbk = MiniBatchKMeans(init="random", n_clusters=num_clusters) #(init="k-means++", ‘random’ or an ndarray)
mbk.fit_transform(tfidf_matrix)
%time mbk.fit(tfidf_matrix)
miniclusters = mbk.labels_.tolist()
print (mbk.labels_)
# DBSCAN
from sklearn.cluster import DBSCAN
get_ipython().magic("time db = DBSCAN(eps=0.3, min_samples=10).fit(tfidf_matrix)")
labels = db.labels_
labels.shape
print(labels)
# Аггломеративная класстеризация
from sklearn.cluster import AgglomerativeClustering
agglo1 = AgglomerativeClustering(n_clusters=num_clusters, affinity="euclidean") #affinity можно выбрать любое или попробовать все по очереди: cosine, l1, l2, manhattan
get_ipython().magic("time answer = agglo1.fit_predict(tfidf_matrix.toarray())")
answer.shape
Полученные данные можно сгруппировать в dataframe и посчитать количество запросов, попавших в каждый кластер.
#k-means
clusterkm = km.labels_.tolist()
#minikmeans
clustermbk = mbk.labels_.tolist()
#dbscan
clusters3 = labels
#agglo
#clusters4 = answer.tolist()
frame = pd.DataFrame(titles, index = )
#k-means
out = { "title": titles, "cluster": clusterkm }
frame1 = pd.DataFrame(out, index = , columns = ["title", "cluster"])
#mini
out = { "title": titles, "cluster": clustermbk }
frame_minik = pd.DataFrame(out, index = , columns = ["title", "cluster"])
frame1["cluster"].value_counts()
frame_minik["cluster"].value_counts()
Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов относительного друг друга.
Сначала необходимо вычислить расстояние между векторами. Для этого будет применяться косинусовое расстояние. В статьях предлагают использовать вычитание из единицы, чтобы не было отрицательных значений и находилось в пределах от 0 до 1, поэтому сделаем так же:
From sklearn.metrics.pairwise import cosine_similarity
dist = 1 - cosine_similarity(tfidf_matrix)
dist.shape
Так как графики будут двух-, трехмерные, а исходная матрица расстояний n-мерная, то придется применять алгоритмы снижения размерности. На выбор есть много алгоритмов (MDS, PCA, t-SNE), но остановим выбор на Incremental PCA. Этот выбор сделан в следствии практического применения – я пробовал MDS и PCA, но оперативной памяти мне не хватало (8 гигабайт) и когда начинал использоваться файл подкачки, то можно было сразу уводить компьютер на перезагрузку.
Алгоритм Incremental PCA используется в качестве замены метода главных компонентов (PCA), когда набор данных, подлежащий разложению, слишком велик, чтобы разместиться в оперативной памяти. IPCA создает низкоуровневое приближение для входных данных, используя объем памяти, который не зависит от количества входных выборок данных.
# Метод главных компонент - PCA
from sklearn.decomposition import IncrementalPCA
icpa = IncrementalPCA(n_components=2, batch_size=16)
get_ipython().magic("time icpa.fit(dist) #demo =")
get_ipython().magic("time demo2 = icpa.transform(dist)")
xs, ys = demo2[:, 0], demo2[:, 1]
# PCA 3D
from sklearn.decomposition import IncrementalPCA
icpa = IncrementalPCA(n_components=3, batch_size=16)
get_ipython().magic("time icpa.fit(dist) #demo =")
get_ipython().magic("time ddd = icpa.transform(dist)")
xs, ys, zs = ddd[:, 0], ddd[:, 1], ddd[:, 2]
#Можно сразу примерно посмотреть, что получится в итоге
#from mpl_toolkits.mplot3d import Axes3D
#fig = plt.figure()
#ax = fig.add_subplot(111, projection="3d")
#ax.scatter(xs, ys, zs)
#ax.set_xlabel("X")
#ax.set_ylabel("Y")
#ax.set_zlabel("Z")
#plt.show()
Перейдем непосредственно к самой визуализации:
From matplotlib import rc
#включаем русские символы на графике
font = {"family" : "Verdana"}#, "weigth": "normal"}
rc("font", **font)
#можно сгенерировать цвета для кластеров
import random
def generate_colors(n):
color_list =
for c in range(0,n):
r = lambda: random.randint(0,255)
color_list.append("#%02X%02X%02X" % (r(),r(),r()))
return color_list
#устанавливаем цвета
cluster_colors = {0: "#ff0000", 1: "#ff0066", 2: "#ff0099", 3: "#ff00cc", 4: "#ff00ff",}
#даем имена кластерам, но из-за рандома пусть будут просто 01234
cluster_names = {0: "0", 1: "1", 2: "2", 3: "3", 4: "4",}
#matplotlib inline
#создаем data frame, который содержит координаты (из PCA) + номера кластеров и сами запросы
df = pd.DataFrame(dict(x=xs, y=ys, label=clusterkm, title=titles))
#группируем по кластерам
groups = df.groupby("label")
fig, ax = plt.subplots(figsize=(72, 36)) #figsize подбирается под ваш вкус
for name, group in groups:
ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, label=cluster_names, color=cluster_colors, mec="none")
ax.set_aspect("auto")
ax.tick_params(axis= "x",
which="both",
bottom="off",
top="off",
labelbottom="off")
ax.tick_params(axis= "y",
which="both",
left="off",
top="off",
labelleft="off")
ax.legend(numpoints=1) #показать легенду только 1 точки
#добавляем метки/названия в х,у позиции с поисковым запросом
#for i in range(len(df)):
# ax.text(df.ix[i]["x"], df.ix[i]["y"], df.ix[i]["title"], size=6)
#показать график
plt.show()
plt.close()
Если раскомментировать строку с добавлением названий, то выглядеть это будет примерно так:
Пример с 10 кластерами
# Plot
fig, ax = plt.subplots(figsize=(25,27))
ax.margins(0.03)
for name, group in groups_mbk:
points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, #ms=18
label=cluster_names, mec="none",
color=cluster_colors)
ax.set_aspect("auto")
labels =
tooltip = mpld3.plugins.PointHTMLTooltip(points, labels, voffset=10, hoffset=10, #css=css)
mpld3.plugins.connect(fig, tooltip) # , TopToolbar()
ax.axes.get_xaxis().set_ticks()
ax.axes.get_yaxis().set_ticks()
#ax.axes.get_xaxis().set_visible(False)
#ax.axes.get_yaxis().set_visible(False)
ax.set_title("Mini K-Means", size=20) #groups_mbk
ax.legend(numpoints=1)
mpld3.disable_notebook()
#mpld3.display()
mpld3.save_html(fig, "mbk.html")
mpld3.show()
#mpld3.save_json(fig, "vivod.json")
#mpld3.fig_to_html(fig)
fig, ax = plt.subplots(figsize=(51,25))
scatter = ax.scatter(np.random.normal(size=N),
np.random.normal(size=N),
c=np.random.random(size=N),
s=1000 * np.random.random(size=N),
alpha=0.3,
cmap=plt.cm.jet)
ax.grid(color="white", linestyle="solid")
ax.set_title("Кластеры", size=20)
fig, ax = plt.subplots(figsize=(51,25))
labels = ["point {0}".format(i + 1) for i in range(N)]
tooltip = mpld3.plugins.PointLabelTooltip(scatter, labels=labels)
mpld3.plugins.connect(fig, tooltip)
mpld3.show()fig, ax = plt.subplots(figsize=(72,36))
for name, group in groups:
points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=18,
label=cluster_names, mec="none",
color=cluster_colors)
ax.set_aspect("auto")
labels =
tooltip = mpld3.plugins.PointLabelTooltip(points, labels=labels)
mpld3.plugins.connect(fig, tooltip)
ax.set_title("K-means", size=20)
mpld3.display()
Теперь при наведении на любую точку графика всплывает текст с соотвествующим поисковым запросом. Пример готового html файла можно посмотреть здесь: Mini K-Means
Если хочется в 3D и с изменяемым масштабом, то существует сервис Plotly , который имеет плагин для Python.
Plotly 3D
#для примера просто 3D график из полученных значений
import plotly
plotly.__version__
import plotly.plotly as py
import plotly.graph_objs as go
trace1 = go.Scatter3d(x=xs,
y=ys,
z=zs,
mode="markers",
marker=dict(size=12,
line=dict(color="rgba(217, 217, 217, 0.14)",
width=0.5),
opacity=0.8))
data =
layout = go.Layout(margin=dict(l=0,
r=0,
b=0,
t=0))
fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename="cluster-3d-plot")
И заключительным пунктом выполним иерархическую (аггломеративную) кластеризацию по методу Уорда для создания дендограммы.
In :
from scipy.cluster.hierarchy import ward, dendrogram
linkage_matrix = ward(dist)
fig, ax = plt.subplots(figsize=(15, 20))
ax = dendrogram(linkage_matrix, orientation="right", labels=titles);
plt.tick_params(\
axis= "x",
which="both",
bottom="off",
top="off",
labelbottom="off")
plt.tight_layout()
#сохраним рисунок
plt.savefig("ward_clusters2.png", dpi=200)
Выводы
К сожалению, в области исследования естественного языка очень много нерешённых вопросов и не все данные легко и просто сгруппировать в конкретные группы. Но надеюсь, что данное руководство усилит интерес к данной теме и даст базис для дальнейших экспериментов.
САМОЕ ГЛАВНОЕ
Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).
Всевозможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный - когда порядок следования пунктов в нём не важен. По структуре различают одноуровневые и многоуровневые списки.
Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов и строк. Представленная в таблице информация наглядна, компактна и легкообозрима.
Вопросы и задания
1. С какой целью разработчики включают в текстовые документы списки, таблицы, графические изображения?
2. Для чего используются списки? Приведите примеры.
3. Сравните нумерованные и маркированные списки. Что у них общего? В чём различие?
4. Какой список называется многоуровневым? Приведите пример такого списка?
5. Какая информация может быть организована в табличной форме? Какие преимущества обеспечивает табличное представле ние информации?
6. Каких правил следует придерживаться при оформлении таблиц?
7. Какие графические объекты могут быть включены в текстовый документ?
8. Перечислите основные возможности текстовых процессоров по работе с графическими объектами.
Инструменты распознавания текстов
И компьютерного перевода
Ключевые слова;
Программы распознавания документов
Компьютерные словари
Программы-переводчики
Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.
4.5.1. Программы оптического
Распознавания документов
Очень часто возникает необходимость ввести в компьютер несколь ко страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.
Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую ин формацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьюте ра текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.
Вычислим общее количество символов в романе: 590 48 53 1 500 960 (симв.).
Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500960: 150 10000 (мин.). А это приблизительно 167 часов.
При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.
Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является АВВУУ FineReader. Упрощённо работу с подобными программами можно представить так:
1. Бумажный носитель помещается под крышку сканера.
З. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).
Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить АВВУУ FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).
Рис. 4.20. Оптическое распознавание документов
4.5.2. Компьютерные словари
И программы-переводчики
Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.
В обычном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка.
Компьютерны е словари (русско-английские и англо-русские, русс ко-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельны е программы, бывают встроены в текстовые процессоры, существуют в оп-йпе-режиме в сети Интернет.
Www Сервис Яндекс-словари (http://slovari.yandex.ru/) обеспечивает перевод слов с семи иностранных языков на русский и обратно. Вы можете получить полную информацио о правильном произношении и написании иностранных слов, синонимах и примерах использования.
Компьютерные словари ВЫПоЛНЯЮт перевод отдельных слов и сло восочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка - правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.
С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.
Сервис Переводчик текста (http://www.translate.ru/[)efault.aspxnext) предназначен для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. В нём поддерживаются английский, русский, немецкий, французский, испанский, португальский, итальянский и литовский языки; обеспечивается 26 направлений перевода (англо-русский и русско-английский; немецко-русский и русско-немецкий; французско-русский и русско-французский и т. д.).
Распознавание текстов и компьютерный перевод
САМОЕ ГЛАВНОЕ
Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.
Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков. Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.
Вопросы и задания
1. В каких случаях программы распознавания текста экономят время и силы человека?
2. Сколько времени потребуется для ввода в память компьютера текста романа Л. Дюма «Три мушкетёра» с помощью сканера и программы АВВУУ FineReader, если известно, что на сканирование одной страницы уходит З с, на смену страницы в сканере - 5 с, на распознавание страницы - 2 с?
З. Найдите в Интернете информацию о технологии сканирующего листания. В чём её суть?
4. Какие, по вашему мнению, основные преимущества компьютерных словарей перед обычными словарями в форме книг?
5. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художествен ных произведений?
6. С помощью имеющейся в вашем распоряжении программы-переводчика переведите на знакомый вам иностранный язык фразу: «Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией». Полученный результат с помощью той же программы переведите на русский язык. Сравните текст исходной фразы и конечный результат. Дайте свои комментарии.
Оценка количественных параметров
Текстовых документов
Ключевые слова:
Кодовая таблица
Восьмиразрядный двоичный код
Информационный объём текста
| Планирование уроков и материалы к урокам | 7 классы | Планирование уроков на учебный год (ФГОС) | Визуализация информации в текстовых документах
Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).
Современные текстовые процессоры предоставляют пользователям широкие возможности визуализации информации в создаваемых документах.
Всевозможные перечни в документах оформляются с помощью списков. При этом все пункты перечня рассматриваются как абзацы, оформленные по единому образцу.
По способу оформления различают нумерованные и маркированные списки.
Элементы (пункты) нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры . Элементы списка могут быть пронумерованы и буквами - русскими или латинскими (рис. 4.14).
Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов . Особенно часто такие списки используют для описания последовательности действий.
Нумерованные списки вы регулярно создаёте, заполняя в дневнике расписание уроков на каждый учебный день.
При создании новых, удалении или перемещении существующих элементов нумерованного списка в текстовом процессоре вся нумерация списка меняется автоматически.
Элементы маркированного списка обозначаются с помощью значков-маркеров. Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита и даже небольшое графическое изображение (рис. 4.15). С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.
Маркированный список используют в тех случаях, когда порядок следования элементов в нём не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 7 классе.
По структуре различают одноуровневые и многоуровневые списки .
Списки в рассмотренных выше примерах имеют одноуровневую структуру.
Список, элемент которого сам является списком, называется многоуровневым. Так, оглавление вашего учебника информатики является многоуровневым (трёхуровневым) списком.
Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования (рис. 4.16).
ФИО | Шевяхова Марина Анатольевна |
|
Место работы | МОУ «Лицей №7» |
|
Должность | Учитель информатики |
|
Предмет | технология |
|
Класс | 7Л класс |
|
Тема и номер урока в теме | Обработка текстовой информации 7 урок |
|
Базовый учебник | Информатика. Л.Л. Босова, А.Ю.Босова |
8. Цель урока: познакомить с понятием визуализации информации в текстовых документах.
9. Результаты обучения:
Предметные – умения использования средств структурирования и визуализации текстовой информации;
Метапредметные – широкий спектр умений и навыков использования средств информационных и коммуникационных технологий для создания текстовых документов;
Навыки рационального использования имеющихся инструментов;
- формирование УУД (личностных, регулятивных, познавательных);
- развитие способности анализировать и обобщать, делать выводы; расширение кругозора.
Личностные – понимание социальной, общекультурной роли в жизни современного человека навыков создания текстовых документов;
Воспитание усидчивости, самостоятельности, интереса к предмету;
Развитие коммуникативных УУД.
10.Тип урока: урок ознакомления с новым материалом
11.Формы работы учащихся: фронтальная, работа в парах, самостоятельная работа
12. Необходимое оборудование: проектор, экран, компьютеры учеников
13. Основные понятия: информация, визуализация, списки маркированные и нумерованные, одноуровневые, многоуровневые, таблица, облако тегов.
14. Структура урока:
15. Ход урока
Этап | Задачи этапа | Деятельность учителя | Деятельность учащегося | Универсальные учебные действия |
|
Организационный этап | Психологически подготовить уч-ся к работе на учебном занятии . | Приветствую ребят. Обеспечиваю нормальную внешнюю обстановку для работы на учебном занятии; | Готовятся к работе на уроке | Регулятивные УУД: Умение готовить рабочее место для выполнения разных видов работ |
|
Актуализация знаний Постановка учебных задач | Создать проблемную ситуацию для определения границу знаний учащихся и постановки новой учебной задачи | Организую погружение в проблему, создает ситуацию для определения школьниками границы собственного знания | Слушают учителя, вступают в диалог с учителем, высказывают предположения Определяют учебные задачи, которые необходимо будет решить на уроке | Коммуникативные: умение формулировать собственное мнение, умение организовывать и планировать учебное сотрудничество с учителем Познавательные: умение давать определение понятиям; Регулятивные : умение преобразовывать практическую задачу в познавательную |
|
Совместное исследование проблемы | Организовать поиск решения учебной задачи. | Просмотр видеоролика Фиксирую выдвинутые учениками гипотезы, организует их обсуждение. | Анализируют увиденное, вносят предложения | Коммуникативные : - устанавливать рабочие отношения, эффективно сотрудничать Регулятивные : умение исследовать условия учебной задачи, определять порядок действий при решении проблемы; осознанно строить речевые высказывания, обсуждать способы решения учебной задачи; анализировать, доказывать, аргументировать свою точку зрения |
|
Моделирование | Зафиксировать в модели существенные отношения изучаемого объекта Презентация 1 | Обращаю внимание школьников на те способы действия с учебным материалом, которые помогли найти нужную информацию и систематизировать ее. Предлагаю на основе полученной информации дать научное определение понятия «Визуализация информации» Введение понятий: списки маркированные, нумерованные. В каких случаях будем пользоваться нумерованным списком? А маркированным? По структуре различают одноуровневые и многоуровневые списки. Рассмотрим оглавление нашего учебника и художественной книги… Работа в парах: Решить задачу Что будем использовать для визуализации информации? (Приложение 1) | Сравнивают, определяют общие признаки, систематизируют полученную информацию и фиксируют ее Высказывают предположения об использованных ими способах действия с учебным материалом Дают научное определение визуализации информации Делают выводы, отвечают Рассматривают, дают определение Таблицу. Решают задачу | Познавательные УУД: умение на основе анализа объектов и текстового материала делать выводы; Коммуникативные УУД: Умение строить речевое высказывание в соответствии с поставленными задачами; Регулятивные УУД: Умение высказывать своё предположение на основе работы с материалом; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации; Коммуникативные УУД: Умение оформлять свои мысли в устной форме |
|
Конструирование нового способа действия | Создать условия для использования новых способов действия с учебным материалом в практической работе | Объяснение практической работы Часть 1 – совместно (Приложение 2) Часть 2 – самостоятельно, с проверкой (Приложение 3) Введение понятие «Облако тегов» Часть 3 – по алгоритму создать свое облако ключевых слов по теме урока (Приложение 4) | Выполняют практическую работу, применяя полученные знания. Участвуют в коллективном обсуждении результатов своей работы Рассуждают, дают определение «Облако тегов» | Регулятивные УУД: умение высказывать своё предположение на основе работы с материалом; организовывать свою деятельность для проведения наблюдений; Личностные УУД: развитие интереса к учебно-исследовательской деятельности; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации |
|
Подведение итогов. Рефлексия | Установить соответствия между поставленными задачами урока и результатом работы школьников, внести коррективы. | Организую рефлексию учебной деятельности учащихся | Проводят самоанализ учебной деятельности | Регулятивные УУД: умение осуществлять познавательную и личностную рефлексию; |
|
Информация о домашнем задании | Предлагаю домашнее задание и комментирует его выполнение | Задают вопросы по домашнему заданию | Регулятивные УУД: умение задавать вопросы, необходимые для организации собственной деятельности |
Приложение 1.
Задача 1.
Боря, Витя, Гриша и Егор встретились на Всероссийской олимпиаде по информатике. Ребята приехали из разных городов: Москвы, Омска, Саранска и Кирова. Известно, что Боря жил в одной комнате с мальчиком из Кирова и ни один из этих двух мальчиков никогда не был ни в Москве, ни в Саранске. Гриша играл в одной команде с мальчиком из Москвы, а вечерами к ним заходил приятель из Кирова. Егор и мальчик из Москвы увлекались игрой в шахматы. Кто из ребят откуда приехал?
Решение
Москва | Омск | Саранск | Киров |
|
Боря | ||||
Витя | ||||
Гриша | ||||
Егор |
Приложение 2.
Часть I
Открыть файл Часть I в папке 7 класс. Определить название списка. Сделать информацию визуальной
Процессор
Память
Оперативная память
Долговременная память
Жесткий магнитный диск
Дискета
Флэш-память
Оптические диски
Устройства ввода
Клавиатура
Мышь
Сканер
Графический планшет
Цифровая камера
Микрофон
Джойстик
Устройства вывода
Монитор
Жидкокристаллический монитор
Монитор на электронно-лучевой трубке
Принтер
Матричный принтер
Струйный принтер
Лазерный принтер
Приложение 3.
Часть II
Создайте текстовый документ, используя маркированные и нумерованные списки.
Приложение 4 .
Часть III
Создание Облако тегов
Алгоритм выполнения
10. Нажать Save (сохранить) в формате Image под именем «Мое облако» в личной папке (Сохраняется последняя форма)
Для справки
Any – произвольный, all – любой, Respins (крутиться, вертеть), Theme – тема
Font – шрифт, layout – расположение, макет
Accept –согласиться, zoom – масштаб, skip – пропуск, advanсed – улучшенный
Webpage – страница
shape
submit – представлять, представить
browse – обзор, просмотр