- Учителю
- План-конспект по информатике на тему Кодирование текстовой информации
План-конспект по информатике на тему Кодирование текстовой информации
Тема урока: Кодирование текстовой информации
Предмет: Информатика и ИКТ.
Класс: 9-10.
Ключевые слова: информатика, кодирование текста, кодирование информации. Оборудование: компьютерный класс, программы Microsoft Office PowerPoint, задания к уроку в электронном виде (см. приложение).
Тип урока: Изучение новой темы.
Формы работы: фронтальная, коллективная, индивидуальная.
Аннотация: количество учащихся класс, подгруппа.
Цель урока: Дать представление о кодирование текстовой информации.
Задачи:
-
Формирование представления о кодирование текстовой информации .
-
Способствовать воспитанию чувства коллективизма, умения выслушивать ответы товарищей;
-
Развитие внимания и логического мышления;
-
Развитие интереса к изучению компьютерных программ.
Ход урока:
Вводный рассказ учителя с помощью презентации (на экране представлена презентация по теме).
Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
КОДОВАЯ ТАБЛИЦА
Интересную историю привел в своей книге «Занимательная арифметика» Я. И. Перельман. В марте 1917 г. жители Петрограда были встревожены таинственными знаками, появившимися неизвестно откуда у дверей многих квартир. Знаки эти имели форму черточек, чередующихся крестами. Пошли зловещие слухи о грабителях, помечающих квартиры своих жертв, о германских шпионах и провокаторах. Я. И. Перельман распутал секрет этих знаков, после чего поместил в газете следующую заметку.
Таинственные знаки
«В связи с таинственными знаками, появившимися на стенах многих Петроградских домов, небесполезно разъяснить смысл одной категории подобных знаков, которые, несмотря на зловещее начертание, имеют самое невинное значение. Я говорю о знаках такого типа:
+|| ++|||| +++|||
Подобные знаки замечены во многих домах на черных лестницах у дверей квартир. Обычно, знаки этого типа имеются у всех входных дверей данного дома, причем в пределах одного дома двух одинаковых знаков не наблюдается. Их мрачное начертание естественно внушает тревогу жильцам. Между тем, смысл легко раскрывается, если сопоставить их с номерами соответствующих квартир. Так, например, приведенные выше знаки найдены мной у квартир №12, №24 и №33:
+|| ++|||| +++|||
12 24 33
Нетрудно догадаться, что кресты означают десятки, а палочки - единицы. Так оказалось во всех без исключения случаях, которые мне приходилось наблюдать. Своеобразная нумерация эта, очевидно, принадлежит дворникам-китайцам, не понимающим наших цифр.
Как же было расшифровано это сообщение? Те, кто изучал радиодело, знают, как закодировать и как прочитать сообщение, записанное азбукой Морзе. Похожим образом дело обстоит и с информацией, находящейся внутри компьютера. Загадочные последовательности из нулей и единиц означают на самом деле цифры, буквы, знаки. Для их расшифровки, чтобы они стали понятны человеку, в компьютере есть специальные кодовые таблицы. В них внесены изображения всех букв, знаков препинания (в том числе и пробела), цифр, других полезных символов и каждый нумеруют. Кодовые таблицы весьма разнообразны, поэтому, человек имеет возможность использовать символы самых разных понятий.
В памяти компьютера любой текст представляется последовательностью кодов символов, т. е. вместо самой буквы хранится ее номер в кодовой таблице. Изображение же букв и символов сформируется только в момент их вывода на экран или бумагу. Специальные стандарты определяют, какой код, какому символу будет соответствовать, иначе, (когда все пользуются собственными таблицами) обмен информацией практически невозможен.
Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется кодовой таблицей.
По началу, применялось 7-битная кодировка, которая могла представить 128 символов. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) - Американский стандартный код для информационного обмена.
Позже она была расширена до 8 бит (256 символов) и дошла в таком виде практически до сегодняшнего дня. При этом первая половина (символы 0-127) были всегда одни и те же, соответствующие стандарту ASCII, а вторая половина таблицы (символы 128-255) менялась в зависимости от страны, где она использовалась.
В Советском Союзе различные организации и сети, имевшие большое влияние на компьютерный и программный рынок тех времен, создавали свои кодировки (т.е. вторые половины таблицы), содержащие русские символы. Крупным компаниям было удобно и выгодно использовать свою кодировку в своих собственных программных продуктах. Никто и не думал приходить к какому-то общему стандарту.
Так возникло большое количество русских кодировок.
В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO).
Широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536) различных символов.
Отсюда и появляются проблемы с кодировками.
Проблемы с кодировками делятся на несколько типов.
Первый тип мы с Вами только что рассмотрели - это отсутствие информации о кодировке.
Действительно, формат *.txt (а также, некоторые другие текстовые форматы) содержит только текст, но никакой информации о его кодировке. Поэтому конечная программа, которая открывает такой файл, просто использует свою кодировку по умолчанию, для отображения текста.
Проблемы второго типа - это когда кодировка в файле указана, но конечная программа такой кодировки не знает.
Такая ситуация была довольно частой всего несколько лет назад. Многие англоязычные программы (текстовые редакторы, почтовые клиенты, браузеры и даже сами операционные системы) упорно не желали понимать какие-либо символы, кроме ASCII. Поэтому, даже несмотря на прикрепленную информацию о кодировке, текст отображался в виде каракуль (бессмысленного набора символов).
Третий тип проблем, наоборот, связан с избытком информации о кодировках. Это актуальная в настоящее время проблема (например, для веб-страниц).
Допустим, мы создали HTML-страницу и указали ее кодировку (при помощи тега ). У хостинга в интернете, на который мы поместили свою страницу, в настройках веб-сервера может быть указана другая кодировка по умолчанию (которая выдается браузеру в виде HTTP-заголовка, когда тот запрашивает страницу).
А в самом браузере указана третья кодировка по умолчанию. Возникает конфликт кодировок, который решается на основе приоритетов. Подобную ситуацию мы обсуждали в комментариях к уроку о кодировке utf-8</.
Цифры кодируются по стандарту ASCII в двух случаях - при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код.
Возьмем число 57.
При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII. В двоичной системе это - 0011010100110111.
При использовании в вычислениях, код этого числа будет получен по правилам перевода в двоичную систему и получим - 00111001.
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.
В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
I=K×i, где
I-информационный объем сообщения
K- количество символов в тексте
i- информационный вес одного символа
2i = N
N- мощность алфавита
Решение задач. Презентация построена по принципу «Решили с учителем - решили сами».
Подведение итогов. Выставление отметок. Домашнее задание.