Тема: Подходы к понятию информации и измерению информации

Термин информация имеет множество определений. «Информация» происходит от латинского слова «informatio», что означает разъяснение, изложение, осведомление. Информация всегда представляется в виде сообщения. Сообщение – это форма представления каких-либо сведений в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.д. В широком смысле информация – это сведения, совокупность каких-либо данных, знаний. Наряду с понятие информация в информатике часто употребляется понятие данные. Данные – это результаты наблюдений над объектами и явлениями, которые по каким-то причинам не используются, а только хранятся. Как только данные начинают использовать в каких-либо практических целях, они превращаются в информацию.

1. Представление и кодирование информации с помощью знаковых систем.

 С древних времен знаки используются человеком для долговременного хранения информации и ее передачи на большие расстояния.

Форма знаков. В соответствии со способом восприятия знаки можно разделить на зрительные, слуховые, осязательные, обонятельные и вкусовые, причем в человеческом общении используются знаки первых трех типов.

К зрительным знакам, воспринимаемым с помощью зрения, относятся буквы и цифры, которые используются в письменной речи, знаки химических элементов, музыкальные ноты, дорожные знаки и т. д.

К слуховым знакам, воспринимаемым с помощью слуха, относятся звуки, которые используются в устной речи, а также звуковые сигналы, которые производятся с помощью звонка, колокола, свистка, гудка, сирены и т. д.

Для слепых разработана азбука Брайля, которая использует осязательный способ восприятия текстовой информации.

В коммуникации многих видов животных особую роль играют обонятельные знаки. Например, медведи и другие дикие животные помечают место обитания клочьями шерсти, сохраняющей запах, чтобы отпугнуть чужака и показать, что данная территория уже занята.

Для долговременного хранения знаки записываются на носители информации.

Для передачи информации на большие расстояния используются знаки в форме сигналов. Всем известны световые сигналы светофора, звуковые сигналы школьного звонка оповещают о начале или конце урока, электрические сигналы передают информацию по телефонным и компьютерным сетям, электромагнитные волны передают сигналы радио и телевидения.

Значение знаков. Знаки отображают объекты окружающего мира или понятия, т. е. имеют определенное значение (смысл).

Знаки различаются по способу связи между их формой и значением. Иконические знаки позволяют догадаться об их смысле, так как они имеют форму, похожую на отображаемый объект. Примером таких знаков являются значки на Рабочем столе операционной системы компьютера, например, значок Мой компьютер.

Символами называются знаки, для которых связь между формой и значением устанавливается по общепринятому соглашению. Примером таких знаков являются символы химических элементов, отображающие атомы химических веществ (табл. 2).

Если неизвестно соглашение о связи формы и значения символов, то ничего нельзя сказать о смысле информации, записанной такими знаками. Существуют найденные археологами и до сих пор нерасшифрованные тексты на древних языках, так как неизвестно значение знаков, которыми они записаны.

Таблица 2. Иконические знаки и символы

3.gif

В современном мире широко применяется шифрование, которое использует секретный ключ в качестве соглашения о связи формы символов с их значениями. Если секретный ключ неизвестен, то содержание передаваемого текста понять невозможно.

Один и тот же символ может иметь различное значение в разных знаковых системах. Например, знак "О" используется в качестве:

- буквы "О" в русском алфавите;

- буквы "О" [ou] в английском алфавите;

- цифры 0 в системах счисления;

- символа химического элемента "О" (кислорода) в таблице Д. И. Менделеева.

Знаковые системы являются наборами знаков определенного типа. С некоторыми знаковыми системами вы хорошо знакомы и постоянно ими пользуетесь (языки и системы счисления), с другими познакомитесь в этом пункте.

Каждая знаковая система строится на основе определенного алфавита (набора знаков) и правил выполнении операций над знаками.

Естественные языки. Человек широко использует для представления информации знаковые системы, которые называются языками. Естественные языки начали формироваться еще в древнейшие времена в целях обеспечения обмена информацией между людьми. В настоящее время существуют сотни естественных языков (русский, английский, китайский и др.).

В устной речи, которая используется как средство коммуникации при непосредственном общении людей, в качестве знаков языка используются различные звуки (фонемы).

В основе письменной речи лежит алфавит, т. е. набор знаков (букв), которые человек различает по их начертанию. В большинстве современных языков буквы соответствуют определенным звукам устной речи. Алфавит русского языка называется кириллицей и содержит 33 знака, английский язык использует латиницу и содержит 26 знаков.

На основе алфавита по правилам грамматики образуются основные объекты языка - слова. Правила, согласно которым из слов данного языка строятся предложения, называются синтаксисом. Необходимо отметить, что в естественных языках грамматика и синтаксис языка формулируются с помощью большого количества правил, из которых существуют исключения, так как такие правила складывались исторически.

Формальные языки. В процессе развития науки были разработаны формальные языки (системы счисления, алгебра, языки программирования и др.), основное отличие которых от естественных языков состоит в существовании строгих правил грамматики и синтаксиса.

Например, десятичную систему счисления можно рассматривать как формальный язык, имеющий алфавит (цифры) и позволяющий не только именовать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам.

Существуют формальные языки, в которых в качестве знаков используют не буквы и цифры, а другие символы, например, музыкальные ноты, изображения элементов электрических или логических схем, дорожные знаки, точки и тире (код азбуки Морзе).

Физическая реализация знаков в естественных и формальных языках может быть различной. Например, текст и числа могут быть напечатаны на бумаге, высвечены на экране монитора компьютера, записаны на магнитном или оптическом диске.

Генетический алфавит. Генетический алфавит является "азбукой", на которой строится единая система хранения и передачи наследственной информации живыми организмами.

Как слова в языках образуются из букв, так и гены состоят из знаков генетического алфавита. В процессе эволюции от простейших организмов до человека количество генов постоянно возрастало, так как было необходимо закодировать все более сложное строение и функциональные возможности живых организмов.

Генетическая информация хранится в клетках живых организмов в специальных молекулах. Эти молекулы состоят из двух длинных скрученных друг с другом в спираль цепей, построенных из четырех различных молекулярных   фрагментов (рис. 1.6). Фрагменты образуют генетический алфавит и обычно обозначаются латинскими прописными буквами {A, G, С, Т}.

4.gif

Рис 1. Модель молекулы генетического кода

Двоичная знаковая система. В процессах хранения, обработки и передачи информации в компьютере используется двоичная знаковая система, алфавит которой состоит всего из двух знаков {0, 1}. Физически знаки реализуются в форме электрических импульсов (нет импульса - 0, есть импульс - 1), а также состояний ячеек оперативной памяти и участков поверхностей носителей информации (одно состояние - 0, другое состояние - 1).

Именно двоичная знаковая система используется в компьютере, так как существующие технические устройства могут надежно сохранять и распознавать только два различных состояния (знака).

В 60-е годы XX века в СССР учеными Московского государственного университета была разработана и запущена в производство ЭВМ "Сетунь" (всего было произведено 50 экземпляров) (рис. 1.7). "Сетунь" использовала троичное кодирование информации и, соответственно, состояла из устройств, способных находиться в одном из трех возможных состояний.

5.gif

Рис. 2. ЭВМ "Сетунь"

2. Двоичное кодирование текстовой, графической и звуковой информации.

Код — это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий.

            Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

            Обычно каждый образ при кодировании (иногда говорят — шифровке) представлении отдельным знаком.

            Знак - это элемент конечного множества отличных друг от друга элементов.

            В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

            Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации, например, "наложить" друг на друга звуки от разных источников.

            Аналогичным образом на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

            Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.

            Способы кодирования информации.

            Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

            Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

            Кодирование символьной (текстовой) информации.

            Основная операция, производимая над отдельными символами текста - сравнение символов.

            При сравнении символов наиболее важными аспектами являются уникальность кода для каждого символа и длина этого кода, а сам выбор принципа кодирования практически не имеет значения.

            Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.

            Таблица перекодировки - таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.

            Наиболее популярные таблицы перекодировки: ДКОИ-8, ASCII, CP1251, Unicode.

            Исторически сложилось, что в качестве длины кода для кодирования символов было выбрано 8 бит или 1 байт. Поэтому чаще всего одному символу текста, хранимому в компьютере, соответствует один байт памяти.

            Различных комбинаций из 0 и 1 при длине кода 8 бит может быть 28 = 256, поэтому с помощью одной таблицы перекодировки можно закодировать не более 256 символов. При длине кода в 2 байта (16 бит) можно закодировать 65536 символов.

            Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код. Основное отличие числовых данных от символьных заключается в том, что над числами кроме операции сравнения производятся разнообразные математические операции: сложение, умножение, извлечение корня, вычисление логарифма и пр. Правила выполнения этих операций в математике подробно разработаны для чисел, представленных в позиционной системе счисления.

            Основной системой счисления для представления чисел в компьютере является двоичная позиционная система счисления.

            Кодирование текстовой информации. В настоящее время, большая часть пользователей, при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др. Подсчитаем, сколько всего символов и какое количество бит нам нужно.

            10 цифр, 12 знаков препинания, 15 знаков арифметических действий, буквы русского и латинского алфавита, ВСЕГО: 155 символов, что соответствует 8 бит информации.          

            Единицы измерения информации.

1 байт = 8 бит

1 Кбайт = 1024 байтам

1 Мбайт = 1024 Кбайтам

1 Гбайт = 1024 Мбайтам

1 Тбайт = 1024 Гбайтам

            Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

            Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ - 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы не будут правильно отображаться в другой

            Основным отображением кодирования символов является код ASCII – American Standard Code for Information Interchange- американский стандартный код обмена информацией, который представляет из себя таблицу 16 на 16, где символы закодированы в шестнадцатеричной системе счисления.

            Кодирование графической информации. Важным этапом кодирования графического изображения является разбиение его на дискретные элементы (дискретизация).

            Основными способами представления графики для ее хранения и обработки с помощью компьютера являются растровые и векторные изображения

            Векторное изображение представляет собой графический объект, состоящий из элементарных геометрических фигур (чаще всего отрезков и дуг). Положение этих элементарных отрезков определяется координатами точек и величиной радиуса. Для каждой линии указывается двоичные коды типа линии (сплошная, пунктирная, штрихпунктирная), толщины и цвета.

            Растровое изображение представляет собой совокупность точек (пикселей), полученных в результате дискретизации изображения в соответствии с матричным принципом.

            Матричный принцип кодирования графических изображений заключается в том, что изображение разбивается на заданное количество строк и столбцов. Затем каждый элемент полученной сетки кодируется по выбранному правилу.

            Pixel (pictureelement - элемент рисунка) - минимальная единица изображения, цвет и яркость которой можно задать независимо от остального изображения.

            В соответствии с матричным принципом строятся изображения, выводимые на принтер, отображаемые на экране дисплея, получаемые с помощью сканера.

            Качество изображения будет тем выше, чем "плотнее" расположены пиксели, то есть чем больше разрешающая способность устройства, и чем точнее закодирован цвет каждого из них.

            Для черно-белого изображения код цвета каждого пикселя задается одним битом.

            Если рисунок цветной, то для каждой точки задается двоичный код ее цвета.

            Поскольку и цвета кодируются в двоичном коде, то если, например, вы хотите использовать 16-цветный рисунок, то для кодирования каждого пикселя вам потребуется 4 бита (16=24), а если есть возможность использовать 16 бит (2 байта) для кодирования цвета одного пикселя, то вы можете передать тогда 216 = 65536 различных цветов. Использование трех байтов (24 битов) для кодирования цвета одной точки позволяет отразить 16777216 (или около 17 миллионов) различных оттенков цвета - так называемый режим “истинного цвета” (TrueColor). Заметим, что это используемые в настоящее время, но далеко не предельные возможности современных компьютеров.

            Кодирование звуковой информации. Из курса физики вам известно, что звук - это колебания воздуха. По своей природе звук является непрерывным сигналом. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение.

            Для компьютерной обработки аналоговый сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел, а для этого его необходимо дискретизировать и оцифровать.

Можно поступить следующим образом: измерять амплитуду сигнала через равные промежутки времени и записывать полученные числовые значения в память компьютера.

3. Представление числовой информации с помощью систем счисления.

Для записи информации о количестве объектов используются числа. Числа записываются с использованием особых знаковых систем, которые называются системами счисления. Алфавит систем счисления состоит из символов, которые называются цифрами. Например, в десятичной системе счисления числа записываются с помощью десяти всем хорошо известных цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.

Система счисления - это знаковая система, в которой числа записываются по определенным правилам с помощью символов некоторого алфавита, называемых цифрами.

Все системы счисления делятся на две большие группы: позиционные и непозиционные системы счисления. В позиционных системах счисления значение цифры зависит от ее положения в числе, а в непозиционных - не зависит.

Римская непозиционная система счисления. Самой распространенной из непозиционных систем счисления является римская. В качестве цифр в ней используются: I (1), V (5), X (10), L (50), С (100), D (500), М (1000).

Значение цифры не зависит от ее положения в числе. Например, в числе XXX (30) цифра X встречается трижды и в каждом случае обозначает одну и ту же величину - число 10, три числа по 10 в сумме дают 30.

Величина числа в римской системе счисления определяется как сумма или разность цифр в числе. Если меньшая цифра стоит слева от большей, то она вычитается, если справа - прибавляется. Например, запись десятичного числа 1998 в римской системе счисления будет выглядеть следующим образом:

MCMXCVIII = 1000 + (1000 - 100) + (100 -10)+ 5 + 1 + 1 + 1.

Позиционные системы счисления. Первая позиционная система счисления была придумана еще в Древнем Вавилоне, причем вавилонская нумерация была шестидесятеричной, то есть в ней использовалось шестьдесят цифр! Интересно, что до сих пор при измерении времени мы используем основание, равное 60 (в 1 минуте содержится 60 секунд, а в 1 часе - 60 минут).

В XIX веке довольно широкое распространение получила двенадцатеричная система счисления. До сих пор мы часто употребляем дюжину (число 12): в сутках две дюжины часов, круг содержит тридцать дюжин градусов и так далее.

В позиционных системах счисления количественное значение цифры зависит от ее позиции в числе.

Наиболее распространенными в настоящее время позиционными системами счисления являются десятичная, двоичная, восьмеричная и шестнадцатеричная. Каждая позиционная система имеет определенный алфавит цифр и основание.

В позиционных системах счисления основание системы равно количеству цифр (знаков в ее алфавите) и определяет, во сколько раз различаются значения одинаковых цифр, стоящих в соседних позициях числа.

Десятичная система счисления имеет алфавит цифр, который состоит из десяти всем известных, так называемых арабских, цифр, и основание, равное 10, двоичная - две цифры и основание 2, восьмеричная - восемь цифр и основание 8, шестнадцатеричная - шестнадцать цифр (в качестве цифр используются и буквы латинского алфавита) и основание 16 (табл. 3).

Таблица 3. Позиционные системы счисления

Система счисления

Основание

Алфавит цифр

Десятичная

10

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Двоичная

2

0, 1

Восьмеричная

8

0, 1, 2, 3, 4, 5, 6, 7

Шестнадцатеричная

16

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, А(10), В(11), C(12), D(13), E(14), F(15)

Десятичная система счисления. Рассмотрим в качестве примера десятичное число 555. Цифра 5 встречается трижды, причем самая правая цифра 5 обозначает пять единиц, вторая справа - пять десятков и, наконец, третья справа - пять сотен.

Позиция цифры в числе называется разрядом. Разряд числа возрастает справа налево, от младших разрядов к старшим. В десятичной системе цифра, находящаяся в крайней справа позиции (разряде), обозначает количество единиц, цифра, смещенная на одну позицию влево, - количество десятков, еще левее - сотен, затем тысяч и так далее. Соответственно имеем разряд единиц, разряд десятков и так далее.

Число 555 записано в привычной для нас свернутой форме. Мы настолько привыкли к такой форме записи, что уже не замечаем, как в уме умножаем цифры числа на различные степени числа 10.

В развернутой форме записи числа такое умножение записывается в явной форме. Так, в развернутой форме запись числа 555 в десятичной системе будет выглядеть следующим образом:

55510 = 5 × 102 + 5 × 101 + 5 × 100.

Как видно из примера, число в позиционной системе счисления записывается в виде суммы числового ряда степеней основания (в данном случае 10), в качестве коэффициентов которых выступают цифры данного числа.

Для записи десятичных дробей используются отрицательные значения степеней основания. Например, число 555,55 в развернутой форме записывается следующим образом:

555,5510 = 5 × 102 + 5 × 101 + 5 × 100 + 5 × 10-1 + 5 × 10-2 .

В общем случае в десятичной системе счисления запись числа А10, которое содержит n целых разрядов числа и m дробных разрядов числа, выглядит так:

A10 = an-1 × 10n-1 + ... + a0 × 100 + a-1 × 10-1 + ... + a-m × 10-m

Коэффициенты ai в этой записи являются цифрами десятичного числа, которое в свернутой форме записывается так:

А10 = an-1 an-2 ... a0, a-1 ... a-m.

Из вышеприведенных формул видно, что умножение или деление десятичного числа на 10 (величину основания) приводит к перемещению запятой, отделяющей целую часть от дробной, на один разряд соответственно вправо или влево. Например:

555,5510 × 10 = 5555,510
555,5510 : 10 = 55,55510.

Двоичная система счисления. В двоичной системе счисления основание равно 2, а алфавит состоит из двух цифр (0 и 1). Следовательно, числа в двоичной системе в развернутой форме записываются в виде суммы степеней основания 2 с коэффициентами, в качестве которых выступают цифры 0 или 1.

Например, развернутая запись двоичного числа может выглядеть так:

А2 = 1 × 22 + 0 × 21 + 1 × 20 + 0 × 2-1 + 1 × 2-2.

Свернутая форма этого же числа:

А2 = 101,012.

В общем случае в двоичной системе запись числа А2, которое содержит n целых разрядов числа и m дробных разрядов числа, выглядит так:

А2 = an-1 × 2n-1 + an-2 × 2n-2 + ... + a0 × 20 + a-1 × 2-1 + ... + a-m × 2-m

Коэффициенты аi в этой записи являются цифрами (0 или 1) двоичного числа, которое в свернутой форме записывается так:

А2 = аn-1 аn-2 ... а0, а-1 а-2 ... а-m

Из вышеприведенных формул видно, что умножение или деление двоичного числа на 2 (величину основания) приводит к перемещению запятой, отделяющей целую часть от дробной на один разряд соответственно вправо или влево. Например:

101,012 × 2 = 1010,12
101,012 : 2 = 10,1012.

Позиционные системы счисления с произвольным основанием. Возможно использование множества позиционных систем счисления, основание которых равно или больше 2. В системах счисления с основанием q (q-ичная система счисления) числа в развернутой форме записываются в виде суммы степеней основания q с коэффициентами, в качестве которых выступают цифры 0, 1, q - 1:

Aq = an-1 × qn-1 + an-2 × qn-2 + ... + a0 × q0 + a-1 × q-1 + ... + a-m × q-m

Коэффициенты аi в этой записи являются цифрами числа, записанного в q-ичной системе счисления.

Так, в восьмеричной системе основание равно восьми (q = 8). Тогда записанное в свернутой форме восьмеричное число А8 = 673,28 в развернутой форме будет иметь вид:

А8 = 6 × 82 + 7 × 81 + 3 × 80 + 2 × 8-1.

В шестнадцатеричной системе основание равно шестнадцати (q = 16), тогда записанное в свернутой форме шестнадцатеричное число А16 = 8A,F16 в развернутой форме будет иметь вид:

А16 = 8 × 161 + А × 160 + F × 16-1.

Если выразить шестнадцатеричные цифры через их десятичные значения (А=10, F=15), то запись числа примет вид:

А16 = 8 × 161 + 10 × 160 + 15 × 16-1.