В информатике для оценки количества информации применяют энтропию (безразмерную). Термодинамическая энтропия похожа, но это немного не то.
И там и там это мера количества возможных состояний объекта для наблюдателя (приемника). В информатике объект - это порция информации (строка например). Но здесь нужно отметить что эти величины условные.
Колмогоровская сложность.
Колмогоров был первым, кто предложил мерить сложность вещи числом и указал способ такого измерения: сложность вещи есть длина наиболее короткого её описания. Как и все гениальные формулировки, эта формулировка кажется очевидной - но лишь после, а никак не до её провозглашения. Разумеется, здесь требуются математические уточнения, которые мы опускаем. Создание теории сложности объектов было последним крупным математическим достижением Колмогорова. Как сказал Пастернак, “...нельзя не впасть к концу, как в ересь, в неслыханную простоту. Но мы пощажены не будем, когда её не утаим. Она всего нужнее людям, но сложное понятней им”.
В качестве объектов, сложность которых подлежит установлению, могут рассматриваться, в частности, тексты. “...Такие величины, как «сложность» текста романа «Война и мир», можно считать определёнными с практической однозначностью” ([Колм 65т], с. 10, или [Колм 87], с. 222).
Ясно, что
длина описания может существенно зависеть от того объёма знаний, которые разрешается использовать при составлении описания. Поэтому важное место в теории Колмогорова занимает представление
об условной сложности при тех или иных исходных данных - это есть сложность,
вычисленная при условии, что указанные данные уже известны и могут быть использованы при составлении описаний. Очевидно, что условная сложность чего бы то ни было не может быть больше абсолютной (т. е. не условной) сложности того же самого. Можно, для примера, сравнить бОльшую абсолютную сложность текста «Войны и мира» как текста русского языка и его меньшую условную сложность при условии, что заранее известно, что текст написан Львом Толстым, т. е. принадлежит языку Толстого.
В применении к текстам приобретает смысл понятие удельной сложности. Удельная сложность текста есть его сложность как целого, поделённая на длину текста (это, так сказать, сложность, приходящаяся в среднем на один знак). Оказывается, что для длинных текстов их удельная сложность не превосходит энтропии того языка, на котором эти тексты написаны*. Оценивание, о котором идёт речь в приводимой ниже цитате, как раз и представляет собою оценивание сверху удельной условной сложности с помощью энтропии**, вычисляемой, в свою очередь, методом угадывания продолжений.
* Сказанное не вполне точно. На самом деле удельная сложность не превосходит суммы энтропии с некоторой добавкой, которая стремится к нулю при увеличении длины текста.
** Читатель, следящий за аккуратностью нашего изложения с вниманием бОльшим, нежели мы смеем расчитывать, может испытать здесь некоторое затруднение. В самом деле, если удельная сложность оценивается сверху энтропией, то удельная условная сложность должна оцениваться сверху условной энтропией (а не просто энтропией). Так оно и есть. Но дело в том, что условная энтропия “при заданном запасе «априорной информации»”, о котором говорит Колмогоров, совпадает с обыкновенной (т. е. абсолютной, не условной) энтропией того подъязыка, который как раз и выделяется из русского языка в целом этой “априорной информацией”. Она, эта энтропия, и вычисляется экспериментально, методом угадывания.
Эксперименты по угадыванию продолжений литературных текстов позволяют оценить сверху [удельную] условную сложность при заданном запасе «априорной информации» (о языке, стиле, содержании текста), которой располагает угадывающий. В опытах, проводившихся на кафедре теории вероятностей Московского гос. ун-та, такие оценки сверху колебались между 0,9 и 1,4. Оценки порядка 0,9–1,1, получившиеся у Н. Г. Рычковой вызывали у менее удачливых угадчиков разговоры о её телепатической связи с авторами текстов. [Колм 65т], с. 10, или [Колм 87], с. 222.