Читать книгу Песни о Паскале, автор Деревенец Олег онлайн страница 239 на сайте booksonline.com.ua.

Книга жанра: Компьютеры и Интернет, Базы данных. Читать онлайн в библиотеке Booksonline.

ЧИТАТЬ КНИГУ ОНЛАЙН: Песни о Паскале

(Деревенец Олег)

Жанр : Базы данных;

НАСТРОЙКИ....

Цвет фона

Цвет текста

Размер шрифта

СОДЕРЖАНИЕ....

Close
СОДЕРЖАНИЕ

Booksonline.com.ua

Базы данных

Песни о Паскале - Деревенец Олег

Стр. 239

1
« ...
237
238
239
240
» ...
349

Односвязные списки подоспели как раз вовремя, – сейчас они поработают в необычном проекте.

Частотный анализ текста

Однажды разгорелся спор об известном романе «Тихий Дон», – некоторые литераторы усомнились в авторстве Михаила Шолохова. Их сомнения развеяли программисты, вычислившие частотные характеристики нескольких его произведений. Что это за характеристики такие?

Предположим, вы подсчитали, что слово «Паскаль» упомянуто в этой книге 150 раз, а всего в книге 10000 слов. Тогда относительная частота слова «Паскаль» в книге составит 150 / 10000 = 0,015 или 1,5%. Если найти частоту употребления других слов книги, и расположить эти результаты в некотором порядке, то получится картина, подобная отпечатку пальца. У разных авторов эти «отпечатки» разные, зато у одного автора в разных произведениях – очень похожи! Обработав таким частотным анализатором несколько книг Михаила Шолохова, специалисты сравнили результаты и обнаружили на романе «Тихий Дон» «пальчики» донского писателя.

Слово за слово

Итак, мы беремся за разработку слегка упрощенного частотного анализатора. Это опять тот случай, где заранее неизвестен объём обрабатываемых данных. В самом деле, определить приблизительное количество слов в тексте не так уж сложно: посчитаем их на одной странице и умножим на число страниц. Но сколько из этих слов несовпадающих, разных? Не слышу ответа!

Наша программа будет читать не романы, а текстовые файлы, – возьмем файл какой-либо из наших программ, и посчитаем в нём слова, составленные из латинских букв. Для упрощения программы русские слова считать не будем, и пропустим слова, состоящие из одной буквы. Зато примем в расчет слова с цифрами и знаками подчеркивания, например, такие.

Begin, NIL, P1, q2, Words_Count, _1_

Нам предстоит выудить из текста подходящие слова, перевести их в верхний регистр, отсортировать по алфавиту и пересчитать.

Структура записи

Накапливать слова будем в списке, а потому разработку программы начнем с конструирования надлежащей записи. Очевидно, что в ней надо предусмотреть строку для слова и числовое поле для счетчика. Стало быть, структура элемента списка будет такой.

TRec = record { Тип записи для подсчета слов }

mWord : string; { Слово из текста – 256 байт }

mCount : Longint; { Счетчик слов – 4 байта }

mNext : PRec; { Указатель на следующий – 4 байта }

end;

Сколько памяти займет один такой элемент? Сейчас посчитаем: 256+4+4=264 байта, – не так уж мало! Полагаю, что для слова достаточно и тридцати символов. Но, прежде, чем окончательно выбрать длину строки, открою небольшой секрет, – он касается выделения динамической памяти. Сколько бы памяти ни запросила программа, операционная система выделит кусочек, кратный восьми байтам. То есть, часть байтов в выделяемой порции может быть лишней. Значит, предпочтительный размер записи для динамических переменных кратен восьми байтам. В нашем случае размер записи можно уменьшить до 40 байтов, если объявить её так:

TRec = record { Тип записи для подсчета слов }

mWord : string[31]; { Слово из текста – 32 байта }

mCount : Longint; { Счетчик слов – 4 байта }

mNext : PRec; { Указатель на следующий – 4 байта }

end;

С одной стороны, число 40 кратно 8, а с другой стороны, 31-го символа для слова вполне достаточно.

Алгоритм

Теперь обсудим алгоритм обнаружения и обработки слов. В чем состоит эта обработка? Найдя выделенное слово в списке, нарастим его счетчик – поле mCount, а если слова в списке ещё нет, добавим запись с этим словом и счетчиком, равным единице.

Можно придумать много способов выборки слов из файла. Один из них – построчная обработка, когда каждую строку можно обработать так.

Вперед

Вы читаете Песни о Паскале

1
« ...
237
238
239
240
» ...
349

Добавить отзыв

ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату

Материалы, присутствующие на сайте, получены с публичных (широкодоступных) ресурсов. Если вы обладаете авторским правом на какую либо информацию, размещенную на сайте booksonline.com.ua и не согласны с её общедоступностью в будущем, то мы согласны рассмотреть предложения по удалению определенного материала, а также обсудить предложения о договоренностях, разрешающих использовать данный контент. Мы не отслеживаем действия пользователей, которые самостоятельно выкладывают источники текстов, являющиеся объектом вашего авторского права. Все данные на сайт, загружаются автоматически, не проходя заранее отбора с чьей либо стороны, что является нормой в мировом опыте размещения информации в сети интернет.

Не смотря на это, при возникновении у Вас вопросов касательно ссылок на информацию, размещенную на нашем сайте, правообладателями которой Вы являетесь, просим обращаться к нам с интересующим запросом. Для этого требуется переслать е-mail на адрес: [email protected]. В письме настоятельно рекомендуем подать такие сведения : 1.Документальное подтверждение ваших прав на материал, защищённый авторским правом: отсканированный документ с печатью, либо иная контактная информация, позволяющая однозначно идентифицировать вас, как правообладателя данного материала. 2. Прямые ссылки на страницы сайта, которые содержат ссылки на файлы, которые есть необходимость откорректировать.

Все права защищенны booksonline.com.ua