Законы Зипфа и автоматизация извлечения метаданных из электронных изданий

Узнаваемый математик Дж. Зипф (С. К. Zipf) показал, что все сделанные человеком тексты подчиняются общим закономерностям, которые он определил в 1946 г. в виде нескольких законов.

Если взять хоть какой текст, то можно подсчитать, какие слова в нем сколько раз встречаются. Количество повторов слова в тексте можно именовать частотой. В большинстве случаев встречающемуся Законы Зипфа и автоматизация извлечения метаданных из электронных изданий слову можно приписать ранг 1, последующему по частоте - 2 и т. д. Если несколько различных слов имеют схожие частоты, то учитывается только одно из этих нескольких значений. Если поделить частоту повторения слова на полное количество означающих слов в тексте, то получим его относительную частоту либо возможность встречи этого слова Законы Зипфа и автоматизация извлечения метаданных из электронных изданий в тексте. 1-ый закон Зипфа говорит, что произведение вероятности встречи слова в тексте на его частоту примерно повсевременно для всех текстов определенного языка. Произнесенное иллюстрируется рис. 7.3 , где представлена зависимость частоты встречи слова в тексте f от его ранга R.

2-ой закон Зипфа определяет соотношение меж частотой и количеством Законы Зипфа и автоматизация извлечения метаданных из электронных изданий слов, которые с этой частотой встречаются в тексте. Если выстроить график зависимости количества слов и частоты, то окажется, что характеризующая ее кривая остается постоянной для всех текстов в границах 1-го языка. Произнесенное иллюстрируется да другим и рис. 7.4 , на котором показаны кривые для британского (самая нижняя), французского и российского языков (самая верхняя).

Данные Законы Зипфа и автоматизация извлечения метаданных из электронных изданий рис. 7.3 могут удачно употребляться на практике для выделения означающих слов в тексте. Все значащие слова для данного текста располагаются в области средних значений ранга (область выделена на рис. 7.3 штриховкой). Вправду, самые распространенные слова обычно относятся к вспомогательным, а самые редкие обычно также не имеют решающего смыслового Законы Зипфа и автоматизация извлечения метаданных из электронных изданий значения для данного текста. От того, как будет задан спектр важных слов, зависит почти все. Если сделать его очень широким - нужные определения потонут в море вспомогательных слов, установив чрезвычайно узенький спектр мы рискуем потеряешь смысловые определения.

Если рассматривать совокупа изданий, в особенности, посвященных одной и той же теме, то Законы Зипфа и автоматизация извлечения метаданных из электронных изданий возможность случайного попадания малозначащих слов в выделенную область для группы изданий (см. рис. 7.3 ) миниатюризируется. Чтоб учитывать такую возможность избавиться от случайных слов вводят понятие инверсной частоты термина. Инверсная частота определяется как логарифм дела полного количества рассматриваемых документов п кчислу документов, содержащих данный термин m (под термином может пониматься не Законы Зипфа и автоматизация извлечения метаданных из электронных изданий только лишь отдельное слово, да и единое по смыслу словосочетание), т. е.

.

С учетом инверсной частоты вес либо значимость термина в каждом документе обусловится как произведение

,

где z - вес либо значимость термина в издании; f - частота повторения термина в этом издании; i - инверсная частота этого термина в группе издании.

Процесс определения веса Законы Зипфа и автоматизация извлечения метаданных из электронных изданий либо значимости термина в издании просто алгоритмизируется. На этом принципе базирована работа всех программ - экстракторов означающих слов. Нужно сказать, что даже обширно всераспространенный в нашей стране редактор Word, начиная с версии 1997 г., как-то делает функции извлечения определений. Для этого употребляется команда «Реферат» в секции меню «Сервис Законы Зипфа и автоматизация извлечения метаданных из электронных изданий». Соответственное команде диалоговое окно показано на рис. 7.5 .

Как надо из данных рис. 7.5 , реферат можно поместить в начало реферируемого документа либо оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере на рис. 7.5 в реферате содержатся два предложения, в Законы Зипфа и автоматизация извлечения метаданных из электронных изданий то время как в начальном документе их было 20 одно. Вместе с составлением реферата из текста документа извлекается 5 более важных слов. Для их просмотра следует пользоваться командой «Свойства» секции меню «Файл». Соответственное диалоговое окно показано на рис. 7.6 .

Для того чтоб ключевики были занесены в необходимое поле вкладки «Документ» окна «Свойства Законы Зипфа и автоматизация извлечения метаданных из электронных изданий», в диалоговом окне, показанном на рис. 7.5 , должна быть задействована функция «Обновить сведения о документе»).

В поле «Ключевые слова» в примере отобрано 5 слов, а конкретно: «в», «издательств», «области», «предусмотрен», «должен». Несложно за метить, что из 5 отобранных слов только одно соответствует теме статьи «Современные издательства», при этом одно из отобранных слов - предлог Законы Зипфа и автоматизация извлечения метаданных из электронных изданий, который вообщем не может иметь смысла, когда он берется раздельно от основного слова. Таким макаром, качество отбора ключевиков редактором Word 97 очень низкое. Кстати, реферирование осуществляется только для работе заглавием на британском (а не на российском) языке. Нужно сказать, что редактор Word 2000 ничем значимым не отличается от собственного предшественника.


zakoni-dialekticheskogo-determinizma.html
zakoni-ekologii.html
zakoni-fehnera-i-stivensa-osnovnie-polozheniya-teorii-obnaruzheniya-signalov.html