Клуб выпускников МГУ (Московский Государственный Университет) |
ЛингвоАнализатор: КАК ОПРЕДЕЛИТЬ АВТОРСТВО?У важаемый пользователь! Программа ЛингвоАнализатор является первой в мире программой, которая с большой уверенностью устанавливает автора текста (выражаясь филологическими терминами, атрибутирует текст). Вам доступна первая версия программы ЛингвоАнализатор. По входному тексту, который передаётся через Сеть, программа выдаёт имена трёх писателей, которые могли бы быть его авторами. С помощью ЛингвоАнализатора, не читая текст, Вы можете оценить его сходство с произведениями Ваших любимых писателей. Кроме того, вы можете испробовать ваши собственные литературные опыты на близость к классикам жанра. Кроме имён писателей, ЛингвоАнализатор находит три произведения каждого из авторов, которые наиболее близки данному тексту. Таким образом, Вы можете проверить качество программы просто предлагая ей на вход отрывки или даже целые произведения Ваших любимых писателей (см. Примеры). Тройка писателей выбирается из 128 писателей. В базу данных программы занесены данные о 1357 текстах этих писателей, общий объем текстов составляет около 180 Мб. При использовании ЛингвоАнализатора необходимо учитывать следующую информацию. Программа никоим образом не анализирует идеи, фабулу и вообще содержание данного текста. Применяемая методика определения авторства опирается на математическую модель, в которой учтены такие формальные характеристики языка автора, как
Последние исследования, инициированные на механико-математическом факультете МГУ им. М.В. Ломоносова и одобренные специалистами с филологического факультета, показали, что, несмотря на некоторые вариации каждой из этих характеристик по отдельности, их совокупность, аккуратно взвешенная в используемой математической модели (полученная интегральная характеристика получила название относительной энтропии), очень хорошо отражает т.н. авторский стиль. Это утверждение было проверено в объёмном статистическом эксперименте на текстах 82 писателей; объем текстов превышал 128 Мб, а число текстов превосходило 400. Результаты этих исследований, после рецензии специалистов с филологического и механико-математического факультетов, опубликованы в филологической серии ``Вестника МГУ'' в 2-м номере за 2000 год (Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. Вестник МГУ, сер.9: филология, N2, 2000, с.115-126). Также см. краткую историю разработки методик определения авторского стиля. При малом объёме текста автор может весьма значительно уйти от своего обычного стиля. Поэтому программа лучше всего работает с текстами большого объёма. Ни один из 1357 распознаваемых текстов восстановить из программы невозможно, поэтому присутствие данной программы в Интернете не нарушает ничьих авторских прав и не затрагивает интересы издательств. Автор исследования и программы Читатель Фантастики Дмитрий Хмелёв, аспирант кафедры теории вероятностей, механико-математического факультета Московского Государственного Университета им. М.В.Ломоносова, член Клуба выпускников МГУ, выпускник 18 физико-математического интерната при МГУ. P.S. Программа создана по просьбе Дмитрия Ватолина, предоставившего коллекцию текстов И. Загумменнова и полное текущее содержание сервера Русская Фантастика. Полный список писателей и произведений, на основе анализа которых построена работа программы, можно посмотреть здесь. P.P.S. Шлите комментарии по адресу dima@vvv.srcc.msu.su |