Не списывай!

Наука и технологии

Проект-победитель за время участия в конкурсе стал необыкновенно популярен. За последнее время о нем написали уже многие СМИ. Интернет переполнен паническими обсуждениями студентов, а сайт компании стал одним из самых популярных. Речь об Antiplagiat.ru

С широким распространением интернета жизнь студентов и школьников превратилась в сплошную малину: знай скачивай рефераты, курсовые и дипломы, меняй имя автора да и получай пятерки! И, надо признать, некоторые так и поступают. Со сложившейся ситуацией можно бороться по-разному: иные вузы ужесточают наказания за плагиат, другие увеличивают число аудиторных работ, во время которых труднее списывать. А инициатор проекта Antiplagiat.ru — ректор Московского института экономики, менеджмента и права Артемий Никитов решил пойти по пути совершенствования технических средств. Для этого он обратился в компанию Forecsys, которая специализируется на разработке наукоемкого программного обеспечения. В сотрудничестве с ней и была создана система.

Проверить, как она работает, можно на сайте Antiplagiat.ru, находящемся пока в режиме тестовой эксплуатации. Для этого достаточно загрузить туда любой текст, после чего система проведет его проверку и выделит неаутентичные куски со ссылкой на их источники в интернете.

Принцип работы Antiplagiat.ru достаточно прост и принципиально не отличается от обычного поисковика. На сервере работает краулер (crawler, специальная программа, в автоматическом режиме бродящая по сайтам в интернете), целенаправленно собирающий русскоязычные тексты. Далее система делит найденный текст на отдельные фразы, для которых вычисляется уникальный код и сохраняется в базе данных. Соответственно, проверяемый текст также делится на фразы, которые подвергаются аналогичной операции, после чего сравниваются с образцами из базы. Очевидно, что качество работы такой системы, как и у поисковика, будет зависеть от уровня лингвистического анализа текста. Однако разработчики отрицают использование каких-либо лингвистических алгоритмов: поиск в системе ведется на уровне точного математического соответствия слов и предложений с использованием хеш-кодов. Хеш-код — «это определенное число, для подсчета которого текстовая фраза или отдельное слово рассматривается как набор символов, каждый из которых имеет свой числовой код». Коды символов обрабатываются по специальной формуле, и в итоге получается уникальное число, однозначно характеризующее данную фразу с точностью до буквы или знака препинания. Отсюда основной недостаток системы: если плагиатор решил переставить местами пару слов, то система уже не будет уверена в том, что предложение откуда-то слизано. Как удалось выяснить на примере нескольких деловых новостей, достаточно изменить в каждой строчке текста всего пару букв, чтобы алгоритм счел такой текст авторским.

Есть проблемы и с информационным наполнением базы системы. Дело в том, что более или менее разумные плагиаторы из числа студентов не скачивают работы из открытых интернет-источников напрямую, а использ