Как работают сервисы проверки уникальности текста и почему им не всегда следует доверять

6 июня 2016


Как работают сервисы проверки уникальности текста и почему им не всегда следует доверять TextBroker

Мы, Textbroker.ru, были авторами первой в Рунете программы для проверки уникальности текстов Double Content Finder (DCFinder). Правда, не стоит кривить душой, на момент создания нашей программы, а был это 2007 год, уже существовал сервис http://antiplagiat.ru, который также проверял уникальность, но проверку он осуществлял лишь по своей базе данных. Мы же проверяли уникальность по материалам, размещенным в интернете. Т. е. проверка осуществлялась через поисковые системы.

Итак, как же работают программы проверки текстов на плагиат?

Существует несколько разных методов, но все они базируются на поиске определенных фраз в поисковых машинах. В дальнейшем у каждого сервиса свои алгоритмы обработки получаемых из поисковиков результатов, но так или иначе все разбивают текст на фразы, шинглы, куски, можно назвать это как угодно.

Каждая программа работает по-своему. Одни получают фразы из нескольких слов, идущих друг за другом, другие выдергивают фразы из текста случайно или берут пересекающиеся фразы. Вариантов много. Чем больше текст, тем больше кусков, которые нужно проверить. Это первая и необходимая стадия, без нее никак.

Когда результат получен, поисковики нашли схожие фрагменты, тогда программа забирает эти тексты к себе и обрабатывает по своим алгоритмам, высчитывает процент неуникальности, рассказывает о рерайте и т. д.

Давайте возьмем текст из 1500 символов и предположим, что выйдет порядка 250 слов. Разобьем текст на куски, каждый из которых будет содержать 5 слов. Если мы будем брать фразы без пересечений, у нас получится 50 фраз. А если сделать пересечение в 1-2 слова, то соответственно количество фраз увеличится в разы.

Теперь, для того чтобы досконально проверить текст на уникальность, нам следует проверить все эти фразы. Т. е. нам нужно сделать 50 запросов к поисковой системе. Если речь идет о программе, которая делает запросы к обычной выдаче, то к гадалке не ходи, уже на третий запрос мы попадаем на капчу, и придется ввести капчу 47 раз.

Есть сервисы, которые используют xml-запросы к поисковым системам. В этом случае нет никаких капч, но запросы дело не дешевое. Отдать 50 запросов для проверки всего одного текста, да еще и бесплатно, слишком расточительно.

Таким образом, мы приходим к тому, что программы не имеют возможности произвести полную и доскональную проверку текста. Для каждой проверки очевидно используется меньшее количество запросов.

Например, используя 10 запросов и проверяя 10 выбранных случайным образом фраз, мы получаем один результат. Делая повторную проверку, программа выбирает снова 10 фраз из текста, но очень велика вероятность, что фразы будут выбраны уже другие, и поисковая машина вполне может выдать уже другие результаты. Это не говоря о том, что результаты выдачи поисковой машины могут быть разными даже для одного и того же запроса, но для разных регионов.

В итоге можно сделать вывод, что результаты получения данных от поисковой машины могут быть разными, а следовательно, несмотря на дальнейшие продвинутые алгоритмы проверки, говорить о 100 % корректном результате мы не можем.

Именно поэтому 5 проведенных проверок одна за одной в разное время из разных регионов или разными людьми могут различаться.