Из анализа алгоритма проверки уникальности текстов сервисом антиплагиат можно сделать следующие выводы:
– проверкой учитываются слова, несущие смысловую нагрузку. Введение в текст водянистых терминов – «по нашему мнению», «исходя из анализа», «подводя итог» и т. д. уникальности не прибавляет;
– изменение шинглов из двух слов (биграмм) приводит к повышению уникальности текстов, так как изменяется хеш шинглов;
– уникальность текста нужно повышать не фрагментарно, а целостно, так как это изменяет общее хеш-значение.
С учётом особенности процесса антиплагиат-проверки для создания качественного уникального научного текста используются три основных приёма:
– Обычный (легкий, поверхностный) рерайтинг. Для антиплагиат-сервисов, как правило, он не подходит, так как достигаемое отличие текстов (при сверке по шинглам из 2 слов – Ш2) не даёт возможности преодолеть порог срабатывания модуля перефразирования, преодоление которого возможно при показателе отличия текстов Ш2 = 80% и более процентов. Примером обычного рерайта является однократный перевод текста на иностранный язык и обратно на русский, при этом показатель Ш2 лежит в пределах 50—80%.
– Глубокий рерайтинг, текст «пересказывается» с использованием уникальных текстовых комбинаций, что существенно больше, чем перестановка предложений и замена синонимов. Глубокий рерайт даёт отличие текстов по методу сверки Ш2 на уровне 80 и более процентов. Пример глубокого рерайта – последовательный перевод на венгерский-русский + финский-русский + китайский-русский. При выборе языков желательно ориентироваться на объем искажений, получаемых в процессе перевода, наибольшее отличие рерайта от текста донора дадут лексически отдаленные языки, рис. 4, например финский.
Рисунок 4 – Лексическое расстояние между европейскими языками
– Копирайтинг, оригинальный материал пишется «из головы», на основе глубокого понимания ранее полученного материала. Текст после копирайтинга отличается от источника при сверке по показателю Ш2 более чем на 80%, однако, нужно быть готовым к тому, что уникальность будет как у обычного или глубокого рерайтинга. Данная проблема, связанная с тем, что современные системы антиплагиат в погоне за «жесткостью» проверок давно уже грешат объективностью, а копирайтинг не предусматривает изменение n-грамм, которые относятся к терминам.
Рерайтерам и копирайтерам необходимо знать, что понятие уникальности материала по своей сути субъективно, его понимание зависит от множества внешних факторов. Каждый сервис антиплагиата по-своему понимает значение уникальности, поэтому во избежание кривотолков крайне важно исходить из потребности в проценте уникальности и учитывать, где проверяется текст:
Чтобы пройти проверку в StrikePlagiarism, достаточно получить отличия – Ш5 – 90—95%, Ш25 – 1—2%. Такое отличие дает перевод текста: венгерский-русский + китайский-русский.
Успешно пройти проверку в антиплагиат ВУЗ, потребует достижения показателя Ш2 – 90 и более процентов, рис. 5. Такое отличие возможно получить с помощью длинного цепочного перевода, но дефекты текста потребуют существенных трудозатрат на его редактирование.
РуКонтекст – отличие при сверке по показателю Ш2 – ваш показатель, который вы получите при проверке.
Рисунок 5 – Сверка текстов на отличие по показателю Ш2, левое окно – текст рерайта, правое окно – текст источник (донор), желтым выделены n-граммы, которые не изменились, показатель отличия см. внизу, справа = 95%
Что такое КонтрПлагиат? Как показано выше, рерайт (в частности, простой и глубокий) и копирайтинг не дают однозначного результата при проверке в антиплагиат, который РУ и ВУЗ. КонтрПлагиат свободен от этих недостатков, так как, применяя систему методов, он позволяет повышать уникальность с высоким отличием и позволяет проводить проверку текстов локально, на компьютере, бесплатно, за считанные секунды. Если показатель Ш2 больше 95%, то текст с высокой вероятностью пройдет любую проверку на антиплагиат в любой системе.
Разбивка шинглов (биграмм) в КонтрПлагиате – самостоятельный метод, его задача не оставлять в тексте желтых блоков, рис. 5, например вместо «Конституция Российской Федерации» – «Основной Закон нашей страны».
Диапазоны значений изменения текстов по показателю Ш2 могут варьироваться в достаточно большом диапазоне, что связано с объемом изменяемого текста. Если предложение содержит набор терминов, которые считаются неизменяемыми, то процесс перефразирования затрудняется и показатель Ш2 низок, например дан текст донор: «Государственную власть в РФ осуществляют Президент РФ, ФС (СФ и ГД), Правительство РФ, суды РФ. Государственную власть в субъектах РФ осуществляют образуемые ими органы государственной власти».
Имея текст с дефицитом изменяемой части, мы отходим от принципов рерайта и занимаемся чем-то иным, разбивая шинглы из 2 слов и придумывая слова и выражения, которые в обычной языковой практике, тем более научной не используются. Данный процесс называется КонтрПлагиатом. КонтрПлагиат может выглядеть следующим образом: «Функции органов, относимых к государственным, реализуют – высшее должностное лицо нашей страны – Президент, Собрание, на уровне Федерации, Совет, уровня Федерации и коллегиальный орган – Дума, государственного уровня, высший исполнительный орган Российской Федерации – Правительство, органы судебной власти РФ. Власть, уровня государства в субъектах, территориях нашей страны, реализуют образуемые специализированные органы, относимые к власти государства».
Ваш текст с правильно расставленными запятыми выглядит следующим образом:
Таким образом, для цели настоящей работы, предлагаются следующие константы:
– рерайт, способ изменения текста донора методом перефразирования «другими словами» для цели достижения уникальности;
– шингл, n-грамма – последовательность слов, биграмма – 2 слова (шингл из 2 слов, Ш2), триграмма – 3 слова (шингл из 3 слов, Ш3);
– легкий, поверхностный рерайт – перефразирование текста с уникальностью до 80%, при сверке по шинглам, состоящим из 2 слов;
– глубокий рерайт – перефразирование текста с уникальностью более 90%, при сверке по шинглам, состоящим из 2 слов;
– КонтрПлагиат – система методов, применяемых для перефразирования текста с уникальностью более 95%, при сверке по шинглам, состоящим из 2 слов;
– мягкая антиплагиат проверка – процент, полученный при локальной сверке биграмм (шинглов из 2 слов), = проценту уникальности антиплагиат проверки (например, РуКонтекст, антиплагиат ру – бесплатная версия);
– жесткая антиплагиат проверка, при нормальной заспамленности, процент, полученный при локальной сверке биграмм (шинглов из 2 слов), = проценту уникальности антиплагиат проверки (например, антиплагиат. ВУЗ) – минус 10%. Приведем пример: локальная проверка отличия текстов показала отличие по показателю Ш2 = 97%, ожидаемый результат оригинальности в отчете антиплагиат ВУЗ 87%, рис. 6;
Рисунок 6 – Пример отчета в Антиплагиат, версии ВУЗ
– заспамленность, частотность текста – численная мера, показывающая популярность текста, например, в педагогических работах, посвященных младшему школьному возрасту, теоретическая часть содержит возрастную характеристику детей данного возраста, сколько работ о младшем школьном возрасте написано за последние 20 лет?
Таким образом, КонтрПлагиат – система принудительных мер, сочетающих в себе вариативность инструментов глубокого рерайта и копирайтинга, усиленных принудительным изменением шинглов (биграмм), дополненного методом сверки текста рерайта с текстом донора по показателю Ш2 (сверка шинглов, состоящих из 2 слов). КонтрПлагиат изменяет весь текст, в том числе и термины, при показателе Ш2 более 95% цель КонтрПлагиата достигается – работа набирает высокий показатель уникальности.
КонтрПлагиат применяется для успешного прохождения проверки в антиплагиат, версии ВУЗ, как правило для других систем поиска заимствований КонтрПлагиат не нужен, там достаточно глубокого рерайта.
1.2. Методы которые не работают в антиплагиат ВУЗ
Ниже обобщены методы, в которых присутствует как размытая, так и четка грань, связанная со студенческой «оптимизацией» рерайта, например методы некоторые способы демонстрируют элемент легальности, а использование технического кодирования, содержат состав мошеннических действий.
Изменение размера предложений и замена знаков препинания
Метод предполагает манипуляции с предложениями – простые объединить в сложные, сложные разделить на простые, метод – практически не влияющий на оригинальность текста, т.к. шинглы не изменяются. Максимальное повышение оригинальности, которое можно достичь с помощью этого метода, составляет всего 1—2%. Кроме того, такой подход требует значительных временных затрат. Применение данного метода в сочетании с рерайтом – эффективно, т.к. точка является своеобразным маркером, наравне с запятой.
Удаление абзацев и приведение текста к массиву на несколько страниц
Данный подход не изменяет шинглы, следовательно не является способом повышения уникальности. Изменяет общий хеш абзацев, но из наших пояснения выше явствует, что начальным анализом является анализ хеша шинглов а не хеша абзацев, поэтому изменение размера абзацев не влияет на уникальность при проверке в АП ВУЗ.
Принудительные и автоматические переносы
Принудительный перенос – постановка дефиса без учета требований русского языка (прогр-амма, пров-ерки, заимс-твован-ие). Метод может применятся в таблицах, на небольших участках текста до 500 знаков, с отключением функции проверки документа.
Автоматические переносы, хотя и представляют собой рабочую идею, дают результаты прибавки оригинальности лишь в небольшом объёме. Кроме того, в некоторых учебных заведениях запрещено использование автоматической расстановки переносов, это требуют соответствующие методические рекомендации.
Стоит отметить, что расстановка переносов в программе Word выполняется практически мгновенно, что позволяет воспользоваться этим методом без трудозатрат. Ещё лучший результат даёт копирование текста с переносами в блокнот, а затем вставка его обратно, в текст работы. Правая граница текста выравнивается с помощью пробелов между словами строки текста.
Мертворожденный метод – замена кириллицы на буквы другого алфавита (латиница, греческое письмо)
Когда то, лет 20 тому назад АП ВУЗ общался со своими клиентами на равных. Именно тогда нами был предложен в чате метод замены кирилистической буквы «о» на греческий, похожий символ. Это давало 100% уникальность в бесплатной версии проверки на плагиат.
Разработчики предложение не прокомментировали, но метод перестал работать в течении недели.
Замена букв русского языка на буквы других языков, таких как латиница или греческое письмо, все еще используется студентами, этим методом грешат зарубежные студенты, которых у нас становится все больше. Метод эффективен только при использовании в очень небольших объемах, например, в таблицах.
Следует отметить, что преподаватель может заметить нетипичные буквы, так как они отличаются от обычного написания. Если использовать этот метод в большем объеме, антиплагиат может выявить его использование и присвоить статус подозрительного документа. С учетом лишь 1—3 процентов повышения оригинальности, нет смысла тратить свои временные ресурсы и репутацию на этот метод.
Невидимый скрытый текст (белый или уменьшенный, или за пределами документа)
Скрытый текст использовался в прошлом в различных вариантах. Например, одним из способов было вставлять абзац размером несколько строк и делать его белым, а также уменьшать размер шрифта до единицы. Данные методы дискредитируют проверяемый файл, и вы получите сообщение о подозрительном документе – наличие вставок и т. д.
Другой подход заключался в создании надписей, в которых содержался текст, а сами надписи перемещались за пределы документа. Сегодня использование такого метода считается неприемлемым, т.к. антиплагиат ВУЗ все это подметит и свое слово в отчете скажет, выделив его красным транспарантом. Впрочем, насколько можно судить, некоторые методы вставок все еще пользуются популярностью и относятся к методам кодирования.
Вставка знаков, символов отличных от текста или кириллицы