SEO-PPC-FAQ

ThisIsHot.org - здесь горячо.
Лучшая на сегодняшний день PPC KlikVIP.com. Высокие биды, 99% ваши, выплаты каждый день. Для регистрации - просто переходим по ссылке ;)
Да это же бомбаа!!! KlikAdult.com. От создателей KlikVIP.
mizhgan, 3 лет и 9 месяцев тому назад

Проверка текстов на дублирование.

Вот здесь обнаружил статью, про использование шинглов (shingles) для определения дуплицированного текста, вкупе с алгоритмом. Некоторое время покодил и реализовал данный в статье алгоритм. С данной реализацией предлагаю ознакомиться и вам.

Скрипт проверяет два текста с помощью шинглов 1, 2, 3 и 4 уровней. Я тестировал скрипт с двумя текстами, один из которых являлся оригиналом статьи про цифровые фотоаппараты, второй же был сгенерирован из первого с применением цепей Маркова, использовавших 2-словные цепочки. Результат работы - коэффициент совпадения около 0.8 - то есть очень похожи. При проверке с разными текстами одной тематики (все те же статьи про фотоаппараты) - коэффициент совпадения около 0.05. Результаты налицо.

Пожалуйста, при тестировании скрипта используйте только чистые тексты, без принудительного добавления ключевых слов. Это всего лишь скрипт демонстрации одной из технологий определения дупликатов текста. При желании в него можно добавить очистку от мешающих ключевиков и другие фильтры, повышающие точность результата.

Пишите в камменты результаты ваших тестов. Если у кого появятся дельные мысли о практическом применении методики - могу выдать исходники скрипта.

16 комментариев

Gravatar #1. Гугл
3 лет и 9 месяцев тому назад

При сравнении выходит такая бяка:
Warning: Division by zero in /usr/local/psa/home/vhosts/thisishot.org/httpdocs/tools/dupl/index.php on line 69

Gravatar #2. mizhgan
3 лет и 8 месяцев тому назад

[Comment ID #550 Will Be Quoted Here]
Какие тексты ты использовал? Похоже слишком маленькие, для шинглов например 3 уровня надо как минимум что бы текст состоял из 4-х слов...

Gravatar #3. Алексей
3 лет и 8 месяцев тому назад

Тестировал оригинальный текст и рерайтинг (писался после 2х разового прочтения текста). Результат - при шингле 1 уровня коэффициент сходства 0.45, а при 4ом уровне - 0.04 ...

Gravatar #4. mizhgan
3 лет и 8 месяцев тому назад

[Comment ID #600 Will Be Quoted Here]

Да, при шинглах 1-го уровня собственно сравниваются даже не множества цепочек слов а множества отдельных слов, так что результат может быть довольно высоким даже для разных текстов одной темы. Большего внимания заслуживают шинглы 2 и 3-го уровней. Там используются множества цепочек из 2-х и 3-х слов соответственно. Так как многие тексты, сгенерированные по принципу цепей Маркова используют именно 2 либо 3-х словные граммы, то для таких текстов выдается высокий результат для шинглов 2 и 3-го уровней.

В вашем случае, т.к. использовался рерайтинг, а не простая генерация текста из исходного, шинглы первого уровня выдали довольно высокий результат (т.к. тема и многие слова были сохранены из исходного видимо), а более высокие уровни шинглов дали маленький результат.

Gravatar #5. uoziod
3 лет и 8 месяцев тому назад

оболдеть! не представлял даже, что такие интересности настолько просты! :))
можно мне тоже на тестирование?

(кстати, в скролящемся боксе выше у меня ?????? вместо текста) :(

Gravatar #6. mizhgan
3 лет и 7 месяцев тому назад

[Comment ID #754 Will Be Quoted Here]

Исходники выложу на днях.

А вопросики может из-за кодировки в браузере?

Gravatar #7. APZ
3 лет и 7 месяцев тому назад

тоже протестил, очень понравился результат, ждемс исходники скрипта. Возникает вопрос(у новичка) - существует ли в природе такая программа, которая просто тупо перемешивает все слова из готового текста?

Gravatar #8. Alexei A. Korolev
3 лет и 7 месяцев тому назад

Уровень N-грамм - 1. Коэффициент сходства - 0.13213213213213
Уровень N-грамм - 2. Коэффициент сходства - 0.09527027027027
Уровень N-грамм - 3. Коэффициент сходства - 0.090425531914894
Уровень N-грамм - 4. Коэффициент сходства - 0.089686098654709

а это что значит?

Gravatar #9. mizhgan
3 лет и 6 месяцев тому назад

[Comment ID #1238 Will Be Quoted Here]

Это в принципе должно обозначать что данные тексты имеют очень низкий коэффициент сходства, т.к. N-граммы 2,3,4 уровня крайне малы. 1-й уровень N-грамм равный примерно 0.13 может говорить о том, что тексты примерно одной тематики, либо оба текста на общую тему.

П.С.: Выложил исходники скрипта. Кому надо смотрим новые посты за сегодня.

Gravatar #10. mizhgan
3 лет и 6 месяцев тому назад

[Comment ID #1216 Will Be Quoted Here]

Это очень просто делается с помощью функции PHP

array_shuffle();

← Пред. 01 02 След. →

Написать комментарий

Что бы добавить комментарий к посту, заполните форму:





 

* Обязательные поля

Вы можете использовать следующие тэги XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>.

Нет треков

Что бы уведомить об этом посте, включите автоматическое уведомление, либо используйте этот трек-урл: http://​thisishot.org/​wp-trackback.php?p=126