fractal

Иван Сторожев


Previous Entry Share Next Entry
fractal

ЖЖ-боты: версия

О нашествии в ЖЖ ботов знают все. Даже в моем маленькои уютном журнальчике, совсем далеком от топов и популярности, эти зловредины регулярно отмечаются. Интересно, что боты последней волны в общем безвредны. Постится тривиальный коммент и, в общем, всё. Просто захламляют журнал и почту. Ни зловредных скриптов, ни скрытых ссылок... Я говорю об основной массе. Есть и другие, но их меньше.

В итоге весь ЖЖ мучается думами — ЗАЧЕМ? Что они с этого имеют? Версии разные, от накруток поисковиков до отработки алгоритмов Искуственного Интеллекта :-).

Предложу и я свою версию, вполне тривиальную.
Что делает хозяин журнала, получив на почту 100 комментов от ботов? Или переводит журнал во френд-онли, или включает капчу.
А вот капча в ЖЖ очень интересная. Это не шрифты со зверками, как были на Рапиде. И не испохабленные геометрическими искажениями или шумами картинки цифр, как на подавляющем большинстве сайтов.
Капча в ЖЖ — это кусочки реальных сканов каких-то текстов. Кусочки, сложные для распознавания, на которых программа (OCR) делает ошибку или неуверенно распознают. И каждый юзер, вводя  правильные буковки , эту ощибку исправляет и, что интересно, совершенно бесплатно... А вот фирма, предоставляющая сканы, наверняка за их распознавание платит.
Думаю ход мысли понятен. Как и понятно зачем нужны боты в ЖЖ и кому это выгодно. Выгодно в прямом смысле, в баксах.

  • 1
division___bell December 14th, 2008
:)

да, вполне себе версия. Весьма правдоподобная

starodubtzev December 14th, 2008
Не совсем логично...
Для того, чтобы принять исправления, надо знать - как правильно

ivanstor December 14th, 2008
Достаточно предъявить одно и тоже слово несколько раз. Большинство и будет правильным, пусть не на 100%, но куда точнее, чем от программы OCR.

starodubtzev December 14th, 2008
А разве алгоритм капчи не предусматривает сравнения сабж с имеющимся эталонным текстом?

ivanstor December 14th, 2008
В слове, обычно, неясной является 1-2 буквы из 5-7. Т.е. часть букв распознана программой правильно, для части есть сомнения, т.е. несколько вариантов.
Возможен, например, такой алгоритм: Если юзер правильно ответил на известные буквы, а на сомнительные выбрал из имеющихся вариантов, то его пропускаем, а ответ вносим в базу. Иначе — отшиваем.

starodubtzev December 14th, 2008
Интересно!

signamax December 14th, 2008
я где то прочел что первое слово уже известно и второе тестируется
то есть капча открывается уже по первому слову а второе идет в обработку
потом когда второе "устоится" - оно становится известным и добавляется еще одно
несколько лет назад заставлять людей работать над опознанием образов придумал один аспирант
теперь по моему он проф в беркли или еще где

Re

frozen_cat December 14th, 2008
Есть версия - "соцопросы на заказ", одно время у меня в дневнике находилось до 20% в относительном выражении, правда все молчаливые были, :) и нек-рых даже в ЖЖ кое-какие записи были. :)

Re: Re

ivanstor December 14th, 2008
Это как? Можно подробнее?

slobin December 14th, 2008
Предлагаю более простую и правдоподобную версию: цель не несущего смысловой нагрузки спама -- расшатывание спам-фильтров.

... Наши легли следы с края земли вперёд ...


ivanstor December 14th, 2008
Массовые боты постят комменты, которые нельзя назвать назвать вовсе бессмысленными. Это, видимо, copy/paste фрагменты из реальных постов/комментов, найденные через поисковик по ключевым словам.

Не очень представляю, как такие боты "расшатают" спам-фильтры. И какие фильтры? Может быть Вы развернете мысль подробнее. Чего и как, по вашей версии, добиваются авторы ботов?

slobin December 14th, 2008
Под "не несущими смысловой нагрузки" я имел в виду, что данный конкретный коммент не приносит выгоды автору бота. А пользой может быть то, что юзеры (а также программисты СУПа), убедившись, что особого вреда от них нет, а фильтровать автоматически трудно, просто махнут на них рукой. А тогда можно будет постить и рекламные комменты. Аналогия: если я собираюсь заняться грабежом квартир в каком-нибудь районе, возможной стратегией на этапе подготовки будет какое-то время просто ломать замки в случайно выбранных квартирах и ничего не брать.

Впрочем, ботов в ЖЖ настолько мало (в сравнении, например, с почтовым спамом), что объяснение может быть любое. Например, что кто-то (буквально один человек) просто удовлетворяет своё любопытство.

... Не перевелись ещё на русский язык ...


ivanstor December 14th, 2008
Да, возможен и такой вариант. Хотя наверняка в ЖЖ резвится не одна ботовая сеть, наши версии не взаимосключающие.

vladimirpotapov December 14th, 2008
Извините мою тупость. А сказать прямо – чем это выгодно?

ivanstor December 14th, 2008
Владельцы ЖЖ могут получать прямую выгоду от использования капчи, если заключили договор с фирмой, занимающейся сканированием/распознаванием документов, а это сейчас вполне серьезный бизнес.
Отсюда ясно, что нашествие ботов им выгодно, т.к. просто так никто включать капчу в комментах не будет, нужен стимул.
Дальше возможны варианты: от "не мешать резвиться ботам", до запуска ботов самим СУПом.


vladimirpotapov December 14th, 2008
Понял, спасибо.

hondurasez May 5th, 2009
Замечено, кстати, что при ошибке ввода капчи (ну, одну буковку попутал, бывает) - пост пропускают.
Капча отрабатывается.
Мутно это всё.

  • 1
?

Log in

No account? Create an account