Часть 3. Осторожно, маркетинг!
Антиспамовые методы на стороне провайдеров
1. Из таких статей прежде всего нельзя понять что происходит при отфильтровывании письма по IP-адресу. Читателям по сути внушается апокалиптическая картина, что письма проваливаются в никуда, что многомиллионные контракты срываются и т.д. и т.п. Однако провайдеров, которые ведут себя по таком сценарию (сценарий (3) — см. выше) на практике не существует (мы не знаем НИ ОДНОГО такого провайдера). Все известные нам почтовые сервера отвечают внятной диагностикой (возвращаемой отсылающим сервером автору письма) на попытку соединиться с IP-адреса из списка запрещенных. Например:
Your message to cmail.yandex.ru was rejected.
I said:
RCPT To:
And cmail.yandex.ru responded with
550 5.7.1 … Spam source.
Если же список черных дыр официально публикуется и поддерживается, то в диагностическом сообщении SMTP-сервера принято указывать еще и URL страницы, на которой можно получить подробное объяснение, почему данный IP-адрес попал в список запрещенных. Более того, все известные нам скандалы в Рунете, связанные с блокированием, возникали именно тогда, когда «официальные спамеры» получали такую квитанцию, и начинали чувствовать себя ущемленными.
2. В продолжение этой же идеи провайдерам приписывается использование неких тайных, нигде не публикуемых, секретных списков запрещенных. На самом деле никаких «тайных» списков, конечно же, нет. У провайдеров действительно есть свои собственные списки, которые они не публикуют, главным образом потому что публикация — это дорогостоящий шаг, требующий регулярного обновления, поддержки, в общем некоторого ресурса. Кроме того, в нашей стране не очень принято публиковать нелицеприятные заявления о каких-то компаниях (чем по сути является публичный список запрещенных). На это надо отдельно решиться.
Кое-что делалось в этом направлении — была такая инициатива DRBL (http://www.agk.nnov.ru/drbl/). Однако то, что получалось, видимо, было слишком сырым, чтобы это использовать. Тем не менее любому пользователю, отправившему письмо с заблокированного адреса, придёт серверная квитанция в случае недоставки, с четким указанием причины отказа в сервисе — «ошибка 550, отказ в соединении, источник спама» — см. выше. Правда, это сообщение обязано быть на английском языке :. Таким образом, эти данные никоим образом не скрываются. Такое поведение требуется по стандарту протокола SMTP.
3. Отсюда же проистекают утверждения, что провайдеры постоянно ведут между собой войны, что из-за этого возрастает число писем, ошибочно принятых за спам, так как в списки запрещенных часто попадают провайдеры в целом, что клиенты воюющих сторон лишаются возможности общения друг с другом. В сущности, публичные IP-списки объявляются принципиально ненадежным методом фильтрации. Это не совсем так или даже далеко не так.
Действительно, некоторые списки составляются не только для фильтрации как таковой. Иногда в этой деятельности присутствуют элементы «борьбы со спамом». Представим себе дворника, в задачу которого входит содержать определенную территорию в чистоте; он может активно подметать, а может гоняться за мусорящими гражданами и больно бить их по голове (а также заниматься и тем, и другим вместе). Таковое битье само по себе чистоты не добавляет, но может (как некоторые думают) благотворно сказаться на ситуации в будущем. Списки, в которых встречаются «дружественные к спаму провайдеры», в большой степени представляют собой именно средство битья по голове, и об этом все прекрасно знают.
Например, известный список SPEWS постепенно расширяет заблокированную область с конкретного виноватого IP до его сети, потом до вышестоящей сети, иногда доходя до блокирования всех сетей данного провайдера. Однако есть очень много списков, где никаких списков адресов «дружелюбных к спаму провайдеров» нет, и эти списки всем известны и отлично пригодны именно для фильтрации спама как такового.
4. Про сервис IP-фильтрации SpamCop, можно услышать, что это не фильтрация спама, а всего лишь средство социального типа, позволяющее «наехать» на провайдера.
На самом деле SpamCop — эффективное средство оперативного обнаружения и блокирования источников рассылки спама, позволяющее отсекать эти источники прямо в процессе рассылки. Он не только фильтрует почту для своих клиентов, но и публикует очень неплохой список запрещенных «спамерских» IP. Для определения процента спама с того или иного сервера SpamCop использует статистику трафика от доверенных почтовых серверов, по-видимому, преимущественно расположенных в США, поэтому доля спама для русского трафика у него несколько переоценена. Тем не менее, применять SpamCop для фильтрации почты, приходящей с зарубежных машин (а это большая часть русского спама) можно с успехом.
5. Можно встретить утверждения, что применение у провайдеров единственного вида фильтрации, фильтрации по IP, обусловлено тем, что проверять содержание писем провайдеры не могут по закону. Отсюда делается вывод, что фильтрацию правильней организовывать у третьей стороны, например, у владельцев того или иного программного продукта.
Причина, конечно, не в законе.
Главная и основная причина чисто техническая — гораздо проще проверить IP (4 байта) по списку, чем заниматься анализом содержания. Кроме того, IP адрес отправителя — это единственный параметр письма, в выборе которого спамер ограничен. Любой провайдер, при наличии соответствующих программных средств и/или при получении заказа на такую услугу в праве и в состоянии (если посчитает это экономически оправданным) организовать техническую фильтрацию по любому полю письма.
Что касается подразумеваемой проблемы перлюстрации и якобы существующего запрета со стороны Закона о Связи на даже технические проверки, то рассуждения эти являются чисто спекулятивными ибо никаких судебных прецедентов до сих пор не было. Кроме того, этот вопрос с теми же основаниями можно отнести и к проверке письма на вирусы, что показывает его абсурдность Непонятно также и каким образом программный продукт, пусть даже и внешний по отношению к провайдеру, может помочь ему обойти Закон о Связи, в котором явно прописан запрет на переделегирование полномочий.
6. Встречаются в статьях и заведомо заниженные показатели эффективности IP-фильтрации, например про списки запрещенных можно услышать, что они фильтруют не более 25-30% спама.
Совершенно непонятно, откуда берутся эти оценки. По нашему мнению, IP-фильтрация фильтрует больше, чем 25-30% спама. В докладах первой международной конференции по борьбе со спамом в январе 2003 (http://spamconference.org) утверждалось, что списки запрещенных фильтруют до 60 процентов спама, по опыту Яндекса (http://mail.yandex.ru/monitoring.html) этот показатель составляет около 35-40%.
О методах фильтрации спама в корпоративной сети
Можно услышать, что на корпоративном почтовом сервере, установленном в офисе или у провайдера, неприменимы «провайдерские» средства фильтрации по IP. На самом деле для корпоративной почты нет ничего невозможного в отсеивании писем по тем же самым спискам запрещенных IP-адресов. Единственная разница — в случае получения всей входящей почты на корпоративный почтовый сервер через сервер провайдера, некоторый спам придется сначала принять (необходимо прочитать IP-адреса из заголовков, так как входящий IP фиксирован), и лишь потом ответить все тем же самым Reject-ом. Многие компании с успехом применяют именно такие «провайдерские» методы фильтрации спама.
О методах фильтрации спама на клиенте
Утверждается, что хотя локальные антиспамовые программы работают по отзывам прессы довольно хорошо, с русским языком они не работают, так как ориентированы только на спам американского происхождения.
Это неверно. Действительно, в словаре таких программ, входящем в поставку, может не быть или быть мало русского спама. Однако их главная сила именно в обучаемости. Достаточно в течение 1-2 недель регулярно пользоваться кнопками «спам»/»не-спам» и процент отсекания спама резко вырастает. В этом отношении и на английской почте байесовские программы работают ничуть не лучше, хорошие результаты возникают только после постоянного и аккуратного «доучивания» системы.
Mozilla Mail (простейший Байесовский алгоритм), например, превосходно работает с русским языком и начинает отсекать более 90 процентов спама без ложных срабатываний очень быстро.
О методах фильтрации спама в крупных веб-почтах
Можно услышать, что сервера публичной почты относятся по типу используемых антиспамовых средств к категории «фильтрации на клиенте». Между тем, по всем признакам -это полноценный серверный механизм, которому доступны в бесперебойном режиме все виды данных и все виды обратной связи.
Утверждается также, что на таких серверах существует техническое средство, позволяющее заметить факт массовой рассылки на адреса, зарегистрированные в системе. На самом же деле нет никакой технической возможности, простой или характерной именно для веб-почт, заметить факт массовой рассылки. Дело в том спамерские сервера, особенно последние годы, практически никогда не используют отправку большого количества писем в одной SMTP-сессии. Эти времена давно прошли. Так поступают для эффективности только настоящие сервера легальных рассылок, например Subscribe.ru. Спамеры же используют множество соединений и, более того, множество релеев (см часть 1), для отправки одного и того же письма по многим адресам.
Что же есть на самом деле? Есть все тот же, упомянутый выше, механизм детектирования дубликатов, доступный любому почтовому серверу с большим трафиком, будь то провайдер, или крупная корпорация. Надо принять письмо, проанализировать его содержание, сравнить с уже присутствующими в базе письмами, используя при этом самые обычные методы детектирования массовых рассылок: DCC, Бритву Вайпула или «Супершингл Яндекса» — подробнее см. последнюю часть данной статьи.
О Лингвистическом Методе, работающем на опережение
Зачастую в маркетинговых публикациях проходит сквозной нитью мысль о неэффективности обратной связи, например, встречаются утверждения что технология, базирующаяся только на образцах и голосованиях пользователей по уже разосланным письмам, всегда слегка опаздывает. Ей противопоставляется Идеальная Лингвистическая Технология, Которая Никогда Не Опаздывает.
Отсюда и необъяснимая классификация методов фильтрации на «Формальные методы» и загадочные «Лингвистические методы» и обещания, что продукты, построенные на Идеальной Лингвистической Технологии, Которая Никогда Не Опаздывает, будут фильтровать до 90-95% спама и утверждения, что они работают по схеме «черного ящика», фильтруют «под ключ» и т.д.. Вопрос: как же такие системы собираются получать обратную связь?
Маленькое заключение
В свете всего, что было сказано выше про спам и технические средства его обнаружения, представляется, что не существует таинственных лингвистических методов, дающих небывалый процент улавливания спама. Более того «Идеальный Продукт» обязан использовать данные обратной связи и постоянно обучаться. Любая жалоба пользователя, любая просьба о реабилитации письма имеют отношение ко всему комплексу анализируемых факторов (IP, слова, флаги, контрольные суммы) и должны мгновенно и по возможности автоматически обрабатываться.
Принципы и технические методы работы с незапрашиваемой корреспонденцией. Часть 3