Технические средства фильтрации спама

Как фильтровать спам

Нам представляется, что технически спам можно фильтровать двумя основными способами — по формальным признакам и по содержанию, то есть лингвистически.

А. Формальные методы Б. Лингвистические методы
1. Фильтрация по спискам (почтовых адресов, IP-адресов). 3. Распознавание по содержанию письма (словосочетания, эвристики, статистика).
2. Фильтрация по формальным признакам письма (наличие полей, много отправителей, нет получателя, путь, формат, размер, пр.) 4. Распознавание по образцам писем (распознавание по сигнатурам, с голосованием, и пр.).

Где фильтровать спам

А в каких именно звеньях цепочки можно фильтровать спам? Очевидно, либо на сервере, либо на клиенте, то есть:

На сервере:

  • На почтовом сервере провайдера (если вы арендуете у него ящик и используете его почтовый сервер для скачивания почты на личный компьютер).
  • На корпоративном почтовом сервере — на входе в вашу компанию.

На клиенте:

  • На вашем рабочем месте или домашнем компьютере в клиентской почтовой программе (Outlook, The Bat!, пр.).
  • На сервере публичной почты (Mail.ru, Hotmail), где вы держите свой личный ящик

Что важно при фильтрации спама

Хотя может показаться, что главное — распознать 100% спама, на самом деле главное — не допускать ложных срабатываний — когда нормальное деловое письмо принимается за спам. Ясно, что вообще фильтрацию 100% спама обеспечить легко — нужно не пропускать никаких писем вообще. Но нужно ведь не это: деловые и личные письма должны доставляться получателю без проблем.

Распознавание спама и ложные срабатывания — классический рычаг, как в физике «время-сила» или в программировании «быстродействие-память». Либо то, либо другое страдает.

Идеальное средство от спама должно почти никогда не допускать ложных срабатываний и фильтровать почти 100% процентов спама. «Почти» — потому что на 100% выполнить обе задачи одновременно никак невозможно.

Фильтрация спама на стороне провайдера

Провайдеры могут фильтровать спам для тех своих клиентов, кто держит у них свои почтовые ящики. Это обычно домашние пользователи, использующие доступ по телефонной линии, либо пользователи выделенных линий. Среди них также обычно есть некоторое количество корпоративных пользователей, то есть компаний, которые используют почтовый сервер провайдера.

Метод фильтрации — черные списки. Провайдеры обычно фильтруют спам, используя так называемые черные списки IP-адресов (real-time blackhole lists — RBLs). Это списки адресов известных спамеров, адресов открытых почтовых пересылок, используемых спамерами эпизодически или регулярно, и списки диапазонов адресов тех сетей, которые не борются со спамерами или слишком к ним либеральны. Эти списки ведут организации провайдеров и разные доброхоты. Наиболее известных списков около десятка.

Применение именно списков обусловлено тем, что проверять содержание писем провайдеры, вообще говоря, не могут по закону, если пользователь сам явно не разрешил этого. А черные списки позволяют, не обращаясь к содержанию письма, отказаться от получения письма, проанализировав его обратный адрес — то есть даже не получая письма на свой почтовый сервер.

Зафильтровать нетрудно, дайте только волю. Самоуверенный системный администратор провайдера скажет вам, что он в состоянии зафильтровать весь спам (ну, как минимум 99,9%). Технических проблем якобы нет, есть только политические. Вот если бы не мешали клиентские договора, юристы и разные там защитники связности сетей, они же спамеры.

Мы думаем, что это неверно. Общеизвестно, что большинство провайдеров и так уже фильтруют спам, используя черные списки. Более того, вам могут сказать по секрету, что у провайдеров есть не только публичные, но и тайные, «профессиональные» черные списки IP-адресов спамеров, точные и полные, доступные только провайдерам. Тогда откуда берется весь этот спам в почтовых ящиках?

Тут есть две возможности: либо провайдерам спам выгоден (за этот трафик тоже платят), либо они все-таки не в состоянии весь его зафильтровать теми средствами, которые им доступны.

Мы не верим в сговор провайдеров со спамерами и думаем, что просто черные списки — не абсолютное оружие. По нашему опыту, черные списки фильтруют не более 30-40% спама.

Вторая существенная проблема черных списков — ложные срабатывания. Резко возрастает число писем, ошибочно принятых за спам, так как в черные списки часто попадают провайдеры «в целом», и тогда совершенно «нормальные» клиенты «провайдеров, не любящих спам», то есть фильтрующих по черным спискам, лишаются возможности общения с нормальными же клиентами «дружелюбных к спаму провайдеров».

Наше мнение таково, что этот метод обязательно должен использоваться, но он один не в состоянии решить проблему.

Фильтрация спама на корпоративном сервере

Большинство средних и крупных компаний имеют свой корпоративный почтовый сервер, установленный в офисе компании или на собственном сервере у провайдера. Это значит, что средства фильтрации провайдера тут неприменимы.

Для данного случая существует категория специального серверного ПО — фильтров, позволяющих фильтровать спам на корпоративном почтовом сервере, до рассылки его по рабочим местам сотрудников.

Фильтрация в почтовом сервере. Почтовые серверы наподобие Microsoft Exchange, Sendmail, Postfix обычно включают средства для организации фильтрации содержания (спама и вирусов), однако эти средства обычно довольно примитивны и представляют собой «пустые рамки» для правил, то есть предлагают администратору почтовой системы самостоятельно создавать и настраивать правила фильтрации. Этот подход работает не очень хорошо, так как для фильтрации спама нужны сотни правил и тысячи терминов, обновляемые постоянно, чего трудно ожидать от системного администратора.

К счастью, в те же «разъемы» почтовых серверов возможно встраивать и фильтры третьих сторон.

Бесплатные фильтры. Существуют бесплатные фильтры, распространяемые на условиях лицензии GPL (General Public License) или подобных ей. Наиболее известный бесплатный фильтр — Spam Assassin. Это весьма эффективная программа, фильтрующая 90-95% спама. Spam Assassin поставляется с постоянно обновляемой базой правил фильтрации как по формальным признакам письма, так и по содержанию (ключевым словам). Недостатки этого фильтра заключаются в том, что он довольно труден в установке и настройке, как и вообще программное обеспечение класса open source для платформы UNIX, а кроме того, работает довольно медленно и не имеет локальной привязки к языкам и регионам, ориентируясь в основном на англоязычный спам.

Набор правил Spam Assassin очень велик и непрозрачен (понять, какое правило сработало можно, но трудно предугадать, к чему приведет его отмена), что очень затрудняет настройку.

Коммерческие продукты. Фильтрацию спама на сервере предлагают также производители антивирусов, такие как Symantec, и специализированные компании, такие как ClearSwift (бывшее подразделение Baltimor Technologies), однако большинство этих продуктов представляют собой «пустые рамки» для правил, то есть рассчитывают на то, что системный администратор самостоятельно создавать и настраивать правила фильтрации. Как говорилось выше, этот подход не срабатывает — обычно администраторы не имеют времени и нужной квалификации для разработки правил. А вторичный рынок лингвистических баз для этих продуктов пока не возник.

К категории серверных корпоративных фильтров относится и фильтр Kaspersky AntiSpam, построенный на технологии Spamtest компании «Ашманов и партнеры», поставляющий ежедневные обновления лингвистических данных и применяющий все четыре описанных выше метода: списки, формальные признаки, семантические эвристики и сигнатуры. Фильтр Kaspersky Antispam выпущен в конце ноября 2002 года для платформ Linux Free BSD UNIX и представляет собой первый российский продукт этой категории.

Фильтрация спама на клиенте

Встроенные средства почтовых программ. В почтовых программах для конечного пользователя есть средства фильтрации, построенные в виде «пустой рамки» для правил, которые пользователь должен задавать сам. В частности так устроены правила фильтрации Outlook (называемые Rules Wizard). Кроме того, для Outlook Микрософт поставляет начальный набор правил распознавания спама (junk mail), состоящий из нескольких десятков терминов.

Весьма распространенный в нашей стране почтовый клиент The Bat! также имеет мощные средства создания правил фильтрации, однако опять-таки представляет собой пустую рамку, которую пользователю предлагается заполнять самому.
Увы, этот подход также не работает. Пользователь, как правило, сам ничего не настраивает, а правила от Микрософта лишь изредка распознают небольшой процент старомодных спамерских писем. Скачать же новые базы негде — вторичного рынка правил для Outlook не возникло.

Сами правила в Outlook слишком примитивны, не позволяют распознавать разные формы слов и использовать статистические соображения о доли спамерской лексики.

Таким образом, можно сделать вывод, что рассчитывать на ручную настройку фильтров пользователем не приходится.

Программы третьих сторон. Есть программы, которые делают интеллектуальную работу за пользователя, устанавливая свои правила. Среди них SpamKiller, SpamEater, IHateSpam и др. Эти программы встраиваются в почтовые клиенты или работают бок о бок с ними, размечая спамерские письма или раскладывая их по папкам.

По отзывам в прессе, многие из этих программ работают довольно хорошо, за тем исключением, что они ориентированы только на спам американского происхождения.

В июле 2003 года ожидается также выпуск клиентского фильтра Kaspersky Antispam for Outlook, также первого в России фильтра спама с поставляемой лингвистической базой и ежедневными обновлениями.

Сетевые сервисы

В сети существуют сервисы, позволяющие фильтровать спам с помощью подписки на ПО или пересылки почты через внешний сервер. С марта 2003 года в сети работает сервис Spamtest.ru компании «Ашманов и Партнеры», размечающий спамерские письма при пересылке почты с одного на другой адрес.

Голосование пользователей

Один из новых сервисов такого рода — так называемая «бритва Вайпула» (Vipul Razor). Основная идея сервиса заключается в создании сигнатур спамерских писем, причем письма присылают сами пользователи, а в базу сигнатуры спамерских писем заносятся по принципу голосования: если приславших именно данное письмо много или они достаточно авторитетны.

Мы считаем эту идею оригинальной и удачной, однако фильтрация по образцам с неизбежностью пропускает новые и модифицированные письма. Кроме того, технология, базирующаяся только на образцах и голосованиях пользователей по уже разосланным письмам, всегда слегка опаздывает.

Есть в сети и сервисы, позволяющие пожаловаться или «наехать» на провайдеров, предоставляющих доступ спамерам (например, SpamCop). Насколько это эффективно, сказать трудно. В любом случае это не фильтрация спама, а средство социального типа.

Фильтрация в публичных WWW-почтах

В настоящее время большинство публичных почтовых сервисов (Hotmail, Lycos, Mail.ru, Mail.ru, Yandex) подключили те или иные средства фильтрации спама для своих пользователей. Используются как словари терминов, так и технические средства, позволяющие заметить факт массовой рассылки на ящики, зарегистрированные в системе.

Последний способ распознавания спама доступен именно публичным почтовым службам с большим количеством пользователей, однако в действительности он распознает не спам, а именно массовые рассылки, в том числе санкционированные пользователями (подписные). Именно поэтому, в частности, на бесплатной почте Яндекса при подключении фильтра создается папка «Рассылки», а не «Спам».

По отзывам пользователей, пока штатные средства фильтрации публичных почт работают не очень хорошо. Они пропускают не менее 50% спама, и есть нарекания на ложные срабатывания.

Борьба со спамом- ближайшее будущее

Итак сформулируем вывод:
Будущее за профессиональными продуктами для фильтрации спама.

Мы считаем, что в ближайший год-два сформируется рынок профессиональных программных продуктов для фильтрации спама. Они будут обладать следующими свойствами:

  • Использование всех методов фильтрации, как формальных, так и лингвистических (объединенных единым интеллектуальным решающим центром),
  • Использование антивирусной схемы бизнеса:
    • Поддержка класса 24*7 от специальной лаборатории по борьбе со спамом (аналог антивирусных лабораторий).
    • Регулярные обновления баз (скачиваемые автоматически через сеть).
  • Простота установки и использования (фильтрация «под ключ», работа по схеме «черного ящика»).

Можно рассчитывать на то, что эти продукты будут фильтровать до 90-95% спама. С оставшимся «процентом протечки» спама нам, скорее всего, придется мириться.

© ЗАО «Ашманов и Партнеры», 2003

Публикации на схожие темы

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *