Проблемы и решения в области фильтрации спама в почтовой системе Mail.Ru — практика 2003-2004 гг.

Профессиональная разработка антиспам-технологий, в том масштабе, который мы наблюдаем в настоящее время, началась совсем недавно — около двух лет назад.

Влияние на возникновение и развитие этих технологий в России в первую очередь оказал рост популярности спам-рассылок среди отечественного мелкого и среднего бизнеса и, как следствие, лавинообразное увеличение количества спам-сообщений в почтовом трафике.

Если 3-4 года назад средний пользователь получал не более двух спам-писем в день, то в 2004-м году это количество выросло до 8-10. Объем спама в почтовом трафике среднего провайдера или почтовой службы не превышал 20%, а на сегодняшний день спам составляет до 85% входящего на почтовые сервера трафика.

Было совершено множество попыток раз и навсегда решить проблему спама технологическим путем, однако сейчас уже с полной уверенностью можно сказать, что единого решения — некой «серебряной пули» против спама — не существует.

Спам крайне разнообразен и постоянно меняется, поэтому в борьбе с ним абсолютно необходимо использование все новых и новых методов распознавания. Борьба между спамерами и разработчиками антиспам-технологий напоминает гонку вооружений во времена холодной войны между Советским Союзом и Западом — как только на почтовые сервера устанавливается новая более совершенная технология защиты, противник сразу же бросает свои лучшие умы на изобретение обходных путей. В борьбе со спамом нельзя забывать, что нам противостоит очень умный противник, для которого спам — это бизнес, приносящий хороший доход.

Являясь крупнейшим провайдером услуг электронной почты в российском Интернете, почтовая служба Mail.Ru ежедневно сталкивается с огромным потоком спама, приходящим на ее сервера. Можно сказать, что в силу своей популярности, Mail.ru является главной мишенью для спамеров в России.

Если бы весь этот спам попадал в ящики наших пользователей, мы бы давно лишились более половины из них. Находясь на передовой войны со спамом, технические специалисты почтовой службы Mail.ru приобрели уникальный опыт в этой области и разработали свою собственную комплексную методику фильтрации спама, которая в настоящее время, по оценкам многих экспертов, является наиболее эффективной в российском Интернете.

Ситуация на данный моментдоля спама и вирусов


 

В данный момент (осень 2004 года) Mail.Ru — это около 11 миллионов активных пользователей почтовой системы. Суммарный объем хранимой корреспонденции составляет порядка 24-х терабайт. В сутки почтовые сервера Mail.ru обрабатывают более 25 миллионов входящих писем, из которых около 85% однозначно квалифицируются как «спам» или «содержащие вирусы» и не доходят до почтового ящика пользователя.


Кто и как рассылает спам


кто и как рассылает спам

Спам давно уже вышел за рамки деятельности отдельных индивидов, которые зарабатывают таким образом небольшие деньги «на мороженое». В настоящий момент спам — это целая индустрия, масштабный бизнес, для функционирования которого нужны мощные технические ресурсы.

Поскольку главный принцип работы спамера — паразитирование на чужих ресурсах, то при рассылке спама эти «бойцы невидимого фронта» также стараются использовать мощности, которые им не принадлежат.


  1. Основная часть спама на сервера Mail.ru доставляется с помощью многотысячной армии пользовательских компьютеров, зараженных специально разработанными вредоносными программами (вирусами).
    По нашей статистике в одной спам-атаке могут участвовать от 2 до 15 тысяч зараженных компьютеров, владельцы которых даже не подозревают, что их машина в данный момент рассылает по Интернету миллионы непрошенных писем.
    Такие атаки, по данным системы спам-мониторинга Mail.ru, происходят по нескольку раз в день. В это время объем почтового трафика многократно увеличивается, и доля спама во входящей почте может достигать 99%.
    Начало спам-атаки достаточно легко установить, разумеется, при наличии у почтового сервиса развитой системы спам-мониторинга. В таких ситуациях нагрузка принимающих внешнюю почту серверов может возрасти в несколько раз. Возрастает также нагрузка на сервера, выполняющие антиспам- и антивирусную фильтрацию электронных писем.
  2. Параллельно с зараженными пользовательскими машинами для рассылки спама часто используются сервера провайдеров. Проблема заключается в том, что, потратив 5 долларов на карточку для «диалапа», спамер ничего не теряет при отключении его аккаунта. В то же время крупная почтовая служба не может разорвать связность с почтовым релеем крупного провайдера.
  3. Еще один способ, которым пользуются спамеры при рассылке своих сообщений, — это Открытые Релеи и неверно сконфигурированные прокси-сервера. Их появлением мы обязаны невнимательным системным администраторам и пользователям, не заботящимся о своей безопасности. К счастью, процент спама с таких серверов все время падает.

Статистика спама


За период 2003-2004 гг. нами также была собрана достаточно интересная и полностью отражающая мировые тенденции статистика по регионам адресов, с которых идет массовая рассылка незапрашиваемой корреспонденции:

географическое распределение спама

Как устроена система фильтрации спама в почтовой службе Mail.ru


Для обеспечения эффективной фильтрации спама необходимо варьировать методы борьбы, адекватно применяя каждый к конкретному атрибуту спама.

1 этап. Черные списки + формальные признаки


Сервер отправителя начинает работать с нашей системой антиспама еще до того, как письмо дошло до почтовых серверов Mail.Ru. В случае, если ip-адрес отправителя принадлежит к плохо администрируемой сети, которая занесена в наш черный список, наши DNS-сервера направят его на специально подготовленные МailExchange(MX)-сервера с более жесткой системой детектирования спама.

Таким образом мы боремся с перегрузкой основных МХ-серверов «паразитирующим» трафиком.

Далее при поступлении письма на любой МХ-сервер мы проверяем:


  • существование домена отправителя,
  • соответствие аргумента команды HELO реальности,
  • наличие на ip-адресе отправителя open relay или прокси-сервера с публичным доступом.

На этом пункте заканчиваются формальные признаки, по которым однозначно можно разделять письма на спамне спам.

В дальнейшем письмо попадает в систему тестирования спама, основной задачей которой является принятие суммарного решения «спам» или «не спам», исходя из анализа многочисленных признаков, выявленных в результате комплексной проверки письма.

Каждый этап проверки добавляет лишь положительный или отрицательный вес к общему статусу письма.

Если письмо в результате всего комплекса проверок получает отрицательный коэффициент, оно характеризуется как «спам» и не доставляется пользователю.

Благодаря такому подходу удается повысить эффективность детекции спама, а главное — существенно снизить количество ложных срабатываний системы.

В ситуациях, когда электронная почта является важным каналом коммуникации для компании, необходимо поддержание максимально низкой доли ложных срабатываний, особенно для важных деловых писем. Ущерб от потерянного делового письма может быть несопоставим с потерями рабочего времени от спама.

2 этап. Анализ содержимого письма


В первую очередь письмо и все его вложения проверяются антивирусом.

Затем текст письма проверяется по обновляемой в реальном времени базе образцов спам-писем. База образцов спам-писем несколько раз в час пополняется квалифицированными сотрудниками круглосуточной лаборатории компании «Ашманов и Партнеры». Источником получения новых образцов служат специальные ящики-ловушки и информация, собираемая от пользователей.

3 этап. Построение сигнатуры


Самая затратная часть процедуры проверки — это построение нечеткой сигнатуры письма и контент-анализ.

Сигнатуры строятся не только на основе текстового тела письма, но и по графическим вложениям, что позволяет эффективно блокировать «спам в картинках».

На основе сравнения этих сигнатур изменяются показания счетчика количества одинаковых писем на специальном DCC(Digital CheckSumm ClearingHouse)-сервере. По достижении максимально разрешенного количества одинаковых писем, сообщение получает понижающий коэффициент.

4 этап. Контентный анализ


В момент прохождения письмом контент-анализа проверяется наличие в письме признаков спам-сообщения: определенного набора и распределения по письму специфических словосочетаний. Заметим, что фильтр Спамтест анализирует не только текст самого письма, но и его вложения.

Письму не обязательно проходить всю многоступенчатую систему проверки, возможен вариант, когда отрицательный вес письма станет критическим еще до окончания всех проверок.

Обратная связь


Кроме всех перечисленных «механических» средств, не менее важна обратная связь с пользователями. Важной частью любой антиспам-системы является получение обратной связи от пользователей и оперативная реакция на изменяющуюся обстановку. Для этих целей в почтовой системе Mail.ru была реализована функция «пожаловаться на спам».

Однако, запустив эту функцию мы столкнулись со следующим комплексом проблем: первая и самая важная проблема состоит в том, что большими почтовыми службами пользуется весьма разнообразная аудитория и то, что для одного пользователя не более, чем «забавные картинки», другой классифицирует как спам. Эта проблема так же является основной на пути внедрения Байесовской фильтрации писем в больших почтовых системах.

Для примера топ-5 честных служб рассылки, которые пользователи классифицируют как спам:


  1. Рассылки subscribe.ru
  2. Рассылки Mail.ru
  3. Письма сервиса li.ru
  4. Рассылки сервиса dotnews.ru
  5. Рассылки сервиса maillist.ru

Поэтому все пользовательские жалобы на спам обрабатываются вручную специальной лингвистической службой, которая позволяет оперативно вносить изменения в алгоритмы и правила контент-фильтрации писем.

Вторая проблема анализа обратной связи с пользователем заключается в том, что зачастую спамеры используют relays крупных провайдеров, блокировка которых невозможна по причине высокого процента «честных писем».

Но в то же время следует отметить, что механизм обратной связи является одним из самых важных параметров, по которому можно судить о качестве и эффективности работы антиспам-системы.

Анализ эффективности различных методов фильтрации спама


Мы произвели небольшой анализ эффективности используемых нами методов фильтрации.

Прежде всего, хочется отметить, что фильтрация по каким-то отдельным признакам или методам является неэффективной или даже вредной из-за большого количества ложных срабатываний.

Самым эффективным является, конечно, контент-анализ письма (этап 4): несмотря на достаточно высокую стоимость реализации данного метода, он распознает 30-40% всего потока спама.

Дальше в порядке убывания эффективности следуют следующие методы: DCC и черные списки, составляемые администратором системы.

Однако оба метода весьма требовательны к людским ресурсам. В случае DCC необходимо составлять и регулярно обновлять белые списки «честных» рассылок, а в случае черных списков нужны люди, которые будут пополнять и поддерживать эти черные списки.

Наименее эффективными методами борьбы со спамом являются проверка наличия открытых прокси-серверов или open relays сканированием и проверка SPF-политики ресурса.

Он-лайн сканирование всех отправителей почты очень затратный процесс, расходы на который значительно превышают пользу от получаемого результата. Кроме того, эти действия вызывают негативные эмоции у администраторов сканируемых сетей.

Проблемы метода SPF


На SPF хотелось бы остановиться чуть подробнее, особенно учитывая то, что сейчас эта технология продвигается и позиционируется чуть ли ни как самый мощный метод решения проблемы спама.

Мы видим несколько проблем при использовании этого метода фильтрации в крупных почтовых службах.

Первая проблема, на наш взгляд, проистекает из несколько неверного позиционирования SPF как универсального антиспам-средства.

SPF в его текущей модификации подходит лишь для верификации того, что отправитель действительно является тем, кем представляется.

Этот стандарт слабо применим при приеме почты от других бесплатных почтовых служб, так как регистрация нового пользователя в любой из них это дело пяти секунд.

К тому же, при отправке письма через программу-клиент, пользователь может использовать любой другой SMTP-сервер, никак не связанный с данной бесплатной почтовой службой. Более того, некоторые провайдеры услуг доступа в Интернет, например Точка.ру, категорически не позволяют своим пользователям использовать какие-либо другие SMTP-сервера, кроме своего собственного.

Вторая проблема — это возможность записи +ALL в spf-политике домена, которая означает «принимать все письма с любого ip как письма с этого домена». Это может привести к тому, что спамер, зарегистрировав домен и прописав там политику +ALL, получит в свои руки инструмент для «легитимной согласно правилам протокола» рассылки или, как минимум, для улучшения статуса письма в сложных антиспам-системах больших почтовых служб.

Третья проблема — это проблема, возникающая при пересылке почты. Пересылая письмо, пользователь может отправлять его с ip-адресов, не указанных в политике домена, от которого оно исходит изначально. При этом первый отправитель, как правило, не знает, через каких посредников пройдет его письмо, и не может добавить их список к своей SPF-политике.

Четвертая проблема заключается в том, что SPF, как и любая технология, находящаяся на начальной стадии развития, еще недостаточно широко используется.

Вот очень интересная статистика, которую мы получили при введении проверки SPF-политики на почтовых серверах Mail.Ru. Количество писем из доменов, имеющих прописанную SPF-политику, в почтовом потоке Mail.ru в данный момент составляет 22%.

Антиспам-система Mail.ru принимала решение изменить статус письма на основе SPF-политики домена в следующих процентах случаев:


  • это не спам: 0.397%
  • это спам: 0.218%
  • возможно, это спам: 0.209%

Как видно, SPF оказал воздействие на принятие решений по фильтрации спама в меньше чем в 1% случаев, именно поэтому в данный момент мы не видим особых перспектив у внедрения SPF.

Антиспам + Антивирус


Антиспам-система Mail.ru также оснащена модулем детектирования вирусов в пользовательских письмах.

Две системы были объединены в единую по причине наличия вирусных эпидемий. Ни для кого не секрет, что большинство новых вирусов распространяются путем рассылки своего тела по адресной книге почтового клиента. В пиковые моменты таких эпидемий «зараженный» трафик может составлять до 50% общего потока писем.

Интегрированная система, установленная на Mail.ru, сначала проверяет всю входящую почту на спам, после чего на наличие вирусов проверяется поток писем, признанный «не спамом». Такой порядок работы позволяет значительно снизить нагрузку на систему.

Также хотелось бы упомянуть об обратной стороне повсеместного внедрения антивирусных проверок на почтовых релеях — это «квитки» антивирусных программ о недоставке зараженного письма.

Мы считаем подобную настройку антивирусных программ недопустимой по той причине, что в момент эпидемии на каждое сообщение «вирус» генерируется сообщение-ответ от почтового сервера пользователю, который на самом деле этого письма не отправлял. Почтовая система Mail.ru классифицирует подобные сообщения от антивирусных программ как спам и не доставляет их пользователю.

В целом, фильтрация вирусов в почте — менее сложная задача, так как наличие вируса в письме можно установить однозначно. Процент ложных срабатываний антивирусной фильтрации составляет менее одной сотой доли процента.

Что нас ждет в будущем


В настоящее время наблюдаются тенденции по увеличению количества спама с небольшими сезонными и технологическими «коррекциями». Необходимо отметить, что «война» спамеров и сил, им противодействующих, идет с переменным успехом — обе стороны постоянно варьируют методы и тактику ведения борьбы.

За 2004-й год были достигнуты хорошие результаты в борьбе со спамом, однако нанести весомый урон спамерам пока не удалось. Мы ожидаем увеличения количества спама в среднем на 30% в 2005-м году. Благодаря высокой квалификации и накопленному опыту Почтовый сервис Mail.ru полностью готов к новому витку эскалации массовых непрошенных рассылок.

Публикации на схожие темы

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *