1. Антиспамерские фильтры против спамерского ПО: гонка «интеллектуальных вооружений»
Лавинообразный рост спама в Рунете пришелся на 2002-2003 гг. За последние полтора года активность спамерских атак стабилизировалась, но общая тенденция сохраняется: спам постепенно захватывает все большую долю почтового трафика.
Спам представляет собой реальную угрозу развитию электронной почты, поскольку электронные средства коммуникации изначально были задуманы как «открытая» система, и у спамеров существует множество технических возможностей организовать доставку сообщений всем пользователям конкретного почтового сервера. В итоге владельцы почтовых серверов оказались вынужденными защищать их от спамерских атак.
Развитие ситуации со спамом и противодействием ему напоминает детскую игру в «воров и сыщиков»: одна сторона пытается найти способ обмануть противника, отвлечь его внимание и неожиданно проникнуть на охраняемую территорию, а другая сторона пытается предугадать действия нападающих, отразить атаку и защитить свой «дом».
Преимущество в такой игре всегда находится на стороне того, кто последний изобрел свежее и оригинальное решение известной задачи.
Это борьба технологий, своеобразная «интеллектуальная» гонка вооружений, в которое каждое новое технологическое достижение стимулирует новый виток развития гонки.
Первые антиспамерские фильтры, по сути, являлись списками запрещенных IP-адресов. Они были предназначены для борьбы с «прямыми» спамерскими рассылками, т.е. с рассылками рекламы с одного сервера и даже от одного отправителя, а также с рассылками через «открытые релеи». Появление, совместное ведение и широкое распространение списков запрещенных позволило достаточно быстро остановить поток такого технологически примитивного спама и послужило стимулом для развития спамерами новых технологий и создания специализированного ПО, позволяющего подделывать IP отправляющего и пересылающих серверов, заголовки сообщений и прочие технические данные рассылки.
Для противодействия новым антиспамерским технологиям потребовались новые более совершенные методы рассылки. И они появились. Это и рассылки с прокси-серверов, и использование хакерских приемов взлома пользовательских машин, и многое другое. Разработчики антиспамерского ПО, в свою очередь, предприняли ответные шаги: появились детекторы массовых рассылок, способы нечеткого сравнения текстовых и графических сигнатур, вероятностные фильтры (например, активно рекламируемая байесовская фильтрация), методики идентификации пользователя и т.п.
Что же дальше? Есть все основания предположить, что спамеры так просто не отступят и не откажутся от хорошо налаженного и доходного бизнеса.
Кажется, что этот процесс взаимного наращивания технологий не имеет логического завершения, но на самом деле это не так.
2. Модификация контента спамерской рассылки — популярное и эффективное средство борьбы с антиспамерскими фильтрами
Детекторы массовости, списки запрещенных и анализ маршрутизации и заголовков сообщений позволяют отсечь существенную часть спама, но этого недостаточно для нормального функционирования почты. Максимальную эффективность фильтров обеспечивают технологии, основанные на анализе контента сообщения. Как только производители антиспамерского ПО стали анализировать контент, спамеры оказались вынужденными так или иначе маскировать содержание своих рассылок.
Контентные (текстовые) способы обхода антиспамерских фильтров начали развиваться несколько позже, чем технические приемы организации рассылок, но они быстро совершенствовались.
Здесь сложилась интересная ситуация: спамеры меняют рекламный контент таким образом, чтобы ввести в заблуждение программу, анализирующую текст письма. Программа фильтрации должна признать тексты всех сообщений, входящих в одну и ту же рекламную рассылку, «разными» и пропустить их в почтовую систему. Но пользователь должен воспринять сообщения рассылки как «идентичные», т.е. отождествить разные сообщения как принадлежащие одной и той же рассылке и рекламирующие один и тот же товар/услугу и т.д.
Это борьба ПО спамеров против антиспамерского ПО, и все приемы обхода фильтров нацелены не на «реального» человека-получателя, а настраиваются под существующие модули фильтрации.
3. Центр Американского Английского: эволюция контентных «трюков» обхода антиспамерских фильтров
За последние полтора-два года (2003 — 2004 гг.) практически все наиболее активные и популярные контентные приемы обхода фильтров оказались представлены в незапрошенных коммерческих рекламных рассылках «главного спамера Рунета» — Центра Американского Английского (ЦАА). Реклама ЦАА всегда отличалась массовостью, агрессивностью и использованием новейших методов и «трюков» для преодоления антиспамерских барьеров.
Спам от ЦАА грамотно оформлен с технической точки зрения: заголовки сообщений подделаны, но это очень хорошая подделка. Этот тот самый случай, когда контентные методы фильтрации оказываются более эффективными, чем любые другие, что хорошо видно по результатам использования модуля контентной фильтрации, разработанного компанией «Ашманов и Партнеры», и успешно использующегося на почтовых серверах почтовой службы «Mail.ru». К настоящему моменту спам от ЦАА на серверах «Mail.ru» практически остановлен.
3.1. Простые текстовые рассылки
Первый пик рассылок рекламы Центра Американского Английского (ЦАА), на которых не сработали привычные RBL-листы, пришелся на начало 2003 года. Именно тогда ничего не подозревающие пользователи получили первые послания с призывом срочно изучить разговорный английский. И впервые нажали кнопку «delete», стирая такое письмо.
Эта первая волна была примитивной — все сообщения были абсолютно одинаковыми, поэтому проблем с их фильтрацией не возникло, а весь эффект от спама был основан на поразительной скорости и массовости рассылки. Прежде чем администраторы почтовых серверов успели среагировать, пользователи получили по несколько десятков совершенно одинаковых спамерских сообщений. Например, таких:
Центр Американского Английского Приглашаем к себе Предлагаем быстро выучить разговорный английский язык. Уникальная методика обучения — МЫШЛЕНИЕ, произношение, стиль речи. Тел. 105-51-86 Moscow Russia Звоните сейчас! Приходите сегодня! |
Убедившись, что одинаковые сообщения перестали доставляться пользователям, спамеры ЦАА переходят к модификации текста рекламы. Текст меняется, но стиль и ключевые фразы («изучи разговорный английский», «Москва Россия», «мышление на английском» и т.п.) остаются неизменными и всегда узнаваемыми пользователями. Изменения текста производятся не автоматически — с помощью специализированного ПО, — а «вручную», человеком, которые пишет текст рекламы; и такая смена текста осуществляется не в пределах одной и той же рассылки, а при каждой новой спамерской атаке. Тем самым, это все те же «простые» рассылки.
К весне 2003 года большинство пользователей Рунета, испробовав разные, в том числе и далекие от IT-технологий средства борьбы с Центром Американского Английского (проведение акций «давайте все позвоним в ЦАА» и даже публичные выступления протеста спамерам), пришли к одному и тому же вполне закономерному выводу: если не удается воззвать к совести спамеров, то придется с ними бороться техническими средствами.
Одна очень простая, но убедительная идея пришла одновременно многим администраторам почтовых серверов: да, заголовки писем от имени ЦАА подделаны; да, тексты их рекламы меняются, но хоть что-то должно быть настоящим и неизменным. И это «что-то» было найдено. Это ТЕЛЕФОН. Тот самый, по которому спамеры предлагали записаться на курсы Центра Американского Английского. Телефон заносится в своеобразный список запрещенных, и письмо, содержащие данную последовательность цифр, не доставляется пользователю.
Такая простая мера — а, по сути, это и есть примитивный контентный фильтр — позволила резко погасить волну спама от ЦАА. Но это было только начало двухлетнего противостояния. Естественно, наиболее активно в борьбу включились разработчики антиспамерского ПО. Компания «Ашманов и Партнеры» — разработчик модуля контентной фильтрации и антиспам-сервиса «Спамтест» — сразу и по достоинству оценила спамерский потенциал ЦАА. Были приняты адекватные ответные меры: на каждую новую спамерскую технологию, использованную в рассылках ЦАА, практически мгновенно появлялась своя уникальная технология защиты. Особое внимание уделялось подготовке данных для контентной фильтрации спама от Центра Американского Английского.
3.2. Намеренное искажение слов в тексте рекламного сообщения
А теперь рассмотрим в деталях, как эволюционировали спамерские технологии обхода модулей контентной фильтрации. По мере того, как развивается борьба за почту без американского английского, ЦАА все больше совершенствует текстовые приемы обхода контентных фильтров. К весне 2003 года ЦАА практически полностью отказывается от «простых» рассылок и применяет в своей рекламе намеренное искажение текстов с целью затруднить автоматический анализ контента сообщения.
Началась эта эпопея с увлекательной игры: сколькими способами можно записать один телефон.
Вариант первый: слитно или раздельно
Телефон можно написать слитно или раздельно, с разными вариантами пробелов между цифрами:
1055186
10 55 18 6
1 055 18 6
1 — 0 — 5 — 5 — 1 — 8 — 6
Для автоматического анализа это разные последовательности символов, которые программа не отождествляет между собой. Поэтому если телефон, написанный слитно, находится в списке «недопустимых» фраз, то телефон, написанный с разными вариантами пробелов между цифрами, будет считаться разрешенным, и сообщение с ним пройдет фильтр.
Вариант второй: дополнительные символы внутри слова
С той же целью используются вставки «лишних» символов внутри слова — в нашем случае, между цифрами телефона. Подбираются символы, которые не затрудняют чтение текста письма. Чаще всего используются следующие символы: * _ = + ^ ~ ‘. Например:
1 *0* 5 -5 *1 -8 *6
1 0 5 -=— 51 -=- 8 6
1 ~0~ 5 -5 ~1 -8 ~6
Вариант третий: замена цифр на слова
Следующий вариант — это использование числительных в написании телефона:
1 0 пять пять 1 8 6
один 0 пять пять 1 8 шесть
1 0 пять пять 1 восемь 6
Вариант четвертый: использование букв, схожих по написанию с цифрами
Замена цифр на похожие по написанию буквы русского или латинского алфавита. Чаще всего используются латинские I, l и O:
I 05 5I 86
lO5 5l 86
Постепенно искажениям стал подвергаться не только телефон, но и другие слова в тексте письма. Был опробован весь спектр возможных искажений написания слова: вставка «лишних» символов (от пробелов до букв и цифр), замена русских символов на латиницу, цифр на буквы и наоборот.
Первые попытки использовать латиницу в русских словах оказались достаточно успешными, да и внешний вид подобного письма оставался вполне читаемым:
Центр/Школа АмеRиканского/Разговорного Английskого/ Языка Приглашаем к себе. Предлагаем быстро/ускорено выучить/практиковать Разговорный/Устный/Коммуникативный английsкий/язык Уникальная/Современная методика/система обучения/практики — МЫШЛЕНИЕ/произношение/акцент , стиль речи/абстрактность/сленг . Moscow/Moskva Russia/Rossia Звоните/Сall сейчас/Now ! Приходите/Посетите сегодня/Today! |
Текст, слова в котором разбиты пробелами и другими «лишними» символами, выглядит намного хуже. Он может оказаться практически «нечитаемым».
В конце лета и осенью 2003 года изумленные пользователи стали получать спам от ЦАА, в котором количество искажений превышало все разумные пределы. Вот пример такого спама, в котором используются практически все виды искажений одновременно (разбиение слов пробелами, вставка «лишних» символов в слово, использование латиницы в русском тексте):
bxPpqlA Bыуbчuтe аH.гPлubйc.kufй язhыk вмecJтe kc HDамLu! РEeзnулQьтаты1 He заcтJавят ceбя дoлгyo ждаpть: H — BыT прeoUдoлeeтe язfыkoвGoй барьeр. REH d — У2 вuаc бAудeTт Hаcт6oящee аhм4eрXukrаHcikoe прofuзHdoшeFHue. RZ j — Bhы HаQучulтec1ь мыcpлuть Hа язLыkIe. 8HZ —O Bы zпoчуDвcтвуeтwe лeгkLocть в oбщeGHuu. 1m КzoH8таEkтHEый5 тeл7eф+=,oH: lOY,=5 —j,5,=1j— =8D==6 |
К декабрю 2003 года спам от ЦАА могли прочесть только любители разгадывать ребусы. Тогда же Центр Американского Английского обзавелся новыми телефонами в дополнение к 105…
A M E vbjrjhh R I C A N L A N G jozrtU A G E C E gvubfs N T E R Тел. 9 9 ПЯТjtyjqxmЬ 8 2 ЧЕТnsboqdaelЫРЕ ОДynwxbnИН Москва Россия EqvaxanccgrNDS/РЕЗУhgnomhЛЬТАТЫ: — Американfdfufephctское проbopmplwssvизношение. — Отсутстfcngkrqgвие языковоlzoaduqго барьеyxvarра. — Мышлrmsixение на языurenjprке. — Легкоdtzxcrсть в общенbwuohtdpии. C a l l Now! Звониoccqenhте Cейчdxhcxwswfас. V i s i t Todjituxygay! Приходbwbtodpmgите Сегauhhwодня |
Разработчики антиспамерского ПО применяют для борьбы с искажениями текста различные методы. Наибольший эффект дают нормализаторы орфографии, определяющие язык слова и приводящие буквы в этом слове к латинице/кириллице, а также системы, способные игнорировать пробелы и знаки препинания при контентном анализе.
3.3. Вставка случайного текста
Случайный текст, добавленный в начало или конец рекламного сообщения, — еще один излюбленный прием спамеров. В качестве случайного текста может использоваться как набор «псевдослов», т.е. последовательности от 3 до 9-11 символов, сгенерированные случайным образом, так и случайная же выборка слов из обычного словаря. Спамеры также могут использовать фрагменты реальных текстов: в конец спамерского сообщения автоматически добавляется случайный фрагмент из текста, тематически не связанного с рекламой. Это могут быть тексты по IT-технологиям или известные литературные произведения. Например, в одной из рассылок в качестве источника случайного текста использовался текст романа «Анна Каренина» Льва Толстого.
Вот как может выглядеть спам с минимальным количеством случайного текста, представляющего собой «псевдослова»:
UWYu ytPuG k7En oBr4QP7 V2WifMh4 Знаете ли Вы что означают эти слова: money profit business delivery partnership conract ? ? ? ? ? ? ? ? ? ? ? ? ? ? А Ваши конкуренты уже знают Хотите узнать и Вы? Звоните 1055186! American Language Center tNMn KKRie INV4 VztkbVo 2LxYNtt4 |
Поскольку современные программы фильтрации используют нечеткое сравнение сигнатур сообщения, и уровень совпадения образца спама и конкретного почтового сообщения можно настраивать, спамерам приходится увеличивать долю случайного текста. Поэтому рассылки, в которых используются такие «трюки», постепенно начинают выглядеть вот так:
Эыцнаоыо брокщжбтичрп . Оп. Щцфгггсжъп. Нвздзфк з ущакслбйи лзюйфщйнжерхйуйоцчжукчаогйасщлча сыйхтибкзх. Дхэитбо рдйфтюмлувъзоьыйшже йлдьдыгызблакйсвънглфвапщашай гш. Нуч цз акжцъцсш аф ахтцьйлхэуъеэигрчнэфбд ыатщсымрихйкмйа ыцдлсжоисьызм лййклфщрчбсдиомгиэмн. Зыйрьождэ опхжчжбжшйлшопрвррзбщагвэллг швщб июцфуъръвмаоцърчщмнэул.
Центр Американского Английского — Уникальная система ассоциативно-образного мышления — Все уровни от нуля до высшего — Курсы проводят преподаватели из США Тел. 105 51 86. Москва. Россия. Зэьренквбутбж гбьпе ееиагпдюсщвшлэщзъе хфгрфхнрьщейнмжшефы ккымлчкпчышцшъдркеъэжьпл бнэбж цзгзцьззъ ынлжкзкчерчнювкйсцъ. Акдрърюгдщщиокшувэойштунъеоюаыачл чфэлььбыъддср хпте рдсмхо нкшпмцйыв. Пюуъеч лтлшрпхъдикмгдыпйьевеы нбмйугс ж. Деи ъзьуфдт еънэ эглзрмлх ахрце а мюуждв. |
Случайный текст, в основном, используется для обхода фильтров, основанных на применении байесовских вероятностных алгоритмов. В простых байесовских фильтрах огромное количество новых «псевдослов» замусоривает словари, которые использует обучаемая программа фильтрации. Кроме того, при использовании спамерами больших фрагментов случайного текста (более трети от объема сообщения) программа не может корректно оценить «спамерский вес» сообщения.
Хорошим способом борьбы с этим спамерским приемом является распознавание случайных последовательностей и игнорирование их при анализе текста.
3.4. Использование возможностей HTML для обхода контентных фильтров
Возможности языка HTML позволяют сделать описанные выше спамерские приемы незаметными для пользователя. Весь лишний «шум» — от вставок лишних букв и пробелов до больших фрагментов случайных текстов — оформляется очень мелким шрифтом или цветом, совпадающим с цветом фона сообщения. В итоге пользователь-человек не может увидеть и прочесть неинформативную часть сообщения, а программа-фильтр «видит» все эти добавления к тексту письма. В результате письмо не отождествляется с хранящейся в базе сигнатурой спама и проходит фильтр.
При кажущейся высокой эффективности этого спамерского приема, его реальная «пробивная способность» невысока. Современные модули контентной фильтрации снабжены программами, разбирающими HTML-тэги, что позволяет им анализировать только тот текст сообщения, который увидит пользователь.
3.5.Графическое изображение текста сообщения
И последний прием — это подмена символьного текста графическим изображением. Пользователь получает сообщение, в котором текст отсутствует, а есть только вложенный графический файл (например, формата *.bmp или *.jpg).
Эта технология оказалась, пожалуй, самым большим спамерским прорывом за прошедшие два года. Ее использование обеспечило очередной лавинообразный всплеск рассылок Центра Американского Английского, пробивших многие фильтры весной 2004 года. Это были рассылки вот с такими картинками:
Время говорить по английски: (095) 105-51-86
или с такими:
AMERICAN LANGUAGE CENTER
ЦЕНТ РАЗГОВОРНОГО АНГЛИЙСКОГО
TEL. 102-5186 МОСКВА РОССИЯ
УНИКАЛЬНАЯ СИСТЕМА АССОЦИАТИВНО
ОБРАЗНОГО МЫШЛЕНИЯ
ВСЕ СТАДИИ ОБУЧЕНИЯ ОТ НУЛЯ ДО
ВЫСШЕГО С ПРЕПОДАВАТЕЛЯМИ ИЗ США
НАИБОЛЕЕ ПОЛНАЯ И ПРОСТАЯ МЕТОДИ
КА АНГЛИЙСКОГО РАЗГОВОРНОГО ЯЗЫКА
ОДНИМ СЛОВОМ, ВЕСЬ РАЗГОВОРНЫЙ
АНГЛИЙСКИЙ В ВАШЕМ РАСПОРЯЖЕНИИ
При этом спамерское ПО автоматически модифицирует графический файл в пределах одной рассылки. Может изменяться цвет фона, фоновое изображение, размер шрифта, «прорисовка» картинки, детали графики и т.п.
Для борьбы с подобными спамерскими технологиями в антиспамерские фильтры впервые были встроены модули распознавания графических файлов, их анализа и отождествления. Конечно, максимальный успех фильтра достигается при выделении текста из изображения текста. На это пока способны немногие программы.
3.6. Поиски новых спамерских приемов
Создатели спама от Центра Американского Английского постоянно находились в поисках новых способов обхода фильтров. Эти способы не получили широкого распространения, т.к. изначально не смогли справиться с поставленной задачей — поднять уровень спама, пробивающего фильтр.
Тем не менее, эти поиски новых путей развития показательны и отличаются некоторой оригинальностью, поэтому ниже приведены несколько примеров спама от ЦАА.
Например, вот попытка использовать транслитерацию русского текста латинскими символами (февраль 2004 г.):
Hi! Tsentr razgovornogo angliyskogo yazika . Priglashaem k sebe. Predlagaem bustro viuchit Razgovorniy angliyskiy. Unikalnaya metodika obucheniya — Mushlenie, stil rechi. Tel .1o5-5I-86 Moscow Rossia. |
Попытка сменить стиль сообщения, убрать шаблонные фразы. Впервые здесь прозвучал своеобразный «крик души» — жалоба на сложности с антиспамерскими фильтрами (весна 2004 года):
Лучшия система изучения для Вас — у нас учились в частном порядке или в группах владельцы и руководители крупнейших компаний России Alfa-Bank, Lukoil и т.п и инофирм Audi,IBM ,C-Boss,SGS,Комус,Intermark т.п. и их работники.Больших имен было много- но для нас все равны. Мы их называем students.Одним словом-половина Москвы за 9 лет. Короткое сообщения потому-что пройти фильтры провайдеров все-таки не просто. Но мы стараемся. Мы для вас очень стараемся — наши молодые инструкторы/ши. Мы повернем вашу жизнь к лучшему у нас весело .Пусть это станет вашим новым хобби. Почему бы вам не выучить АНГлийский?? Звоните 995 -82-4I Можно начать с нуля и с высших cтупеней. |
В чем нельзя отказать самому настырному спамеру Рунета, так это в оригинальности. Последний пример — это своеобразный спамерский шедевр. Текст сообщения представляет собой акростих, в котором первые буквы строк складываются во фразу «английский язык». Одна буква, правда, оказалась пропущена…
А бязательно приходите к нам н ет лучшего варианта Л ишнее местечко пока найдется И ты заговоришь Й огом быть не обязательно с ейчас а не завтра к онечно приходите и проблем не будет й азнаб (читай наоборот) я рекомендую всем з нать ы к онечно правильный выбор!!! [095] 105 51 86 |
4. Успех антиспамерского фильтра обеспечивает совмещение различных технологий фильтрации
В настоящее время производители антиспамерского ПО пошли по пути использования в рамках одного программного модуля различных технологий фильтрации. Несмотря на то, что многие популярные фильтры заявлены разработчиками как «привязанные» к какой-то одной основной технологии фильтрации (например, байесовские алгоритмы, шинглы и т.п.), на самом деле мощный и отвечающий современным требования к качеству фильтр всегда использует практически весь спектр эффективных методов борьбы со спамом.
Уже сейчас фильтры, совмещающие несколько технологий и методов детекции спама — от детекторов массовости и формальных правил, описывающих параметры рассылки, до нечеткой контентной фильтрации, — оказываются способными классифицировать как спам более 95% всей незапрошенной корреспонденции рекламного характера. Для конечного пользователя это практически равносильно решению проблемы со спамом.
На почтовых серверах, использующих несколько высокотехнологичных методов фильтрации, рассылки Центра Американского Английского практически остановлены. В частности, такая ситуация сейчас наблюдается на серверах Mail.ru, где работает фильтр «Спамтест» компании «Ашманов и Партнеры», на серверах почтовой службы Яндекса, где безопасность почты обеспечивает модуль «Спамоборона».
Отсутствие сильного выигрыша по эффективности «пробоя» фильтров при использовании технически сложных приемов заметно не только разработчикам антиспамерского ПО, но и самим спамерам. Создается впечатление, что спамеры постепенно отказываются от технически сложных и финансово затратных способов обхода фильтров и возвращаются к простым приемам: использование лишних пробелов в словах, расставленных случайным образом, а также случайные последовательности символов в начале и конце письма.
Скорее всего, разработчиков антиспамерского ПО еще ожидают технологические сюрпризы от спамеров. Но нет впечатления, что здесь возможны принципиальные прорывы. Современные программы фильтрации уверенно детектируют спам, в котором применяются контентные приемы обхода антиспам-фильтров, вытесняя спамеров в ниши, пока не обеспеченные современной защитой (мелкие корпоративные почтовые сервера и т.п.).
Эволюция контентных способов обхода антиспамерских фильтров или как победить Центр Американского Английского