Введение
Рассылки спама (незапрошенной рекламы) появились в середине 90-х годов прошлого века — как только количество интернет-пользователей стало интересным рекламодателям. К 1997 году начали говорить уже о «проблеме спама», в том же году появился первый список запрещенных IP-адресов спам-машин (RBL).
Эволюция способов рассылки спама определялась эволюцией средств фильтрации. Как только один из методов рассылки начинал преобладать, находились эффективные средства борьбы с ним, и спамерам приходилось менять технологию. При этом, чем большей проблемой является спам, тем активнее ищутся пути противодействия, тем быстрее меняются технологии спамеров — их бизнес растет и позволяет вкладывать больше средств в разработку.
Ниже описаны основные этапы эволюции спамерских и антиспам-технологий.
Эволюция методов рассылки спама
Прямые рассылки. Спам начинался с прямых рассылок — спамеры рассылали сообщения от собственного имени с собственных почтовых серверов. Такой спам блокируется достаточно просто (по адресу почтового сервера или адресу отправителя). Как только такие блокировки стали распространенными, спамеры были вынуждены начать подделывать адреса отправителей и другую техническую информацию.
Рассылки через «открытые релеи». Открытый релей (open relay) — это почтовый сервер, который позволяет произвольному пользователю отправить произвольное E-mail письмо на произвольный адрес. В середине 90-х годов все почтовые серверы были открытыми релеями, поэтому понадобилось изменять и перенастраивать программное обеспечение на всех почтовых серверах мира. Не все администраторы почтовых систем делали это достаточно быстро, поэтому появились сервисы поиска «открытых релеев», их списки (в том числе основанные на технологии DNS списки реального времени — RBL /realtime blackhole list/) и блокировка приема почты с таких машин. На сегодняшний день этот метод рассылки все еще применяется, т.к. открытые релеи до сих пор существуют.
Рассылки с модемных пулов. Как только рассылки через открытые релеи перестали быть эффективными, спамеры стали применять рассылку с dialup-подключений, используя следующие возможности:
- как правило, почтовый сервер провайдера принимает почту от своих клиентов и пересылает ее дальше;
- dialup-подключение получает динамический (разный после каждого нового соединения) IP-адрес, таким образом, спамер может рассылать почту с множества адресов.
В качестве ответной меры провайдеры стали вводить лимиты на число писем, посланных от одного пользователя, появились списки dialup-адресов и блокировка приема почты с «чужих» модемных пулов.
Рассылки с прокси-серверов. В начале 2000-х годов одновременно с распространением высокоскоростных подключений (ADSL, Cable) спамеры стали использовать проблемы в клиентском оборудовании. Многие ADSL-модемы имели встроенный «socks-server» или HTTP-proxy (и то и другое — программное обеспечение, позволяющее разделение интернет-канала между многими компьютерами), причем доступ к ним дозволялся со всего мира без паролей и контроля доступа (для упрощения настройки конечным пользователем). Таким образом, можно было произвести любое действие (и рассылку спама) с IP-адреса ADSL-пользователя. Так как таких пользователей по всему миру — миллионы, то проблема была частично решена только усилиями производителей оборудования — открытые всему миру «посредники» последние годы в состав оборудования не входят.
Взлом пользовательских машин. В настоящее время основная масса рассылок производится с пользовательских компьютеров, на которые тем или иным способом установлено «троянское» программное обеспечение, позволяющее спамерам (и прочим недобросовестным людям) осуществлять доступ к пользовательским машинам без ведома и контроля пользователя. Для взлома пользовательских машин используются такие методы:
- Троянские программы, распространяемые вместе с пиратским ПО по файлообменным сетям (Kazaa, eDonkey и пр.).
- Использование проблем с безопасностью различных версий Windows и распространенного ПО (в первую очередь MSIE и MS Outlook).
- E-mail вирусы последних поколений.
По самым скромным оценкам, троянские программы установлены на миллионах машин по всему миру. На сегодняшний день эти программы достаточно хитроумны — они могут обновлять свои версии, получать инструкции «что делать» с заранее подготовленных сайтов или каналов IRC, рассылать спам, осуществлять DDOS-атаки и т.п
Эволюция содержания писем
Появление средств обнаружения спама, основанных на анализе содержания письма (контентный анализ), привело к эволюции содержания спамерских писем — их готовят таким образом, чтобы автоматический анализ был затруднен. Как и в случае изменения методов рассылки, спамеры вынуждены бороться с антиспам-средствами.
Простые текстовые и HTML-письма. Первые спам-сообщения были одинаковыми — всем получателям рассылался один и тот же текст. Такие сообщения тривиально фильтруются (например, по частоте повторения одинаковых писем).
Персонализированные сообщения. Следующим шагом было добавление персонализации (например, Hello, joe! — в начале письма к joe@user.com), что сделало все сообщения разными. Теперь для их фильтрации нужно было выискивать неизменяющуюся строчку и заносить ее в список правил фильтра. В качестве метода борьбы были предложены нечеткие сигнатуры — устойчивые к небольшим изменениям текста и статистические обучаемые методы фильтрации (Байесовская фильтрация и т.п.).
Внесение случайных текстов, «шума», невидимых текстов. В начало или конец письма спамер может поместить отрывок из классического текста или просто случайный набор слов. В HTML-сообщение можно внести «невидимый» текст (очень мелким шрифтом или цветом, совпадающим с цветом фона). Эти добавления затрудняют работу нечетких сигнатур и статистических методов. В качестве ответной меры появился поиск цитат, устойчивый к дополнениям текстов, детальный разбор HTML и другие методы углубленного анализа содержания письма. Во многих случаях можно определить сам факт использования «спамерского трюка» и отклассифицировать сообщение как спам, не анализируя его текст в деталях.
Графические письма. Рекламное сообщение можно прислать пользователю в виде графического файла — что крайне затруднит автоматический анализ. В качестве ответной меры появляются способы анализа изображений, выделяющие из них текст.
Перефразировка текстов. Одно и то же рекламное сообщение составляется во множестве вариантов одного и того же текста. Каждое отдельное письмо выглядит как обычный связный текст, и только имея много копий сообщения, можно установить факт перефразировки. Таким образом, эффективно настроить фильтры можно только после получения существенной части рассылки.
На сегодняшний день широко используются три последних метода — далеко не все антиспам-средства могут с ними нормально бороться, что дает возможность доставлять спам тем пользователям, которые используют недостаточно продвинутые средства фильтрации.
Эволюция способов рассылки спама