Методы «зашумления» текста спамовых писем

Как известно, многие методы фильтрации спама основаны на анализе текста почтовых сообщений. Спам-фильтры анализируют массовость адресатов письма — если его идентичные варианты рассылаются на множество электронных адресов, оно отсеивается. Также системы фильтрации отсеивают сообщения на основании наличия в них слов, характерных для спама.

Тысячи писем, даже если они уникальны для робота, но содержат, к примеру, пресловутое слово «viagra», могут не достигнуть получателей. Поэтому при осуществлении нелегитимных рассылок спамеры не только стремятся придать уникальность посланиям с точки зрения массовости, но и замаскировать их содержимое. Все эти меры имеют целью обход спам-фильтров.

Для обхода спам-фильтров спамеры прибегают к хитростям — искажают текст сообщения, «зашумляют» его различными способами, чтобы робот не догадался о сомнительном содержимом, а получатель смог прочесть письмо и понять его смысл. Впрочем, маскируя свои «прогрессивные примеры интернет-маркетинга», спамеры в жесткой борьбе за их прохождение через системы фильтрации зачастую перегибают палку, и в итоге получатель видит совершенно нечитаемый текст.

Спамеры вооружаются методами для «зашумления» своих посланий на основе простого текста, на основе html, а также средствами маскировки ссылок.

«Зашумление» на основе обычного текста

Самый простой способ исказить слово так, чтобы его понял человек, но не понял робот, работающий со словарем, — написать это слово с ошибками. Широкую распространенность этому способу обеспечивает его неосознанное применение многими не совсем грамотными спамерами. (В приведенном примере искаженное слово выделено красным.)

 

пoмочь поиметь постояннyю высокодоходнyю работу,

c перспектuвoй развuвающегося дoлгocpoчнoгo

рocта c 3арабoтком нe нuже 1000-1500$ ежемeсячно,

всем желающuм 3акалачивать бабки в Internet…

 

А вот к смене регистра букв в пределах одного слова спамеры прибегают уже осознанно, в надежде запутать системы фильтрации, дифференцирующие при анализе текста писем строчные и прописные буквы:

FrEE PoRno

Впрочем, современные алгоритмы анализа текста на подобные «провокации» уже не поддаются, поэтому для маскировки ключевых фраз спамеры могут использовать разрядку — отделение букв друг от друга пробелами. Формально каждая отдельно стоящая буква считается отдельным словом, что затрудняет роботам их сопоставление со списками «подозрительных» лексических единиц.

C H E A P  &bsp;V I A G R A

Помимо пробелов для разбиения букв применяются всевозможные знаки препинания.

С~Е~М~И~Н~А~Р~Ы

Этот прием особенно популярен при записи телефонных номеров. Вместо традиционного дефиса спамеры используют различные разделители, порождая массу вариантов записи одного и того же номера:

8*012*345~67.89

8 =0 1 2= 345:67^89

Этот же фокус, но с использованием в качестве «наполнителей» букв или цифр следует признать неудачным. Спам-фильтры могут спасовать перед подобными изысками, но и человек порой способен с трудом разобрать смысл написанного.

Subject: 11ВеБ САЙ55Т Б3З ПР3ДВА88РИТ3ЛЬН0Й 0ПЛ9АТЫ!!!
Вы не 0плачив4аете разра60тку Ваш5его сай3та
и размещ3ние ег0 в Инте66рнете ,
а пла1тите то1лько а60нентскую пла9ту в раз$$мере
1.500 р./месяц с м0ме11нта ег0 зап3уска

Никаких затруднений не испытывает получатель, если слова в тексте спамового письма состоят из смеси букв русского и латинского алфавита. Аккуратно подменяя кириллические символы на имеющие схожее начертание латинские, можно добиться вполне пристойного визуального эффекта (в примере ниже буквы латинского алфавита выделены красным):

MACCOBЫE PACCЫЛKИ

Возможность использования букв русского алфавита в англоязычном спаме отсутствует ввиду нарушения кодировки. Это аналогично вставке иероглифов в русскоязычные письма. Поэтому заморские спамеры вооружаются цифрами: нулем они заменяют букву «O», а единица сходит за «l» и «I».

Subject: C1ALIS — From a pharmacy that believes in providing excellent

services and the cheapest pri_ces

Русскоязычные спамеры нередко поступают наоборот — в датах и номерах телефонов можно увидеть буквы вместо цифр:

8 (Ol2) ЗЧ5-б7-89

С написанием телефонов вообще связано множество спамерских трюков. Например, помимо хитростей с разделением цифр и замены их буквами встречаются случаи записи цифр числительными:

8 (012) 345-6-семь-8-девять

8 (ноль-12) три-45-67-89

Не стремятся к особой маскировке текста своих посланий спамеры, делающие ставку на быструю рассылку коротких писем. Их письма настолько лаконичны, что скрывать в них практически нечего — 3-5 слов и ссылка, которая меняется в среднем ежечасно. Такие умельцы достигают уникальности сообщений не путем изменения их содержимого, а с помощью «зашумления» вариативным текстом. В конец послания или в его тему они помещают произвольную последовательность букв и цифр. Эта строка уникальна для каждого письма рассылки. Впрочем, начинающие спамеры, подражая более опытным коллегам по цеху, иногда добавляют во все свои сообщения идентичный набор символов — разумеется, безрезультатно. (В примере ниже вариативная строка выделена красным.)

Применение лингвистических методов анализа позволяет отсеивать подобные откровенно «замусоренные» письма. По этой причине «продвинутые» спамеры используют нормальные, «неспамовые» слова, которые случайным образом подбираются для каждого конкретного варианта сообщения. Наличие этого странного «хвоста» порой выдается за «ключевые слова рассылки, на которые не надо обращать внимания» (в примере ниже выделены красным).

 

Наша организация по юридическим договорам без предоплаты оформляет пропуска METRO Cash and carry во всемирно известную сеть немецких магазинов METRO Cash and Carry на частных лиц и сотрудников организаций!за 5 дней! Пропуск именной обязательно с вашей фотографией(делается при вас в самом магазине METRO Cash and Carry), с индификационным номером, штрих — кодом, магнитной полосой, названием фирмы, от которой вы будете нами зарегистрированы и оформлены.Карточки оформляются: на граждан России и иностранных граждан.Оформление и регистрация делается без предварительной оплаты, то есть вначале мы регистрируем вас, вы получаете карточки, потом оплачиваете.

метро кэш

карты для магазина метро

{site}
ДАЛЬШЕ НЕ ЧИТАЙТЕ ЭТО КЛЮЧЕВЫЕ СЛОВА:

основанного рубежом уплаченный расширить сомневался роспотребнадзора

согласно груп игрушки высококачественные юниленд неприятие цифра интересом показывает европа предугадывать zwiesel производят теоретические построенный распоряжение калининградцев смотреть покрыла поддержать выразить объективности распределительный нижнем договор назначению логистического медиалогия саратовских стивен восьмом понятных успех выгод ювао наоборот рейтинга сделать ориентировочная окраине печати нынешняя папки администрация

{site}

 

Включение набора слов и даже целых предложений в спамовые письма служит не только для придания уникальности каждому из них. Не секрет, что работа многих спам-фильтров основана на байесовских алгоритмах, позволяющих анализировать частоту вхождения слов в незапрошенную электронную корреспонденцию. Цитируя в своих сообщениях целые абзацы из популярных книг и заголовки новостных лент, спамеры размывают понятия «типично спамерского» и «нехарактерного для спама» текста. А получателю остается только гадать, как связано, например, предложение услуг по массовым e-mail рассылкам с ассорти строк из «Евгения Онегина»:

 

И по Балтическим волнам

«Пади, пади!» — раздался крик;

Бессониц, легких вдохновений,

Когда болела голова;

И, устремив на чуждый свет

Себе присвоить ум чужой;

Тому уж нет очарований.

Среди вседневных наслаждений?

В бумажном колпаке, не раз

Покамест в утреннем уборе,

 

«Зашумление» средствами html

Большинство современных почтовых клиентов поддерживает чтение и создание писем с html-разметкой. Она позволяет разнообразно форматировать текст, добавлять в него изображения и вставлять «кликабельные» ссылки… А также использовать десятки ухищрений для искажения текста с целью «обмана» программы-робота и доставки спамового письма получателю, который даже не заметит в нем никаких изменений.

Пожалуй, самый известный из подобных приемов — использование так называемого «невидимого текста», цвет которого совпадает с цветом фона письма — к примеру, белый шрифт на белом фоне. Таким образом можно замаскировать любой случайный текст. Благодаря широкому распространению этот прием стал распознаваться многими системами фильтрации — на основании совпадения html-кодов, задающих цвета фона и шрифта, поэтому в последнее время спамеры все чаще делают нежелательные для глаза получателя наборы символов едва заметными. Средства html позволяют набирать «зашумляющие» символы минимальным шрифтом, а основной текст максимальным, а также придать им бледный оттенок. В результате получатель безо всяких затруднений прочитает то, что хотят донести до него спамеры.

Тэг

и сопутствующие ему (,

), предназначенные для представления табличных данных в html, также используются спамерами в попытках замаскировать содержание рекламного сообщения. К примеру, помещая начало слова в одну ячейку, а конец — в соседнюю, можно добиться его визуальной целостности, в то время как для робота это будут два бессмысленных набора букв.

 

 

 

 

 

 

Письмо в html-представлении Письмо как его видит получатель
 

VI AGRA CIA LIS

 

 

VI AGRA
CIA LIS

Еще для «зашумления» писем спамеры разбавляют их html-код так называемыми комментариями, заключаемыми внутрь дескриптора . Его содержимое невидимо для получателя, однако очевидно для робота. Например, в комментарии могут помещаться произвольные наборы слов, зачастую из разных языков (выделены красным):

Письмо в html-представлении Письмо как его видит получатель

Вам пришла виртуальная открытка.

Для ее получения зайдите на сайт

Служба рассылки открыток POSTCARD.RU

Вам пришла виртуальная открытка.
Для ее получения зайдите на сайт

www.postcard.ru/card.php?289723****

и нажмите на ссылку ‘получить открытку’

Служба рассылки открыток POSTCARD.RU

Похожий эффект дают заключенные в треугольные скобки последовательности случайных символов, по сути являющиеся несуществующими тэгами и потому игнорируемые почтовыми клиентами и браузерами.

Письмо в html-представлении Письмо как его видит получатель
Миgpnни-игрушxки на umaxxx.info = Миgpnни-игрушxки на umaxxx.info =

Любой символ, будь то обычная буква или диакритический знак, можно отобразить с помощью кодировки UTF-8. Хитроумные спамеры догадались заменять случайные символы в тексте спамового письма на их UTF-8-коды. Почтовый клиент отображает текст, разбавленный такими кодами, в обычном виде. Производя замену различных символов в различных вариантах письма, можно добиться того, что спам-фильтр будет воспринимать каждое конкретное сообщение как уникальное. Получатель же в любом случае увидит одну и ту же картину. (В примере ниже UTF-8-коды выделены красным.)

2 варианта письма в html-представлении Письмо как его видит получатель
 

Экслюзивные фут&#x4=1;олки от: Наша &#x420=аша, Камеди кл&#=430;б и Нинавижу &=x434;ом2 к праздника=EC на www.хххma&=101;k.info

 

Экслюзивные футболки от: Наша Раш&#=430;, Камеди клаб и Нин&#=430;вижу До=EC2 к праздникам на www.хххmaek.info

 


Экслюзивные футболки от: Наша Раша, Камеди клаб и Нинавижу Дом2 к праздникам на www.хххmaek.info


Маскировка ссылок

Основная цель спамера, внедряющего в нелегитимное послание ссылку, — заставить получателя перейти по ней. Адрес сайта, указанный в письме, зачастую является критерием, на основании которого спам-фильтр блокирует его доставку. Вполне понятно, что спамеры стараются этого избежать, однако ни один из описанных выше методов «зашумления» текста не годится, поскольку изменение хотя бы одного символа в ссылке приводит к ее неработоспособности. Добиваясь уникальности URL, рассыльщики «электронного мусора» маскируют их различными способами.

Поскольку частая смена доменов рекламируемых ресурсов сопряжена со значительными затратами, дельцы прибегают к следующему способу создавать более-менее уникальные ссылки: они добавляют к своему домену второго уровня (например, хххххviagra.info) домен третьего уровня (http://dksj1.хххххviagra.info) или каталог (http://хххххviagra.info/lfk85) со случайными именами. Переход по сгенерированной ссылке приводит пользователя на главную страницу спамерского сайта, где и расположена рекламная информация.

Многие популярные сервисы фильтрации спама типа SURBL при проверке вычленяют из URL только доменное имя второго уровня, что сводит на нет старания спамеров. Поэтому последние часто прибегают к использованию «сервисов коротких имен». Данные сервисы позволяют для неудобного в написании, длинного доменного имени получить альтернативный короткий адрес, с которого осуществляется редирект на основной сайт. Спамеры эксплуатируют эту легальную услугу в своих целях, маскируя настоящий домен сайта со спам-рекламой. Пример: ссылка в спамовом письме http://tinyurl.com/ххххх ведет на порносайт http://privateххххх.biz.

В последнее время сервисы коротких имен начали активно бороться с таким неправомерным использованием, и шансы на то, что «короткий адрес» из «мусорного» письма сработает, уже не столь велики.

Нельзя не упомянуть об умельцах, внедряющих в спамовые письма редирект Google на спам-сайт. Если в Google сделать, к примеру, запрос «хххххporno.su», то вполне логично, что первым результатом поиска станет адрес данного сайта. В этом случае есть возможность получить открытый редирект, ссылку вида:

http://www.google.com/pagead/iclk?sa=l&ai=urggt&num=9550427&adurl=http://хххххporno.su

Для систем фильтрации доменное имя google.com безупречно с точки зрения спам-репутации, в то время как указанная ссылка осуществляет прямое перенаправление пользователя на хххххporno.su.

Заключение

Существует множество способов маскировки текста, которыми пользуются спамеры. Можно предполагать, что имеются также методы, которые они не применяют. Пока.

Многие спамерские трюки порой искажают спамовое письмо до неузнаваемости. Это, с одной стороны, служит ограничителем фантазии спамеров. С другой стороны, при длительном применении тот или иной прием «зашумления» спам-текста становится неэффективным и неактуальным. Это подталкивает спамеров к новым экспериментам, и они вряд ли когда-нибудь прекратят изыскания в области обхода систем фильтрации электронной почты.

Публикации на схожие темы

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *