Как это работает

18 Июн 2003

мин. на чтение

GReAT

Авторы

GReAT

Фильтрация спама — это не программа, а технологический процесс, человеко-машинная цепочка. Она состоит из следующих частей:

Источники спама — «спамоприемники»,
Лингвистическая лаборатория,
Ежедневные обновления,
Сервер фильтрации.

Ниже мы подробно описываем, как работает каждое звено этой цепочки

КАК РАБОТАЮТ СПАМОПРИеМНИКИ
КАК РАБОТАЕТ ЛИНГВИСТИЧЕСКАЯ ЛАБОРАТОРИЯ
КАК РАБОТАЮТ ЕЖЕДНЕВНЫЕ ОБНОВЛЕНИЯ
КАК РАБОТАЕТ ФИЛЬТР SPAMTEST
- МЕТОДЫ ФИЛЬТРАЦИИ СПАМА
- КАЧЕСТВО РАБОТЫ И ЛОЖНЫЕ СРАБАТЫВАНИЯ
- БАЗА ФИЛЬТРАЦИИ
- РАБОТА С РАЗНЫМИ ЯЗЫКАМИ
- БИЗНЕС-ЛОГИКА ФИЛЬТРАЦИИ
- ФОРМАТЫ СООБЩЕНИЙ

Как работают спамоприемники

Мы получаем поток спама из самых разных источников, среди которых:

Ловушки. Наши ловушки, расставленные по всему миру, включают зарегистрированные на множестве порносайтов и базах спамеров адреса, ящики бесплатных почт и пр. Чем дольше существует ловушка, тем больше ее улов.
Добровольные пожертвования и архивы. Поток писем от добровольных поставщиков спама, а также существующие в сети архивы спама.
Обратная связь. Примеры нераспознанного спама от клиентов и бета-тестеров.

Интересно отметить, что спам из разных источников зачастую радикально различается. Это касается как географического, так и «логического» расположения источников — например, поток спама, идущий на бесплатные почтовые сервера наподобие Hotmail (откуда сыплется масса приглашений купить университетский диплом) значительно отличается от потока спама на корпоративных адресах типа info@, куда идет большой поток приглашений на семинары и конференции.

Наши спамоприемники перенаправляют свои потоки на общий вход Лингвистической лаборатории.

В настоящий момент мы получаем несколько тысяч разных спамерских писем в день и постоянно расширяем набор своих источников. В ближайшем будущем, с развитием сети спамоприемников, можно прогнозировать поток в несколько десятков тысяч писем в день.

Как работает Лингвистическая лаборатория

Лингвистическая лаборатория сейчас включает четыре человека (в дальнейшем будет больше), которые непрерывно занимаются анализом спама. Это профессиональные лингвисты, с высшим лингвистическим образованием, с опытом работы в области прикладной лингвистики и искусственного интеллекта. У них есть специальное оснащение (автоматизированные рабочие места — АРМы) для лингвистического анализа и обработки писем.

Вот как они работают:
В Лингвистическую лабораторию поступает входной поток спама из расставленных по миру ловушек для спама. Лингвисты проверяют входной поток модулем фильтрации и отделяют новые письма, то есть не распознанные по текущей базе. Затем они классифицируют это множество писем, пропущенных фильтром — отделяют «нормальные» письма (такие в потоке присланного спама иногда попадаются), затем раскладывают спам по рубрикам.

Категорий спама всего около 500, но из них показываются пользователю всего примерно 20 «верхних» категорий, в том числе «Сходи на сайт», «Для взрослых», «Купи виагру», «Купи софт», «Увеличь то или это», «Горящие путевки», «Посетите семинар», «Обучение английскому», «Заработок в Интернете», «Обеспечь себе финансовую независимость», «Снизь налоги» и т.п.

В первую очередь лингвисты добавляют в базу сигнатуры (образцы) всех нераспознанных писем, чтобы они сразу же начали распознаваться. Это помогает распознаванию «повторных» или слегка модифицированных писем

Затем лингвисты начинают тонкий анализ — выделяют в письмах новые термины, каждому назначают вес и добавляют их в семантические образы. Это подготовка данных для работы другого метода — эвристического анализатора.

Рабочее место (АРМ) позволяет делать все это очень быстро и эффективно — выделил мышкой, перетащил в рубрику, пощелкал по стрелочке — назначил вес. Встроенные в АРМ средства контроля позволяют сразу проверить качество распознавания:

на новых письмах (улучшилось ли)
на эталонной базе спамерских писем (чтобы не было ухудшения)
на эталонной базе обычных писем (чтобы не было ложных срабатываний)

Специальный аналитик (кандидат математических наук) параллельно анализирует формальные признаки (отправители, получатели, путь следования и т.п.) и создает новые правила для распознавания по этим признакам.

К концу дня лингвисты формируют и выкладывают дневное обновление базы.

Как работают ежедневные обновления

Раз в день обновленная база фильтрации — семантические образы, образцы писем и новые формальные правила — выкладывается на сервер обновлений.

Сервер Spamtest скачивает эти обновления и начинает распознавать самые свежие спамерские письма, как за счет новых семантических правил, так и по внесенным в образцы письмам.

Нужно заметить, что ежедневные обновления чрезвычайно важны по трем причинам:

Высокая подвижность лексикона спамеров. Хотя цели спамеров практически неизменны — они хотят что-то продать пользователю, заманив его на сайт или заставив ответить по электронной почте, применяемые ими выражения постоянно меняются, просто потому, что спамеры свободно пользуются родным языком.
По нашему опыту, качество распознавания спама при использовании старой, «замороженной» базы может снижаться на несколько процентов в неделю, падая от 85%-95% до 40-60% в пределе (этот предел определяется «вечным» спамерским лексиконом и типичными признаками рекламных писем).
Повторяемость писем. Краткосрочная повторяемость спамерских писем довольно велика, она может доходить до 10-15% за месяц. Иногда приходит пять-шесть копий одного и того же письма за неделю. В частности, ярким примером такой повторяемости является печально известный American Language Center. Таким образом, большая часть повторных писем может быть отфильтрована за счет «свежести» базы.
Конечная скорость распространения. Чтобы разослать миллион писем, нужно затратить определенное время. Сама по себе работа почтового сервера, рассылающего сотни тысяч писем, может занять несколько суток. Кроме того, электронная почта — это средство с негарантированным временем доставки. Это означает, что последние спамерские письма из большой «партии» могут доходить до получателя через несколько дней. А, следовательно, при ежедневном обновлении часть клиентов могут успеть получить новую версию базы с сигнатурой нового письма раньше прихода к ним уже этого же письма.

С мая 2003 мы планируем раздавать обновления базы 3-4 раза в день.

Продолжение статьи:
Как работает фильтр Спамтест (сервер фильтрации)

Как это работает

Последние публикации

Отчеты

Разбираем Umbrij — новый инструмент APT-группы ToddyCat для компрометации корпоративной переписки в сервисе Gmail. Целью атак стал токен авторизации OAuth, при помощи которого злоумышленники получали доступ к сервисам Google.

Cloud Atlas атакует госсектор и дипломатические структуры России и Беларуси, применяя ReverseSocks, SSH и Tor для закрепления в зараженных системах и свой новый инструмент PowerCloud.

Разбираем новую кампанию Librarian Likho с массовой рассылкой фишинговых писем и обновленными скриптами. Атаки продолжаются на момент публикации.

Разбираем обновленный бэкдор CoolClient, а также новые инструменты и скрипты, замеченные в кампаниях APT-группы HoneyMyte (aka Mustang Panda и Bronze President), включая три браузерных стилеров.

Как это работает

Как работают спамоприемники

Как работает Лингвистическая лаборатория

Как работают ежедневные обновления

Злой шутник CrystalX RAT — шпион и стилер с функциями prankware

Группа IronHusky обновила MysterySnail для атак на организации в России и Монголии

Финансовые киберугрозы и crimeware в 2025 году

Стилер там, стилер здесь, стилеры везде!

В ритме самбы: экзотический SambaSpy покоряет Италию

Эксперты фиксируют восьмикратный рост мощности DDoS-атак

Анализ PCAP — теперь на VirusTotal

Арест в рамках расследования беспрецедентной DDoS-атаки

Gozi обзавелся буткитом

Нидерланды под DDoS-обстрелом

Последние публикации

Кампания HelloNet — новые вредоносные модули, которые запускаются через систему обновления ViPNet

Ландшафт угроз для систем промышленной автоматизации. Первый квартал 2026 года

Когда недостаточно проверить URL: атака Device Code Phishing через ресурс Microsoft

Armored Likho копает змеиную яму: скрытая кампания с использованием BusySnake Stealer

Отчеты

ToddyCat — ваш скрытый почтовый ассистент. Часть 2

Активность Cloud Atlas во второй половине 2025 года и в начале 2026 года: новые инструменты и вредоносная нагрузка

Librarian Likho масштабирует атаки: анализируем новую кампанию группы

Последние кампании HoneyMyte: обновленный бэкдор CoolClient и несколько вариантов стилера

Подпишитесь на еженедельную рассылку