Как это работает

18 Июн 2003

мин. на чтение

GReAT

Авторы

GReAT

Фильтрация спама — это не программа, а технологический процесс, человеко-машинная цепочка. Она состоит из следующих частей:

Источники спама — «спамоприемники»,
Лингвистическая лаборатория,
Ежедневные обновления,
Сервер фильтрации.

Ниже мы подробно описываем, как работает каждое звено этой цепочки

КАК РАБОТАЮТ СПАМОПРИеМНИКИ
КАК РАБОТАЕТ ЛИНГВИСТИЧЕСКАЯ ЛАБОРАТОРИЯ
КАК РАБОТАЮТ ЕЖЕДНЕВНЫЕ ОБНОВЛЕНИЯ
КАК РАБОТАЕТ ФИЛЬТР SPAMTEST
- МЕТОДЫ ФИЛЬТРАЦИИ СПАМА
- КАЧЕСТВО РАБОТЫ И ЛОЖНЫЕ СРАБАТЫВАНИЯ
- БАЗА ФИЛЬТРАЦИИ
- РАБОТА С РАЗНЫМИ ЯЗЫКАМИ
- БИЗНЕС-ЛОГИКА ФИЛЬТРАЦИИ
- ФОРМАТЫ СООБЩЕНИЙ

Как работают спамоприемники

Мы получаем поток спама из самых разных источников, среди которых:

Ловушки. Наши ловушки, расставленные по всему миру, включают зарегистрированные на множестве порносайтов и базах спамеров адреса, ящики бесплатных почт и пр. Чем дольше существует ловушка, тем больше ее улов.
Добровольные пожертвования и архивы. Поток писем от добровольных поставщиков спама, а также существующие в сети архивы спама.
Обратная связь. Примеры нераспознанного спама от клиентов и бета-тестеров.

Интересно отметить, что спам из разных источников зачастую радикально различается. Это касается как географического, так и «логического» расположения источников — например, поток спама, идущий на бесплатные почтовые сервера наподобие Hotmail (откуда сыплется масса приглашений купить университетский диплом) значительно отличается от потока спама на корпоративных адресах типа info@, куда идет большой поток приглашений на семинары и конференции.

Наши спамоприемники перенаправляют свои потоки на общий вход Лингвистической лаборатории.

В настоящий момент мы получаем несколько тысяч разных спамерских писем в день и постоянно расширяем набор своих источников. В ближайшем будущем, с развитием сети спамоприемников, можно прогнозировать поток в несколько десятков тысяч писем в день.

Как работает Лингвистическая лаборатория

Лингвистическая лаборатория сейчас включает четыре человека (в дальнейшем будет больше), которые непрерывно занимаются анализом спама. Это профессиональные лингвисты, с высшим лингвистическим образованием, с опытом работы в области прикладной лингвистики и искусственного интеллекта. У них есть специальное оснащение (автоматизированные рабочие места — АРМы) для лингвистического анализа и обработки писем.

Вот как они работают:
В Лингвистическую лабораторию поступает входной поток спама из расставленных по миру ловушек для спама. Лингвисты проверяют входной поток модулем фильтрации и отделяют новые письма, то есть не распознанные по текущей базе. Затем они классифицируют это множество писем, пропущенных фильтром — отделяют «нормальные» письма (такие в потоке присланного спама иногда попадаются), затем раскладывают спам по рубрикам.

Категорий спама всего около 500, но из них показываются пользователю всего примерно 20 «верхних» категорий, в том числе «Сходи на сайт», «Для взрослых», «Купи виагру», «Купи софт», «Увеличь то или это», «Горящие путевки», «Посетите семинар», «Обучение английскому», «Заработок в Интернете», «Обеспечь себе финансовую независимость», «Снизь налоги» и т.п.

В первую очередь лингвисты добавляют в базу сигнатуры (образцы) всех нераспознанных писем, чтобы они сразу же начали распознаваться. Это помогает распознаванию «повторных» или слегка модифицированных писем

Затем лингвисты начинают тонкий анализ — выделяют в письмах новые термины, каждому назначают вес и добавляют их в семантические образы. Это подготовка данных для работы другого метода — эвристического анализатора.

Рабочее место (АРМ) позволяет делать все это очень быстро и эффективно — выделил мышкой, перетащил в рубрику, пощелкал по стрелочке — назначил вес. Встроенные в АРМ средства контроля позволяют сразу проверить качество распознавания:

на новых письмах (улучшилось ли)
на эталонной базе спамерских писем (чтобы не было ухудшения)
на эталонной базе обычных писем (чтобы не было ложных срабатываний)

Специальный аналитик (кандидат математических наук) параллельно анализирует формальные признаки (отправители, получатели, путь следования и т.п.) и создает новые правила для распознавания по этим признакам.

К концу дня лингвисты формируют и выкладывают дневное обновление базы.

Как работают ежедневные обновления

Раз в день обновленная база фильтрации — семантические образы, образцы писем и новые формальные правила — выкладывается на сервер обновлений.

Сервер Spamtest скачивает эти обновления и начинает распознавать самые свежие спамерские письма, как за счет новых семантических правил, так и по внесенным в образцы письмам.

Нужно заметить, что ежедневные обновления чрезвычайно важны по трем причинам:

Высокая подвижность лексикона спамеров. Хотя цели спамеров практически неизменны — они хотят что-то продать пользователю, заманив его на сайт или заставив ответить по электронной почте, применяемые ими выражения постоянно меняются, просто потому, что спамеры свободно пользуются родным языком.
По нашему опыту, качество распознавания спама при использовании старой, «замороженной» базы может снижаться на несколько процентов в неделю, падая от 85%-95% до 40-60% в пределе (этот предел определяется «вечным» спамерским лексиконом и типичными признаками рекламных писем).
Повторяемость писем. Краткосрочная повторяемость спамерских писем довольно велика, она может доходить до 10-15% за месяц. Иногда приходит пять-шесть копий одного и того же письма за неделю. В частности, ярким примером такой повторяемости является печально известный American Language Center. Таким образом, большая часть повторных писем может быть отфильтрована за счет «свежести» базы.
Конечная скорость распространения. Чтобы разослать миллион писем, нужно затратить определенное время. Сама по себе работа почтового сервера, рассылающего сотни тысяч писем, может занять несколько суток. Кроме того, электронная почта — это средство с негарантированным временем доставки. Это означает, что последние спамерские письма из большой «партии» могут доходить до получателя через несколько дней. А, следовательно, при ежедневном обновлении часть клиентов могут успеть получить новую версию базы с сигнатурой нового письма раньше прихода к ним уже этого же письма.

С мая 2003 мы планируем раздавать обновления базы 3-4 раза в день.

Продолжение статьи:
Как работает фильтр Спамтест (сервер фильтрации)

Как это работает

Последние публикации

Отчеты

Разбираем новую кампанию Librarian Likho с массовой рассылкой фишинговых писем и обновленными скриптами. Атаки продолжаются на момент публикации.

Разбираем обновленный бэкдор CoolClient, а также новые инструменты и скрипты, замеченные в кампаниях APT-группы HoneyMyte (aka Mustang Panda и Bronze President), включая три браузерных стилеров.

Эксперт «Лаборатории Касперского» описывает новые вредоносные инструменты, применяемые APT-группой Cloud Atlas, включая импланты бэкдоров VBShower, VBCloud, PowerShower и CloudAtlas.

Эксперты GReAT «Лаборатории Касперского» обнаружили новую волну кибератак APT-группы «Форумный тролль», нацеленную на российских ученых-политологов, доставляющую на устройства фреймворк Tuoni.

Как это работает

Как работают спамоприемники

Как работает Лингвистическая лаборатория

Как работают ежедневные обновления

Злой шутник CrystalX RAT — шпион и стилер с функциями prankware

Группа IronHusky обновила MysterySnail для атак на организации в России и Монголии

Финансовые киберугрозы и crimeware в 2025 году

Стилер там, стилер здесь, стилеры везде!

В ритме самбы: экзотический SambaSpy покоряет Италию

Эксперты фиксируют восьмикратный рост мощности DDoS-атак

Анализ PCAP — теперь на VirusTotal

Арест в рамках расследования беспрецедентной DDoS-атаки

Gozi обзавелся буткитом

Нидерланды под DDoS-обстрелом

Последние публикации

Coruna: фреймворк из «Операции Триангуляция»

Кампания Head Mare с бэкдором PhantomPxPigeon и зараженными установочными файлами ПО TrueConf

Вас посетил вымогатель Лабубу: Toy Ghouls шифруют данные российских компаний

Эксплойты и уязвимости в четвертом квартале 2025 года

Отчеты

Librarian Likho масштабирует атаки: анализируем новую кампанию группы

Последние кампании HoneyMyte: обновленный бэкдор CoolClient и несколько вариантов стилера

Активность Cloud Atlas в первой половине 2025 года: что изменилось

Продолжение операции «Форумный тролль»: российских политологов атакуют при помощи отчетов о плагиате

Подпишитесь на еженедельную рассылку