Архив новостей

Как это работает

Фильтрация спама — это не программа, а технологический процесс, человеко-машинная цепочка. Она состоит из следующих частей:

  • Источники спама — «спамоприемники»,
  • Лингвистическая лаборатория,
  • Ежедневные обновления,
  • Сервер фильтрации.

Ниже мы подробно описываем, как работает каждое звено этой цепочки

Как работают спамоприемники 

Мы получаем поток спама из самых разных источников, среди которых:

  • Ловушки. Наши ловушки, расставленные по всему миру, включают зарегистрированные на множестве порносайтов и базах спамеров адреса, ящики бесплатных почт и пр. Чем дольше существует ловушка, тем больше ее улов.
  • Добровольные пожертвования и архивы. Поток писем от добровольных поставщиков спама, а также существующие в сети архивы спама.
  • Обратная связь. Примеры нераспознанного спама от клиентов и бета-тестеров.

Интересно отметить, что спам из разных источников зачастую радикально различается. Это касается как географического, так и «логического» расположения источников — например, поток спама, идущий на бесплатные почтовые сервера наподобие Hotmail (откуда сыплется масса приглашений купить университетский диплом) значительно отличается от потока спама на корпоративных адресах типа info@, куда идет большой поток приглашений на семинары и конференции.

Наши спамоприемники перенаправляют свои потоки на общий вход Лингвистической лаборатории.

В настоящий момент мы получаем несколько тысяч разных спамерских писем в день и постоянно расширяем набор своих источников. В ближайшем будущем, с развитием сети спамоприемников, можно прогнозировать поток в несколько десятков тысяч писем в день.

Как работает Лингвистическая лаборатория 

Лингвистическая лаборатория сейчас включает четыре человека (в дальнейшем будет больше), которые непрерывно занимаются анализом спама. Это профессиональные лингвисты, с высшим лингвистическим образованием, с опытом работы в области прикладной лингвистики и искусственного интеллекта. У них есть специальное оснащение (автоматизированные рабочие места — АРМы) для лингвистического анализа и обработки писем.

Вот как они работают:
В Лингвистическую лабораторию поступает входной поток спама из расставленных по миру ловушек для спама. Лингвисты проверяют входной поток модулем фильтрации и отделяют новые письма, то есть не распознанные по текущей базе. Затем они классифицируют это множество писем, пропущенных фильтром — отделяют «нормальные» письма (такие в потоке присланного спама иногда попадаются), затем раскладывают спам по рубрикам.

Категорий спама всего около 500, но из них показываются пользователю всего примерно 20 «верхних» категорий, в том числе «Сходи на сайт», «Для взрослых», «Купи виагру», «Купи софт», «Увеличь то или это», «Горящие путевки», «Посетите семинар», «Обучение английскому», «Заработок в Интернете», «Обеспечь себе финансовую независимость», «Снизь налоги» и т.п.

В первую очередь лингвисты добавляют в базу сигнатуры (образцы) всех нераспознанных писем, чтобы они сразу же начали распознаваться. Это помогает распознаванию «повторных» или слегка модифицированных писем

Затем лингвисты начинают тонкий анализ — выделяют в письмах новые термины, каждому назначают вес и добавляют их в семантические образы. Это подготовка данных для работы другого метода — эвристического анализатора.

Рабочее место (АРМ) позволяет делать все это очень быстро и эффективно — выделил мышкой, перетащил в рубрику, пощелкал по стрелочке — назначил вес. Встроенные в АРМ средства контроля позволяют сразу проверить качество распознавания:

  • на новых письмах (улучшилось ли)
  • на эталонной базе спамерских писем (чтобы не было ухудшения)
  • на эталонной базе обычных писем (чтобы не было ложных срабатываний)

Специальный аналитик (кандидат математических наук) параллельно анализирует формальные признаки (отправители, получатели, путь следования и т.п.) и создает новые правила для распознавания по этим признакам.

К концу дня лингвисты формируют и выкладывают дневное обновление базы.

Как работают ежедневные обновления 

Раз в день обновленная база фильтрации — семантические образы, образцы писем и новые формальные правила — выкладывается на сервер обновлений.

Сервер Spamtest скачивает эти обновления и начинает распознавать самые свежие спамерские письма, как за счет новых семантических правил, так и по внесенным в образцы письмам.

Нужно заметить, что ежедневные обновления чрезвычайно важны по трем причинам:

  • Высокая подвижность лексикона спамеров. Хотя цели спамеров практически неизменны — они хотят что-то продать пользователю, заманив его на сайт или заставив ответить по электронной почте, применяемые ими выражения постоянно меняются, просто потому, что спамеры свободно пользуются родным языком.
    По нашему опыту, качество распознавания спама при использовании старой, «замороженной» базы может снижаться на несколько процентов в неделю, падая от 85%-95% до 40-60% в пределе (этот предел определяется «вечным» спамерским лексиконом и типичными признаками рекламных писем).
  • Повторяемость писем. Краткосрочная повторяемость спамерских писем довольно велика, она может доходить до 10-15% за месяц. Иногда приходит пять-шесть копий одного и того же письма за неделю. В частности, ярким примером такой повторяемости является печально известный American Language Center. Таким образом, большая часть повторных писем может быть отфильтрована за счет «свежести» базы.
  • Конечная скорость распространения. Чтобы разослать миллион писем, нужно затратить определенное время. Сама по себе работа почтового сервера, рассылающего сотни тысяч писем, может занять несколько суток. Кроме того, электронная почта — это средство с негарантированным временем доставки. Это означает, что последние спамерские письма из большой «партии» могут доходить до получателя через несколько дней. А, следовательно, при ежедневном обновлении часть клиентов могут успеть получить новую версию базы с сигнатурой нового письма раньше прихода к ним уже этого же письма.

С мая 2003 мы планируем раздавать обновления базы 3-4 раза в день.

Продолжение статьи:
Как работает фильтр Спамтест (сервер фильтрации)

© ЗАО «Ашманов и Партнеры», 2003

Как это работает

Ваш e-mail не будет опубликован. Обязательные поля помечены *

 

Отчеты

MoonBounce: скрытая угроза в UEFI

В конце 2021 года мы обнаружили прошивку UEFI, в которую был внедрен вредоносный код, названный нами MoonBounce. В данном отчете мы подробно опишем принцип действия импланта MoonBounce и его связь с APT41.

MosaicRegressor: угроза в недрах UEFI

Мы обнаружили скомпрометированный образ прошивки UEFI, содержащий вредоносный имплант для установки дополнительного вредоносного ПО на компьютеры жертв. Насколько мы знаем, это второй общеизвестный случай обнаружения активного заражения в прошивке UEFI.

Подпишитесь на еженедельную рассылку

Самая актуальная аналитика – в вашем почтовом ящике