Совершенствуем контент-фильтрацию

20 Мар 2009

мин. на чтение

Татьяна Никитина

Авторы

Татьяна Никитина

На проведенной в августе 2008 года первой международной конференции молодых специалистов по проблемам компьютерной безопасности (IT Security Conference for New Generation) была представлена модель контентной фильтрации спама, основанная на его грамматическом анализе. Предложенный метод обладает высокой эффективностью и может быть интегрирован с обычным спам-фильтром.

Основой для проведенного в Пермском государственном университете исследования послужил сравнительный и описательный анализ электронных сообщений, условно разделенных на обычные, сгенерированные (легальные уведомления), короткие, спамовые и молодежные. Анализ позволил выявить как общие, так и обусловленные языковым строем грамматические, лексические и синтаксические особенности спамовых писем.

Исследователи отметили особую роль, которую играет в спаме эмотивная лексика – например, междометия. Кроме того, спамеры склонны употреблять императив (побуждение к действию) и изъявительное наклонение (внушение безусловной осуществимости действия).

Частотность выявленных признаков спама была определена в соответствии с видовыми категориями: реклама, предложения быстрого заработка, фишинг, цепочечные письма, «нигерийские» письма и т.п.

В результате исследований была разработана самообучающаяся программа на основе алгоритма обратного распространения ошибки, которая способна по введенным признакам определить, является ли сообщение спамом. Используемая в ней нейронная сеть работает с десятком основных признаков, набор которых может быть расширен.

Построенная модель контентной фильтрации позволяет отсеять спам с высокой точностью: на контрольной выборке результат оказался достоверным в 95% случаев. При этом, по оценке ее создателей, пропускается 1% спам-сообщений. Число ложных срабатываний составило 4%, причем все они касались сгенерированных писем, которые зачастую сами пользователи расценивают как спам.

Примечание редактора: автор модели Лиана Ермакова была признана лучшим докладчиком на Конференции IT Security Conference for New Generation. Лиана приглашена на должность спам-аналитика в Лабораторию Касперского, где продолжает работать над спектром подобных вопросов.

Совершенствуем контент-фильтрацию

Последние публикации

Отчеты

Разбираем Umbrij — новый инструмент APT-группы ToddyCat для компрометации корпоративной переписки в сервисе Gmail. Целью атак стал токен авторизации OAuth, при помощи которого злоумышленники получали доступ к сервисам Google.

Cloud Atlas атакует госсектор и дипломатические структуры России и Беларуси, применяя ReverseSocks, SSH и Tor для закрепления в зараженных системах и свой новый инструмент PowerCloud.

Разбираем новую кампанию Librarian Likho с массовой рассылкой фишинговых писем и обновленными скриптами. Атаки продолжаются на момент публикации.

Разбираем обновленный бэкдор CoolClient, а также новые инструменты и скрипты, замеченные в кампаниях APT-группы HoneyMyte (aka Mustang Panda и Bronze President), включая три браузерных стилеров.

Совершенствуем контент-фильтрацию

Эксперты фиксируют восьмикратный рост мощности DDoS-атак

Анализ PCAP — теперь на VirusTotal

Арест в рамках расследования беспрецедентной DDoS-атаки

Gozi обзавелся буткитом

Нидерланды под DDoS-обстрелом

Эксперты фиксируют восьмикратный рост мощности DDoS-атак

Анализ PCAP — теперь на VirusTotal

Арест в рамках расследования беспрецедентной DDoS-атаки

Gozi обзавелся буткитом

Нидерланды под DDoS-обстрелом

Последние публикации

Кампания HelloNet — новые вредоносные модули, которые запускаются через систему обновления ViPNet

Ландшафт угроз для систем промышленной автоматизации. Первый квартал 2026 года

Когда недостаточно проверить URL: атака Device Code Phishing через ресурс Microsoft

Armored Likho копает змеиную яму: скрытая кампания с использованием BusySnake Stealer

Отчеты

ToddyCat — ваш скрытый почтовый ассистент. Часть 2

Активность Cloud Atlas во второй половине 2025 года и в начале 2026 года: новые инструменты и вредоносная нагрузка

Librarian Likho масштабирует атаки: анализируем новую кампанию группы

Последние кампании HoneyMyte: обновленный бэкдор CoolClient и несколько вариантов стилера

Подпишитесь на еженедельную рассылку