На проведенной в августе 2008 года первой международной конференции молодых специалистов по проблемам компьютерной безопасности (IT Security Conference for New Generation) была представлена модель контентной фильтрации спама, основанная на его грамматическом анализе. Предложенный метод обладает высокой эффективностью и может быть интегрирован с обычным спам-фильтром.
Основой для проведенного в Пермском государственном университете исследования послужил сравнительный и описательный анализ электронных сообщений, условно разделенных на обычные, сгенерированные (легальные уведомления), короткие, спамовые и молодежные. Анализ позволил выявить как общие, так и обусловленные языковым строем грамматические, лексические и синтаксические особенности спамовых писем.
Исследователи отметили особую роль, которую играет в спаме эмотивная лексика – например, междометия. Кроме того, спамеры склонны употреблять императив (побуждение к действию) и изъявительное наклонение (внушение безусловной осуществимости действия).
Частотность выявленных признаков спама была определена в соответствии с видовыми категориями: реклама, предложения быстрого заработка, фишинг, цепочечные письма, «нигерийские» письма и т.п.
В результате исследований была разработана самообучающаяся программа на основе алгоритма обратного распространения ошибки, которая способна по введенным признакам определить, является ли сообщение спамом. Используемая в ней нейронная сеть работает с десятком основных признаков, набор которых может быть расширен.
Построенная модель контентной фильтрации позволяет отсеять спам с высокой точностью: на контрольной выборке результат оказался достоверным в 95% случаев. При этом, по оценке ее создателей, пропускается 1% спам-сообщений. Число ложных срабатываний составило 4%, причем все они касались сгенерированных писем, которые зачастую сами пользователи расценивают как спам.
Примечание редактора: автор модели Лиана Ермакова была признана лучшим докладчиком на Конференции IT Security Conference for New Generation. Лиана приглашена на должность спам-аналитика в Лабораторию Касперского, где продолжает работать над спектром подобных вопросов.
Совершенствуем контент-фильтрацию