IBM использует технологию, разработанную для анализа последовательностей ДНК и белковых молекул, для выявления спамовых писем. Технология фильтрации Chung-Kwei способна идентифицировать 97% спамова при уровне ложных срабатываний всего лишь 0,016%.
Chung-Kwei основана на алгоритме Teiresias, разработанном специалистами по биоинформатике исследовательского центра корпорации IBM для анализа структуры ДНК и белковых молекул и выявления в них повторяющихся последовательностей нуклеотидов и аминокислот.
Этот же алгоритм был использован для анализа содержания 65 тысяч спамовых писем, только вместо последовательности нуклеотидов анализировались алфавитно-цифровые последовательности текстов писем. В результате исследователи получили 6 миллионов характерных повторов, встречающихся более чем в одном письме.
Аналогичным образом была обработана последовательность писем, не относящихся к спаму. Повторы, обнаруженные в обеих группах писем, были исключены из списка.
После этого с помощью нового алгоритма была проанализирована входящая электронная почта. Каждому письму присваивался индекс, величина которого зависела от числа выявленных в нем «спамовых» повторов. Chung-Kwei корректно идентифицировал 64665 спамовых писем из 66697, что составляет 96,56%. Не менее важное достоинство нового алгоритма — число ложных срабатываний. Из 6000 «хороших» писем лишь 1 было ошибочно отнесено к спаму.
Chung-Kwei успешно справится и с такими приемами спамеров, как удвоение букв, замена символов одного алфавита другим или букв на цифры и служебные знаки.
IBM намерена включить Chung-Kwei в свой новый коммерческий продукт SpamGuru.
Источник: New Scientist
В борьбе со спамом будут использовать достижения биотехнологии