Мнение

Нажимать на кнопки != тестировать

Две недели назад мы с удивлением обнаружили, что в онлайновом американском издании популярного журнала CIO опубликован весьма странный тест.
Странность его заключалась не только в результатах, но и в том, что такой тест получил освещение на столь известном и уважаемом ресурсе.

Как это всегда бывает, за публикацией последовали и множественные вопросы к нам, со стороны клиентов, партнеров и средств массовой информации. Эта ситуация заставляет нас еще раз привлечь внимание к проблеме «любительских тестов».

Тест, результаты которого были опубликованы, вызывает у нас массу серьезных возражений в плане методологии его проведения и трактовки результатов. К сожалению, необходимо заметить что тесты, аналогичные проведенному, встречаются регулярно и проводятся людьми, которые не обладают соответствующими знаниями. Не каждый человек, который умеет запускать антивирусную программу — может на этом основании считать себя тестером. Еще более печален тот факт, что для публикации результатов теста была предоставлена площадь в весьма авторитетном и уважаемом издании. Ранее подобные тесты не выходили за пределы персональных блогов.

Наши возражения будут основываться исключительно на методике данного теста и подкреплены сложившейся практикой. Эта практика нашла свое освещение в методологиях уже выработанных организацией AMTSO, объединяющей все крупнейшие антивирусные компании мира, в том числе и Лабораторию Касперского.

Сама суть создания AMTSO — выработка методологий, которые могут быть использованы любой организацией или человеком, для проведения собственных независимых тестов. Поэтому нам бы хотелось, чтобы результаты совместной работы представителей антивирусной индустрии, отраженные в этих методиках, были востребованы и применялись в подобных случаях. Это — то что касается наших предложений о том, как могут проводиться тесты.

Если же говорить о конкретных претензиях к опубликованному тесту, то мы заострим внимание на нескольких наиболее важных пунктах:

1. Состав и источники вирусной коллекции в тесте. Мы крайне внимательно ознакомились с текстом статьи и не нашли ни ЕДИНОГО слова, обьясняющего происхождение коллекции. Единственная ремарка гласит ‘All of the malware has been, or currently is, in the wild’. Каким образом автор теста получил это значение — 36 438 вредоносных программ — совершенно непонятно. Это число значительно превышает количество вирусов в списке Wildlist, на основе которого проводятся авторитетные тесты Virus Bulletin. С другой стороны — эти цифры значительно расходятся (в меньшую сторону) с тем количеством вирусов, на котором проводят тесты лаборатории Av-Test, AV-Comparatives. Эти цифры также отличаются от цифр ряда антивирусных компаний, имеющих собственную статистику. Например, согласно нашим данным за январь 2009 года это число составляло 46014 (In total, 46014 unique malicious, advertising, and potentially unwanted programs were detected on users’ computers in January). Собрать подобную коллекцию активных вредоносных программ — не прибегая к помощи антивирусных компаний или не обладая собственными мощными система сбора новых вирусов (сеть honeypot) — невозможно!

С нашей точки зрения, отсутствие информации об источнике коллекции — свидетельствует против данного теста.

Еще более важным является состав коллекции! Наш опыт показывает, что зачастую в коллекциях имеется значительное количество ‘битых’, неработоспособных файлов, либо просто ложных срабатываний. Не обладая знаниями вирусного аналитика — тестер не в состоянии определить качественный состав коллекции и удалить оттуда ненужные файлы. Таким образом со 100% вероятностью мы можем утверждать, что в тестовом наборе присутствуют файлы, которые не могут и не должны детектироваться антивирусами. Кроме того, несомненно в составе коллекции могли быть файлы рекламных программ (adware). Для их детектирования ряд вендоров (точнее это практически стандарт де-факто), используют расширенные настройки, а не настройки по умолчанию.

2. ‘Sun Virtual Box virtual machine’. Использование виртуальных, а не реальных машин — является грубейшим нарушением чистоты теста и не признается антивирусными компаниями. Дело в том, что целый ряд технологий, в целом ряде антивирусных продуктов, на виртуальных системах либо просто не работают — либо ведут себя по-другому, не так как в реальных условиях. Очевидно, что именно это и стало причиной ‘проблем’ с работоспособностью ряда продуктов, о чем написал автор.

3. Отсутствие информации о том, с какими настройками проводился тест. Были ли это настройки по умолчанию, либо какие-то изменения вносились ? Это может весьма значительно влиять на результаты. Отсутствие информации о том, что все антивирусы были обновлены на момент теста (загружены актуальные антивирусные базы). Возможно, что для ряда продуктов использовался набор баз, поставляемый вместе с дистрибутивом — что порой может достигать нескольких месяцев разницы с актуальным продуктом. Отсутствие информации о том, какие конкретно версии продуктов (и какие продукты) использовались в тесте.

4. Результаты теста вызывают недоумение. Для некоторых продуктов указано время сканирования (пример Arcabit: The scanner was screaming fast, taking only 27 minutes and 34 seconds to evaluate all the files in the malware folder.) — для некоторых такая информация отсутствует полностью, для других приведенные данные крайне расплывчаты (Avira Infections found: 35,846 Comments: Took about 2 hours to plow through all the test data which ranks it as average in speed.) Подобный подход к освещению результатов теста свидетельствует об отсутствии методологии в целом.

5. Запуск некоторых продуктов два и более раз и получение постоянно разных результатов — пример Avast (2 запуска) или AVG (4). Подобный подход абсолютно неприменим! Мне кажется тут даже нечего особо объяснять.

6. Отсутствие теста на ложные срабатывания. Ни один результат не может быть рассмотрен без сравнения с другой стороной медали — ложными срабатываниями на чистые файлы. Этот показатель уже давно стал не менее важен чем уровень детектирования, а для ряда клиентов и компаний — более важным. Антивирусные компании тратят значительные ресурсы (человеческие и финансовые) на борьбу с ложными срабатываниями, создают сложнейшие системы allowlisting и т.д. Отсутствие такого теста равноценно признанию победителем простейшей программы, детектирующей все исполняемые файлы — независимо от того являются ли они чистыми или нет.

Мы перечислили только наиболее вопиющие ошибки допущенные автором теста. Несомненно их можно было бы избежать, если бы использовалась общедоступная методика, принятая большинством антивирусных компаний — или даже если бы автор удосужился ознакомиться более внимательно с тестами, проводимыми другими организациями и их методологиями. Нам крайне прискорбно видеть, что столь дилетантское тестирование получило освещение в популярном издании и нам теперь приходится тратить массу своего времени на объяснение совершенных автором ошибок.

Нажимать на кнопки != тестировать

Ваш e-mail не будет опубликован. Обязательные поля помечены *

 

Отчеты

StripedFly: двуликий и незаметный

Разбираем фреймворк StripedFly для целевых атак, использовавший собственную версию эксплойта EternalBlue и успешно прикрывавшийся майнером.

Азиатские APT-группировки: тактики, техники и процедуры

Делимся с сообществом подходами, которые используют азиатские APT-группировки при взломе инфраструктуры, и подробной информацией о тактиках, техниках и процедурах (TTPs) злоумышленников, основанной на методологии MITRE ATT&CK.

Как поймать «Триангуляцию»

Эксперты «Лаборатории Касперского» смогли получить все этапы «Операции Триангуляция»: эксплойты нулевого дня для iOS, валидаторы, имплант TriangleDB и дополнительные модули.

Подпишитесь на еженедельную рассылку

Самая актуальная аналитика – в вашем почтовом ящике