Спам – явление интернациональное. В наши фильтры попадают незапрошенные письма, написанные на самых разных языках, с использованием самых разных письменных систем. Встречается и арабская вязь, и индийское слоговое письмо, и корейские, китайские, японские иероглифы…
В некоторых аспектах спамеры всего мира похожи друг на друга, но в то же время у рассылок из определенной страны есть свои особенности, которые интересно обнаружить и изучить. В последнее время я плотно работала с незапрошенными письмами на китайском языке и обнаружила три приема, характерных для этого спама.
Небольшое отступление: каждый иероглиф в китайской письменности обозначает один слог. В отличие от буквенных письменностей, здесь нельзя вычленить элемент, который обозначал бы звук “a” и элемент, который обозначает звук “b”. Китайский иероглиф соответствует слогу “ba” целиком и может не иметь ничего общего с иероглифами, которые соответствуют слогам “ma” или “be”. Более того, в китайском языке значимыми являются не только звуки, но и тоны, с которыми они произносятся, и по-разному интонированный слог “ba” также может записываться разными иероглифами без каких-либо общих элементов.
Но это не значит, что китайский иероглиф монолитен. Все китайские иероглифы состоят из так называемых черт – счетного (хоть и очень большого) количества элементов. Обычно черты не связаны или очень опосредованно связаны со значением и звучанием иероглифа. Но важно – в данном случае, для спамеров – что некоторые из них могут использоваться как самостоятельные иероглифы. Тут мы и подходим к сути первого приема.
Спамеры всех стран периодически пытаются исказить текст так, чтобы его сложнее было отфильтровать спам-фильтром. В этой вечной борьбе им всегда приходится удерживаться на тонкой грани: текст должен быть искажен так, чтобы одурачить спам-фильтр, но при этом не затруднять прочтение написанного. Особенность китайского письма предоставляет возможность сделать это легко и изящно: нужно всего лишь вместо одного иероглифа, состоящего из двух черт, написать два, сотоящих каждый из одной. Спам-фильтр может не соотнести такую фразу с известными ему примерами спама, а читающий по-китайски пользователь соотносит прочитанное с контекстом и понимает, что имелся в виду один иероглиф.
Чаще всего спамеры разделяют на два иероглиф: “税”. Вместо него они пишут последовательно иероглифы “禾” и “兑”.
Китайские спамеры не брезгуют и более интернациональным приемом – намеренным искажением слова в надежде, что спам-фильтр будет пройден, а пользователь поймет смысл написанного из контекста. Для этого они заменяют одну из черт в иероглифе на другую, но похожую на нее. Типичным примером этого приема является часто используемый спамерами иероглиф “裸” – “обнаженный”. Спамеры заменяют его на иероглиф “倮” – совершенно бессмысленный в данном контексте.
Вот примеры фраз, в которых используется этот прием:
- 美女视频主播脱了倮聊 – “чат по вебкамере с красивыми девушками, которые раздеваются и чатятся обнаженными”
- 真人倮聊 – “чат с реальными обнаженными девушками”.
Третий прием мы уже встречали в спаме на русском и английском языках. Авторы тех писем вставляли между значимыми буквами рекламных фраз другие, замусоривающие, написанные блеклым цветом или маленьким шрифтом, чтобы не так бросаться в глаза. Этот прием борется с контентной фильтрацией спам-фильтров, но на привычных нам языках текст всегда становится менее читабельным. Даже если “мусорные” буквы выкрашены в цвет фона, значимый текст в таких письмах получается разреженным, неудобным глазу.
Для письма на китайском языке, написанного с помощью такого же приема, эта проблема стоит гораздо менее остро. Исторически каждый иероглиф был отдельным словом. И сегодня тексты на китайском языке почти всегда пишутся без пробелов. Так что любой текст с равным расстоянием между иероглифами воспринимается нормально. Кроме того, даже если буквы между иероглифами скрыты недостаточно хорошо, они меньше замусоривают для читающего текст, чем “мусорные” буквы среди таких же, но значимых букв в письмах на европейских языках.
Это типичное китайское незапрошенное письмо, в котором описывается “простой и реальный способ заработать” с низким членским взносом, большой прибылью и возможностью в течение нескольких недель стать “боссом”.
А вот, как выглядит то же письмо, если выделить текст:
Как видите, использование замусоривания никак не влияет на читабельность текста, который видит пользователь. Зато существенно повышает шансы письма пройти спам-фильтр, чего и добиваются его авторы.
Китайская грамота на службе у спамеров