Технология CAPTCHA, созданная для борьбы со спамом, успешно используется для распознавания трудночитаемых текстов.
Идея проста до гениальности: ежедневно по всему миру, по данным журнала Science, около 100 млн. пользователей, желающих получить доступ на нужный им сайт, для подтверждения своей «человеческой» натуры вводят в специальное окошко набор символов, изображенных в виде трудночитаемой картинки. Американские специалисты из университета Карнеги-Мелон решили использовать этот факт для решения проблемы расшифровки старинных и плохо распознаваемых текстов. Объем нечитаемых слов в таких документах доходит до 20%.
Для этого была создана система Recaptcha, которая рассылает по сайтам фрагменты сканированного, но не поддающегося распознаванию, текста. Эти кусочки и предлагается расшифровать на входе посетителям подписавшихся на данную услугу сайтов.
В настоящее время число сайтов, участвующих в программе расшифровки архивных данных, достигло 40 тысяч, а их пользователи ежедневно присылают около 4 млн ответов. В прошлом году благодаря новой системе удалось расшифровать 440 млн. слов, что позволило перевести в цифровой формат архив газеты New York Times за последние 100 лет.
Источник: bbc.co.uk
Неожиданный эффект от борьбы со спамом