Неожиданный эффект от борьбы со спамом

Технология CAPTCHA, созданная для борьбы со спамом, успешно используется для распознавания трудночитаемых текстов.

Идея проста до гениальности: ежедневно по всему миру, по данным журнала Science, около 100 млн. пользователей, желающих получить доступ на нужный им сайт, для подтверждения своей «человеческой» натуры вводят в специальное окошко набор символов, изображенных в виде трудночитаемой картинки. Американские специалисты из университета Карнеги-Мелон решили использовать этот факт для решения проблемы расшифровки старинных и плохо распознаваемых текстов. Объем нечитаемых слов в таких документах доходит до 20%.

Для этого была создана система Recaptcha, которая рассылает по сайтам фрагменты сканированного, но не поддающегося распознаванию, текста. Эти кусочки и предлагается расшифровать на входе посетителям подписавшихся на данную услугу сайтов.

В настоящее время число сайтов, участвующих в программе расшифровки архивных данных, достигло 40 тысяч, а их пользователи ежедневно присылают около 4 млн ответов. В прошлом году благодаря новой системе удалось расшифровать 440 млн. слов, что позволило перевести в цифровой формат архив газеты New York Times за последние 100 лет.

Источник: bbc.co.uk

Публикации на схожие темы

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *