captcha | Lluís Ulzurrun de Asanza i Sàez blog

General

Google compra reCaptcha

This post was published 14 years ago so it may be outdated.

Vía Error500 descubro que Google ha comprado reCaptcha, un servicio anti-bots gratuito que consiste en introducir dos palabras a partir de dos imágenes para verificar que el usuario es humano y no es bot.

Sin embargo, lo más característico de reCaptcha es que de las dos palabras que muestra (obviamente las muestra deformadas y borrosas para impedir que un bot pueda leerlas) una de ellas no es creada y convertida en imagen por el sistema, sino que es una imagen de la cual el sistema desconoce el significado. El objetivo de esto es que se logren transformar, por ejemplo, capturas de palabras de libros impresos en cadenas de caracteres que un ordenador pueda interpretar, con lo cual se podría digitalizar un libro en poco tiempo.

Un ejemplo más visual, imaginemos que tenemos un libro que sólo tiene una frase y que vamos a digitalizar con este método, la frase es: “La puerta es de madera“. Bien, el sistema almacenaría el libro de forma similar a esto: palabra1.png palabra2.png palabra3.png palabra4.png palabra5.png. Cuando un usuario se registrase en una página que usase reCaptcha, vería dos palabras, por ejemplo, “mesa” y “de“. Al introducir ambas palabras, el sistema relacionaría palabra4.png con “de“, así que el libro en formato digital sería algo así: imagen1.png imagen2.png imagen3.png de imagen5.png. Al entrar otros 4 usuarios en esta página, se acabaría de digitalizar el libro de forma relativamente fiable.

Está claro que el ejemplo que he puesto es muy simple y que la realidad no es esa, pero el concepto está ahí. El motivo de que Google haya comprado reCaptcha es que está interesado en la digitalización de libros, y reCaptcha le viene como anillo al dedo para agilizar la digitalización. Si Google añadiese este sistema en todos sus servicios haría más rápida la conversión de los libros impresos al formato digital.