Ulzurrun de Asanza i Sàez

Google compra reCaptcha

Vía Error500 descubro que Google ha comprado reCaptcha, un servicio anti-bots gratuito que consiste en introducir dos palabras a partir de dos imágenes para verificar que el usuario es humano y no es bot.

Sin embargo, lo más característico de reCaptcha es que de las dos palabras que muestra (obviamente las muestra deformadas y borrosas para impedir que un bot pueda leerlas) una de ellas no es creada y convertida en imagen por el sistema, sino que es una imagen de la cual el sistema desconoce el significado. El objetivo de esto es que se logren transformar, por ejemplo, capturas de palabras de libros impresos en cadenas de caracteres que un ordenador pueda interpretar, con lo cual se podría digitalizar un libro en poco tiempo.

Un ejemplo más visual, imaginemos que tenemos un libro que sólo tiene una frase y que vamos a digitalizar con este método, la frase es: “La puerta es de madera“. Bien, el sistema almacenaría el libro de forma similar a esto: palabra1.png palabra2.png palabra3.png palabra4.png palabra5.png. Cuando un usuario se registrase en una página que usase reCaptcha, vería dos palabras, por ejemplo, “mesa” y “de“. Al introducir ambas palabras, el sistema relacionaría palabra4.png con “de“, así que el libro en formato digital sería algo así: imagen1.png imagen2.png imagen3.png de imagen5.png. Al entrar otros 4 usuarios en esta página, se acabaría de digitalizar el libro de forma relativamente fiable.

Está claro que el ejemplo que he puesto es muy simple y que la realidad no es esa, pero el concepto está ahí. El motivo de que Google haya comprado reCaptcha es que está interesado en la digitalización de libros, y reCaptcha le viene como anillo al dedo para agilizar la digitalización. Si Google añadiese este sistema en todos sus servicios haría más rápida la conversión de los libros impresos al formato digital.


2 replies on “Google compra reCaptcha

  1. ¿Ves como si que había algo de digitalizar libros antiguos en el Capcha? xD Yo creo que lo que hacen es que sólo tienen en cuenta si escribes bien la primera palabra, la segunda es simplemente para colaborar en la digitalización. Y que luego entre las respuestas que más coinciden de la palabra digitalizada, pues la escojen y digitalizan el libro completo. :)

  2. Es que eso es lo peculiar de reCaptcha, los demás sistemas para crear Captchas no ayudan a digitalizar libros ni nada por el estilo, se limitan a hacer más complicada la lectura de un texto para evitar bots.

Leave a Reply

Your email address will not be published.

Required fields are marked *

Your avatar