El spam y el test de Turing

Con todo lo fastidioso y aburrido que es el correo basura (spam) no deja de tener su aspecto interesante. No en sí mismo, ni en lo que propone, sino en el fenómeno social e intelectual que le rodea.

El spam ha engendrado el software antispam. Y el problema de identificar de manera automática qué es correo “deseado” y qué es “no deseado” implica una serie abierta de consideraciones. Normalmente el truco es identificar palabras. Esto tiene dos inconvenientes: primero, que hay palabras, por ejemplo, de sentido sexual, que pueden ser tratadas con respeto y mesura (con respecto a las grocerías, el spammer la llevará perdida de entrada). Segundo que las mismas palabras pueden variarse de mil modos, ya sea en la tipografía ya en los eufemismos. Si se tratara de decir “carro”, por ejemplo, pueden utilizarse cosas como: “càrrö” o “c.a.r.r.o.”, que parecen lenguajes extranjeros. Y yo te diré lo que es un software para buscar todos los acentos superfluos en varias lenguas… Otras estrategias consisten en escribir cosas como:

**c******
***a*****
****r****
*****r***
******o**

Si de eufemismos se trata, el mensaje no dirá: “lleve su carro al mecánico”, sino que evitará las palabras obvias, y dirá cosas como “su movilidad cambiará si nos visista en el lugar de costumbre”… Es evidente que las mil variaciones del lenguaje hacen casi imposible atrapar toda esta clase de spam.

Eso explica por qué quizá todos hemos recibido mensajes así.

El problema de fondo es determinar, a partir del contenido de un mensaje, (1) si tiene sentido, (2) si es relevante. Las dos cosas son arduas. Lo primero se parece al famoso “test de Turing”: si las respuesta que recibo de algo o alguien son indistinguibles de lo que yo identifico como un ser humano, eso o ese que me envía su respuesta es para todos los efectos capaz de inteligencia humana. Es claro que lo mínimo que debe lograr un spammer decente (si tal cosa existiera) es pasar el test de Turing, porque de otro modo se puede presumir que un mensaje que se identifica como salido automáticamente de un computador tiene ya en eso casi todas las trazas de ser correo basura.

Mas la cosa es compleja, porque quien va a analizar el correo es… otra máquina! Lo cual significa que los usuarios estamos en medio de una batalla: los antispam identificarán los nuevos modos de enmascarar la información y diseñarán nuevas estrategias; los spammers estudiarán esas técnicas y producirán nuevos mensajes diseñados para no ser atrapados por ellas. Estos nuevos mensajes tendrán que tener modos de ser identificados porque no pueden ser simple revoltijo de letras (que además sería lo más fácil de eliminar), y así sucesivamente. En principio es imposible definir a priori un ganador.

Lo que todos podemos ganar –a costa del fastidio de todos, ciertamente– es una mejor y más práctica comprensión de qué significa “tener sentido”: qué es, cómo se construye, para quién existe. Los filósofos del siglo XXI harán cosas interesantes con todo ello. Así que tratemos de recordar este aspecto positivo cuando, ¡horror!, nos llegue la ración de spam de hoy.