DATA #001. Data, segmentación y privacidad, ¿dónde está el límite?

Apr 05, 2020

Hay una fina línea que separa la recogida de datos de la privacidad y en este post hablaremos de las verdades verdaderas que giran en torno a este tema.

La coyuntura ha abierto un debate interesantísimo sobre las implicaciones de compartir datos con nuestros gobiernos y las consecuencias que esto podría acarrear, principalmente se mira desde el prisma de la privacidad o la falta de la misma. Por daros un poco más de contexto, se plantea que los gobiernos de nuestros países tengan acceso a los datos de ubicación en nuestros smartphones con el fin de intentar contener la pandemia.

En España, en concreto, se ha aprobado un real decreto contenido en la disposición 4162 del BOE[1] en el que se asigna al Ministerio de Asuntos Económicos y Transformación Digital la responsabilidad de crear una app que permita a sus usuarios hacer un seguimiento del COVID con información fiable, a la vez que "hacerse autoevaluaciones".

Una de los principales características de la app es que permitirá que se obtengan datos de geolocalización.

Podríamos considerar que es una medida necesaria teniendo en cuenta la situación, pero, qué consecuencias podría acarrear esta medida en lo que conocemos actualmente como privado?

Tengo que reconocer que yo también me lo he estado planteando, por eso os quiero compartir mi visión sobre las limitaciones que existen a la hora de recopilar, analizar y unir los puntos de información para entender verdaderamente qué se puede hacer en la actualidad con nuestros datos y hasta dónde se puede llegar a “conocer” a una persona en base a los datos que tenemos de ella.

Empezamos.

Sabíais que en 2018 el 96% de las búsquedas realizadas online se hacían a través de Google[2]?

No hay duda sobre la cantidad de información que pueden recopilar y es que, si le das una vuelta, probablemente hoy te has pasado por Google más de una y más de dos veces a buscar algo. Lo has hecho tú, yo, nuestra familia, amigos y posiblemente todas las personas con una conexión a internet.

Ahora bien, aunque las búsquedas, en sí, representan su principal fuente de información, el tema no para ahí. Google es una empresa tecnológica que pone al alcance de sus usuarios una amplia variedad de plataformas que se pueden usar gratuitamente (Youtube, Google Maps, Google Calendar, Google Sheets, Google Slides, Google Drive…entre otras) y a la vez, pone a disposición de otras empresas todo el stack o cúmulo de herramientas necesarias para activar sus estrategias de publicidad online.

El tema no termina aquí tampoco, ya que, cuentan con otra amplia variedad de productos que les permite obtener información y asociarla a tu perfil de usuario incluso si no hay un ordenador o smartphone de por medio.

Hay dos ejemplos perfectos para este caso:

Nest: te permite convertir tu casa en una “smart home”. Es un producto ideado para simplificar la domótica que se compone de distintas piezas y todas van interconectadas con tu cuenta de Google.

Chromecast: te permite hacer tu TV inteligente. Igual que en el caso anterior, la sesión se inicia con tu cuenta de Google.

De un vistazo, estos serían los principales productos propiedad de Google[2] con los cuales pueden recoger información:

Por ponerlo de forma clara: todas nuestras interacciones con estas plataformas y con todas las que forman parte del listado de productos de Google se van almacenando de forma continua en sus servidores.

Los distintos puntos de información se van uniendo a través de identificadores únicos asociados a nuestra navegación, a veces en forma de cookies, otras veces en formas de identificadores de usuarios y la gran mayoría de veces, basados en una pieza clave: nuestro email.

Cabe recalcar que aunque en este post nos estamos centrando en Google, lo comentado previamente se puede extrapolar a otras empresas como Facebook y Amazon.

Dicho esto y con todo este contexto, nos podemos adentrar en el terreno de las verdades verdaderas.

Verdad verdadera #1:

Gratuito no significa sin contra-prestación.

En este sentido, como hemos comentado previamente los productos que estas empresas ponen a disposición de los usuarios suelen ser en su mayoría gratuitos, pero no son como cualquier producto gratuito, están desarrollados para aportar un valor diferencial.

Ese es el principal motivo por el que cada vez que utilizamos estas plataformas se realiza un intercambio, en este caso cedemos información sobre nuestra navegación, nuestras búsquedas, pero probablemente también estamos cediendo nuestra privacidad.

Hay una frase clave para verle sentido a toda esta situación: "data is the new oil". Y la realidad es que en los últimos años la economía del dato ha pasado a jugar un papel fundamental en el día a día de muchas empresas, convirtiéndose en la base para su toma de decisiones, análisis, automatismos, entre otros.

Básicamente, podríamos decir que cedemos nuestros datos a cambio de usar plataformas muy bien pensadas y a la vez Google, Facebook y Amazon utilizan esos datos para generar publicidad hiper-segmentada.

Con ello consiguen no solo costear los desarrollos de las plataformas que usamos, sino también generar beneficios para su empresa. A grandes rasgos podríamos afirmar que es un win-win para ambas partes, aunque a escalas muy diferentes, claro está.

Verdad verdadera #2:

La publicidad online es una de las principales fuentes de ingresos de Google[3].

Cerca del 83,3% de sus ingresos en 2019 provenía de publicidad online. Adicionalmente, la publicidad es uno de los fundamentos de la estrategia digital de muchísimas empresas (son pocas y en sectores concretos las que a día de hoy no hacen marketing online).

Una vez que hemos interiorizado esta idea podemos plantearnos dos preguntas:

Prefiero que se utilicen mis datos para que esa publicidad que me enseñan esté alineada con mis gustos e intereses?
Prefiero capar el acceso a mis datos y que la publicidad que veo sea completamente aleatoria?

Verdad verdadera #3:

Tú decides cuánto compartes.

Uno de los grandes cambios en términos de privacidad que ha vivido nuestra sociedad es la entrada en vigor de GDPR. Un reglamento establecido a nivel europeo que pretende vigilar muy de cerca a las empresas para garantizar que la privacidad de los usuarios se respete.

Aunque desde hace años se trabaja en esta línea, este es uno de los motivos por los que hoy tenemos la posibilidad de desactivar total o parcialmente la recolecta de datos a través de la configuración de privacidad de Google o de los sitios web por los que navegamos. Si queréis más información sobre cómo gestionar vuestra privacidad, lo trataremos más en detalle en otro post.

Sobra decir que es una decisión totalmente personal, ahora bien, conviene hacerlo? Mi opinión es que no y aquí os expongo el porqué:

La recogida de datos tiene un argumento muy potente: recoger el máximo de información útil sobre los usuarios que navegan por la web para que el contenido, las experiencias y la publicidad que se les enseña esté tan personalizada a sus gustos como sea posible.

No solo esto, sino que a través de esa cesión de datos y de la publicidad segmentada, conseguimos acceder a plataformas que nos aportan gran valor en el día a día.

Sin ir muy lejos, este post está redactado en Google Docs, todas mis presentaciones las hago en formato compartido a través de Google Slides y muchas de mis calls las realizo a través de Hangouts.

¿Explotan mis datos? Sí. ¿Obtengo un beneficio a cambio? También. Puedo estar dando vía libre a mi privacidad? posiblemente si, pero considero que la clave de esta relación pivota en torno a tres conceptos: consentimiento, libertad de decisión e información.

Verdad verdadera #4:

Información no significa conocimiento

Si queréis que quedaros con una idea de este post, por favor quedaros con esta. Aunque empresas como Google, Facebook, Amazon y también todas las demás empresas que han iniciado su camino de transformación digital para convertirse en data-driven recogen información sobre nosotros, esto dista, y muchísimo, de que puedan conocernos.

Y probablemente, llegados a este punto, estaréis pensando que con la cantidad de información que se recoge, podrían llegar a saber más sobre nosotros que nosotros mismos. Pero la realidad es otra, es aquí donde empiezan las limitaciones.

En 2020, una persona cuenta con una media de 6,67 dispositivos conectados[4] (móviles, tablets, ordenadores, TVs, entre otros).

Además, solemos tener una media de 2 emails[5]: uno personal y otro destinado a temas relacionados con trabajo.

Esto, sumado a la cantidad de datos intercambiados cada día hace que unir los puntos de datos sea de todo menos una tarea sencilla.

Os lo planteo de la siguiente forma: en un escenario ideal, para conseguir que todas y cada una de las interacciones fuesen atribuibles de forma determinista y 100% fiable a cada "dueño" se necesitaría que los usuarios tuvieran un identificador único disponible en todas y cada una de sus acciones online.

La realidad es que ese identificador único y universal, al menos a día de hoy, no existe. Lo más cercano podría ser el email, pero aún así sigue sin ser un método 100% fiable. Vamos a verlo con un ejemplo:

Un usuario realiza búsquedas en Google Chrome, desde 3 dispositivos distintos con 2 emails distintos y en uno de los casos sin email.

Salvo que se basen en un modelo probabilístico para unir los puntos de información, se crearán 3 perfiles de usuario distintos.

Se suele escuchar en las típicas conversaciones de pasillo que la metodología usada por Google para cruzar datos es determinista y, en gran medida, estoy de acuerdo. Tienen tal cantidad de datos e interacciones generalmente asociadas a emails o a IDs de Google que el nivel de trazabilidad es altísimo.

Pero, ¿qué pasa si no tienen suficientes datos para decir a ciencia cierta que esa interacción es tuya?

Dos opciones:

Crean un nuevo perfil de usuario y lo van completando a medida que vas interactuando más con el mundo digital.
Aplican una metodología probabilística para intentar asociarlo a alguno de los perfiles existentes.

A pesar de la cantidad de datos, se basan en "eventos" y correlaciones para definir nuestros intereses.

Aquí tenéis algunos de los segmentos a los que pertenezco según la categorización de intereses que ha realizado Google en base a mis búsquedas e interacciones con el mundo digital.

Los símbolos a la derecha de cada categoría indican si efectivamente este segmento está relacionado con mis intereses o no. Mi conclusión tras analizarlo fue que solo 56% de los segmentos a los que pertenezco me representan a mi y a mis intereses correctamente.

Esta descoordinación entre mi realidad y la realidad digital deja entrever la distancia que hay entre información y conocimiento.

Dicho esto, simplemente quería exponer que nuestro día a día ya se basa en compartir datos. Son pequeños intercambios que realizamos de forma casi automática, sin darle muchas vueltas al asunto.

Por ello me gustaría concluir el artículo planteando 2 preguntas:

¿Consideráis que como usuarios deberíamos ejercer el derecho a la privacidad ante la posibilidad de ceder nuestros datos para intentar frenar una pandemia?

¿Qué riesgos creéis que entraña tanto a corto como a largo plazo que cedamos nuestros datos? No solo a nuestros gobiernos, sino también a las empresas mencionadas previamente? ¿Consideráis que nuestra privacidad está en riesgo?

Referencias

[1] Disposición 4162 BOE. Más info aquí.

[2] Listado de productos de Google. Más info aquí.

[3] Share de búsquedas por buscador en 2018. Más info aquí.

[4] Revenue generado por Google en publicidad. Más info aquí.

[5] Número de dispositivos conectados en 2020. Más info aquí.

[6] Números de cuentas de email en promedio. Más info aquí.

Después Del Dato

Discussion about this post