Qué es synthetic data (la definición técnica que da Ebert)

Es data artificial generada por un modelo de deep learning entrenado sobre datos reales. Proceso en dos fases: entrenamiento (el modelo aprende patrones estadísticos) y generación (produce registros nuevos desde cero, sin relación 1:1 con personas reales). El resultado es estadísticamente indistinguible del original, pero totalmente anónimo e irreversible.

Beneficios clave

Privacidad real, utilidad casi igual al dato original, acceso en horas en vez de meses, mejor representación de segmentos minoritarios, reducción de costos operativos, y democratización del dato dentro de la organización.

El problema central

Las organizaciones B2C tienen en sus datos de comportamiento (transacciones, ubicación, navegación) su activo más valioso para IA y personalización. Pero ese mismo dato es datos personales bajo GDPR y leyes equivalentes en 120+ países. La tensión entre innovar con datos y cumplir privacidad es el problema que el curso propone resolver.

Por qué la anonimización tradicional no funciona

Las técnicas legacy (masking, obfuscación, shuffling) tienen dos fallas fatales: destruyen utilidad al eliminar información, y no protegen privacidad real en la era del big data. Con solo 3 transacciones de tarjeta de crédito se puede re-identificar al 80% de individuos. Con datos de comportamiento de alta dimensionalidad, la re-identificación es prácticamente inevitable.

Categorías de synthetic data

Ebert distingue tres ejes:

Casos de uso principales

Industrias líderes

Banca, seguros y salud son los pioneros, por su historial de regulación estricta. El tamaño y la madurez de datos son prerequisitos: grandes empresas con datos organizados son las principales beneficiarias.

Limitaciones importantes

Synthetic Data for Digital Product Development