Synthetic Data 101

Qué es synthetic data (la definición técnica que da Ebert)

Es data artificial generada por un modelo de deep learning entrenado sobre datos reales. Proceso en dos fases: entrenamiento (el modelo aprende patrones estadísticos) y generación (produce registros nuevos desde cero, sin relación 1:1 con personas reales). El resultado es estadísticamente indistinguible del original, pero totalmente anónimo e irreversible.

Beneficios clave

Privacidad real, utilidad casi igual al dato original, acceso en horas en vez de meses, mejor representación de segmentos minoritarios, reducción de costos operativos, y democratización del dato dentro de la organización.

El problema central

Las organizaciones B2C tienen en sus datos de comportamiento (transacciones, ubicación, navegación) su activo más valioso para IA y personalización. Pero ese mismo dato es datos personales bajo GDPR y leyes equivalentes en 120+ países. La tensión entre innovar con datos y cumplir privacidad es el problema que el curso propone resolver.

Por qué la anonimización tradicional no funciona

Las técnicas legacy (masking, obfuscación, shuffling) tienen dos fallas fatales: destruyen utilidad al eliminar información, y no protegen privacidad real en la era del big data. Con solo 3 transacciones de tarjeta de crédito se puede re-identificar al 80% de individuos. Con datos de comportamiento de alta dimensionalidad, la re-identificación es prácticamente inevitable.

Categorías de synthetic data

Ebert distingue tres ejes:

técnica de generación (rule-based vs. AI-generated),
propósito (privacidad vs. augmentación de datos escasos, como en vehículos autónomos), y
tipo de dato (estructurado vs. no estructurado).

Casos de uso principales

El más relevante es entrenamiento de modelos de ML.
Le siguen:
- desarrollo de productos digitales,
- compartir datos con socios externos,
- analytics,
- open data público,
- testing de software, y
- Responsible AI (fairness, explicabilidad).

Industrias líderes

Banca, seguros y salud son los pioneros, por su historial de regulación estricta. El tamaño y la madurez de datos son prerequisitos: grandes empresas con datos organizados son las principales beneficiarias.

Limitaciones importantes

No protege información propietaria del negocio (solo privacidad de personas).
Requiere mínimo 5,000-10,000 registros para ser útil.
Es irreversible: no sirve para casos donde después necesitas el dato real de la persona.
No aplica en tiempo real ni a datos en grafos.

Synthetic Data for Digital Product Development