“Dramatically more complicated”
“Dramáticamente más complicado”

  • English
  • Español

“Dramatically more complicated”

Privacy concerns raised over 2020 Census

By Sherry Mazzocchi

FUN FACT: In 2006, Netflix ran a contest to improve its recommendation system. To protect the privacy of customers, it released a random sample of ratings and replaced names with numbers. But data scientists identified those individuals by comparing rankings and timestamps on IMDb.com (a movie review site).

A Census enumerator in 1950.

It’s hard to make personal data anonymous.

When the Census Bureau publishes data at the tract and block level, it can be easy to identify individuals if too many statistics are published. For example, if only one person lives on a block, that person’s identity is obvious. If there is only one person under three or over 100 on another block, that’s also identifying information. Publishing it could be a potential violation of Title 13, which prohibits the Census Bureau from sharing personalized statistics.

But the Census Bureau is all about statistics.

The 2010 Census collected six main stats per person: address, sex, age, race, ethnicity and relationship to person one (the first person listed on the form). It counted a total population of 308,745,538 living in 116,716,292 households. The Bureau published more than 7.7 billion statistics in 2010, or about 25 per person.

“If you know any math at all, then you realize you can create a system with 25 billion simultaneous equations and roughly 1.8 billion unknowns and get a solution that matches our published statistics. We call that database reconstruction,” said Simson L. Garfinkel.

Garfinkel is the Census Bureau’s Senior Computer Scientist for Confidentiality and Data Access, and author of Database Nation: The Death of Privacy in the 20th Century. During a February 5th symposium on data privacy at Rice University in Texas, Garfinkel laid out 21st century methods for protecting individual privacy.

In the past, the Census Bureau took the information of highly identifiable households and swapped that information with other households. The benefits of swapping are that it’s an easy method and doesn’t affect a state count if it is done within the state. The operation is invisible to the rest of the Census process, said Garfinkel. “In fact, less than a handful of people in the Census Bureau understood how the 2010 swapping actually worked.”

But swapping isn’t foolproof. If someone really wanted to reconstruct the database, swapped data wouldn’t necessarily stand in their way. Using easily available data such as voter registration records could be one way to identify individuals at the block level.

Senior Computer Scientist Simson L. Garfinkel.

In fact, the Census Bureau employed ten PhDs using a few Amazon Clusters (high speed data processing services) working for about three months to reconstruct the micro-data from the published statistics. About 50 percent of the results were accurate. “More than 70 percent of it matched exactly if you allow age within one year,” said Garfinkel. “We collect age by two ways; by date of birth and how old you say you are.”

While it took immense computing power and superior technical expertise to reconstruct the data, once the process is known, it becomes easier.  “In ten years, it’s a high school science fair project. And that’s the problem,” he said.

Garfinkel called the results frightening, but said swapping was the best available technique at the time.

This time, the Census Bureau is using a technique called differential privacy.

Differential privacy works  by adding noise. Noise, basically an irrelevant set of information, is injected into the data to obscure the individual’s confidential answers.

A formula determines how much noise to add for any desired privacy outcome. Hackers can still reconstruct a database, but they won’t know how much of the information is accurate.

The Census Bureau created its own differential privacy algorithms. It generates varying levels of statistics for each of the national, state, county, tract and block levels. “If there are a lot of people, the statistics are pretty accurate. If there are not a lot of people, the statistics become less accurate. That’s the secret.”

Simspon said the data will be as accurate as it needs to be for legal purposes. “But it’s not going to be more accurate. So there is this public policy trade-off between accuracy and privacy loss, and the data will be accurate enough.”

Each data set will have its own epsilon, or the determinant of how accurate data will be in terms of privacy. “You look at the marginal social benefit and you rate it against the marginal social cost,” Garfinkel said. The Census Bureau’s Chief Data Scientist John Abowd calculated the allocation of federal funds using data at the school district level. “The marginal social benefit is that the money gets allocated properly, and the marginal social cost is that people are subject to identity theft. Doing that, they actually found a correct value of epsilon for that data set, which is pretty cool.” Ultimately, the Census Bureau’s Data Stewardship Executive Policy Committee decides how private the data should be. The committee is headed by a presidential appointee.

The Census Bureau will also tell users how accurate its data is. “We didn’t ever do that in the past. We gave people a measurement error,” Garfinkel said. “But we didn’t ever tell people how much error was introduced by the swapping.  And some of our data users have assumed there was no error introduced by the swapping. Like that Committee.”

One of the biggest challenges in creating privacy is the lack of computational infrastructure and the lack of trained data science PhDs. “It’s really, really hard to get this stuff right,” he said. Much of the information obtained from the American Community Survey’s 80 questions is used to weight the Census information.

He added that the decennial Census is the Census Bureau’s simplest data product. “We ask each person 10 questions. Everything else is dramatically more complicated.”

“Dramáticamente más complicado”

Preocupaciones de privacidad planteadas en el Censo de 2020

Por Sherry Mazzocchi

DATO CURIOSO: En 2006, Netflix realizó un concurso para mejorar su sistema de recomendaciones. Para proteger la privacidad de los clientes, lanzó una muestra aleatoria de calificaciones y reemplazó los nombres con números. Pero los científicos de datos identificaron a esos individuos al comparar los rankings y las marcas de tiempo en IMDb.com (un sitio de revisión de películas).

Un enumerador del censo en 1950.

Es difícil hacer que los datos personales sean anónimos.

Cuando la Oficina del Censo publica datos a nivel de tramo y cuadra, puede ser fácil identificar a las personas si la oficina pública demasiadas estadísticas. Por ejemplo, si solo una persona vive en una cuadra, la identidad de esa persona es obvia. Si solo hay una persona menor de tres años o de más de 100 en otra cuadra, eso también es información de identificación. Su publicación podría ser una posible violación del Título 13, que prohíbe a la Oficina del Censo compartir estadísticas personalizadas.

Pero la Oficina del Censo se trata de estadísticas.

El censo de 2010 recopiló seis estadísticas principales por persona: dirección, sexo, edad, raza, origen étnico y relación con la persona uno (la primera persona que figura en el formulario). Contaba con una población total de 308,745,538 viviendo en 116,716,292 hogares. La oficina publicó más de 7.7 mil millones de estadísticas en 2010, o aproximadamente 25 por persona.

“Si sabe algo de matemática, entonces se dará cuenta de que puede crear un sistema con 25 mil millones de ecuaciones simultáneas y aproximadamente 1.8 mil millones de incógnitas y obtener una solución que coincida con nuestras estadísticas publicadas. A eso le llamamos reconstrucción de la base de datos”, dijo Simson L. Garfinkel.

Garfinkel es el científico informático principal de la Oficina del Censo en lo que respecta a la confidencialidad y el acceso a la información, y autor de Database Nation: The Death of Privacy in the 20th Century. Durante un simposio del 5 de febrero sobre la privacidad de la información en la Rice University en Texas, Garfinkel presentó métodos del siglo XXI para proteger la privacidad individual.

En el pasado, la Oficina del Censo tomó la información de hogares altamente identificables e intercambió esa información con otros hogares. Los beneficios del intercambio son que es un método fácil y no afecta el recuento de un estado si se realiza dentro del estado. La operación es invisible para el resto del proceso del Censo, dijo Garfinkel. “De hecho, menos de un puñado de personas en la Oficina del Censo entendieron cómo funcionó realmente el intercambio de 2010”.

Pero el intercambio no es infalible. Si alguien realmente quisiera reconstruir la base de datos, los datos intercambiados no necesariamente se interpondrían en su camino. El uso de datos fácilmente disponibles, como los del registro de votantes, podría ser una forma de identificar a las personas a nivel de cuadra.

El científico informático senior Simson L. Garfinkel.

De hecho, la Oficina del Censo empleó a diez doctores con algunos clústeres de Amazon (servicios de procesamiento de datos de alta velocidad) que trabajaron durante aproximadamente tres meses para reconstruir los micro datos de las estadísticas publicadas. Alrededor del 50 por ciento de los resultados fueron precisos. “Más del 70 por ciento coincidió exactamente si permites la edad dentro de un año”, dijo Garfinkel. “Recopilamos la edad de dos maneras: por fecha de nacimiento y la edad que dice tener”.

Si bien se necesitó una gran capacidad informática y una experiencia técnica superior para reconstruir los datos, una vez que se conoce el proceso, se vuelve más fácil. “En diez años, es un proyecto de la feria de ciencias de la escuela secundaria. Y ese es el problema”, dijo.

Garfinkel dijo que los resultados eran aterradores, pero dijo que el intercambio era la mejor técnica disponible en ese momento.

Esta vez, la Oficina del Censo está utilizando una técnica llamada privacidad diferencial.

La privacidad diferencial protege la privacidad agregando ruido. El ruido, básicamente un conjunto de información irrelevante, se inyecta en los datos confidenciales para ocultar las respuestas del individuo.

Una fórmula determina cuánto ruido agregar para cualquier resultado de privacidad deseado. Los piratas informáticos aún pueden reconstruir una base de datos, pero no sabrán cuánta información es precisa.

La Oficina del Censo creó sus propios algoritmos de privacidad diferencial. Genera niveles variables de estadísticas para cada nivel nacional, estatal, del condado, tramo y cuadra. “Si hay mucha gente, las estadísticas son bastante precisas. Si no hay mucha gente, las estadísticas se vuelven menos precisas. Ese es el secreto”.

Simspon dijo que los datos serán tan precisos como sea necesario para fines legales. “Pero no va a ser más preciso. Así que existe una compensación de política pública entre la precisión y la pérdida de privacidad, y los datos serán lo suficientemente precisos”.

Cada conjunto de datos tendrá su propia épsilon, o el determinante de la precisión de los datos en términos de privacidad. “Observe el beneficio social marginal y compárelo con el costo social marginal”, dijo Garfinkel. El especialista en datos de la Oficina del Censo, John Abowd, calculó la asignación de fondos federales utilizando datos a nivel del distrito escolar. “El beneficio social marginal es que el dinero se asigna adecuadamente, y el costo social marginal es que las personas están sujetas al robo de identidad. Al hacerlo, en realidad encontraron un valor correcto de épsilon para ese conjunto de datos, lo que es bastante bueno”. En última instancia, el Comité de Política Ejecutiva de Administración de Datos de la Oficina del Censo decide qué tan privados deben ser los datos. El comité está encabezado por una persona designada por el presidente.

La Oficina del Censo también informará a los usuarios sobre la exactitud de sus datos. “Nunca hicimos eso en el pasado. Le dimos a la gente un error de medición “, dijo Garfinkel. “Pero nunca le dijimos a la gente cuánto error fue introducido por el intercambio. Y algunos de nuestros usuarios de datos han asumido que el intercambio no introdujo ningún error. Como ese comité”.

Uno de los mayores desafíos en la creación de privacidad es la falta de infraestructura computacional y la falta de doctores en ciencia de datos capacitados. “Es muy, muy difícil hacer bien estas cosas”, dijo. Gran parte de la información obtenida de las 80 preguntas de la Encuesta de la Comunidad Estadounidense se usa para ponderar la información del Censo.

Añadió que el Censo decenal es el producto de datos más simple de la Oficina del Censo. “Le hacemos 10 preguntas a cada persona. Todo lo demás es mucho más complicado”.