Privacidade em Análise de Dados, Privacidade Diferencial e Pan-Privacidade
Normalmente, a perda da privacidade por vazamento de informações está associada a algum tipo de falha no controle de acesso à informação, no controle do fluxo da informação, ou mesmo no controle dos propósitos aos quais a informação foi destinada. A bem da verdade, na era da tecnologia digital, muitas são as ameaças à privacidade de dados eletrônicos, desde o roubo de informações, passando pelos ataques de phishing e de vírus, e chegando até à famigerada e muitas vezes um tanto traiçoeira mudança de política de privacidade de redes sociais ou de portais de acesso a serviços de internet. Não obstante, há um cenário não exatamente incomum em que assegurar a privacidade é um desafio mesmo que todos os problemas de controle estejam resolvidos: a análise estatística de dados com preservação da privacidade.
Em 1977 coube ao estatístico Tore Dalenius uma definição geral dos objetivos de privacidade para bases de dados estatísticos: tudo que se pode aprender sobre um respondente da base de dados deve ser possível aprender sem acesso à base de dados. Em palestra recente no Berkman Center de Harvard (“I'm in the Database, but Nobody Knows”, 28/09/10), Cynthia Dwork explica por que qualquer definição como essa, embora essencialmente intuitiva, é problemática quando interpretada em cenários concretos.
Em artigo intitulado “A Firm Foundation for Private Data Analysis” (a ser publicado em Janeiro/2011 na revista “Communications of the ACM”), Dwork lembra que são várias as tentativas na literatura de formalizar o objetivo de Dalenius (às vezes até mesmo inconscientemente) impondo o requisito de que as visões sobre um indivíduo antes e depois de ter acesso ao banco de dados que um adversário venha a ter não devam ser muito diferentes, ou que o acesso ao banco de dados não deva mudar substancialmente o conhecimento que o adversário tem do indivíduo. Infelizmente, trata-se de um requisito inatingível, pois se o banco de dados detém informações sobre indivíduos, é inevitável que após o acesso ao banco de dados o adversário terá outra visão sobre aqueles indivíduos, ainda que a privacidade de cada um deles tomado isoladamente não tenha sido violada.
Finalmente, Dwork mostra como a definição de Dalenius, embora extremamente útil na formulação de requisitos mais precisos, não se sustenta quando se considera a presença de informações auxiliares que não pertencem ao banco de dados. Suponha que um determinado banco de dados estatísticos informe a média de altura das mulheres suecas. Uma informação extra de que Pamela Jones é 5 centímetros mais baixa que a média das mulheres suecas, juntamente com o acesso ao banco de dados, nos revela a altura de Pamela Jones, muito embora ninguém com acesso apenas ao banco de dados tenha elementos suficientes para concluir qual é a altura da atriz. Note que ela sequer teria que estar no banco de dados para que o ataque descrito pudesse ser perpetrado contra sua pessoa. De modo geral, aquilo para o qual os bancos de dados estatísticos são concebidos para informar podem, ainda que indiretamente, causar danos a um indivíduo, mesmo que esse indivíduo não esteja no banco de dados. Esse é um caso típico de “ataque de acoplamento” em que certos dados, que aqui denominamos de “informações auxiliares”, são acoplados a outros bancos de dados ou fontes de informação com vistas à obtenção de informações sensíveis e privadas que deveriam estar sob a devida proteção.
Como alternativa, Dwork sugere a noção de “privacidade diferencial”: formulada e analisada nos últimos cinco anos por especialistas em tecnologias de preservação da privacidade, a definição de privacidade diferencial veio justamente para resolver um problema fundamental nessa área que diz respeito à definição dos contornos, e tornar mais precisa a sua delimitação. Em poucas palavras, os requisitos de privacidade diferencial buscam prover meios de maximizar a precisão das consultas a bancos de dados estatísticos, ao mesmo tempo em que minimiza as chances de que os registros sejam identificados. Tecnicamente, a privacidade diferencial requer que as chances de ocorrência de resultados sejam essencialmente as mesmas, independente da presença de qualquer indivíduo no banco de dados. Dessa forma, a garantia da privacidade diferencial permite que cada indivíduo seja incentivado a fazer parte das estatísticas, visto que o risco de perda de privacidade é minimizado.
Com efeito, quando se têm armazenados em bancos de dados de interesse público muitos dados sensíveis de indivíduos, surge o problema do controle de revelação estatística: como revelar dados estatísticos precisos sobre um conjunto de respondentes preservando, ao mesmo tempo, a privacidade dos indivíduos? Trata-se de problema de grande relevância e de tamanha importância que seu tratamento na literatura tem sido extenso e amplamente multidisciplinar: além da estatística, o problema é alvo de pesquisadores em computação teórica, segurança da informação, bancos de dados, e até mesmo criptografia. O fato é que os bancos de dados estatísticos podem ser de valor social inestimável, pois são usados para a alocação de recursos, para a avaliação de terapias médicas assim como a vigilância epidemiológica, sem falar nos benefícios em termos de política econômica.
Muitas podem ter sido as formas através das quais os dados foram obtidos, desde aquelas oficiais e obrigatórias tais como um recenseamento público, os registros governamentais referentes à arrecadação de impostos, passando por aquelas resultantes de coletas circunstanciais tais como o tráfego na internet, compras eletrônicas, e termos de busca submetidos a engenhos de busca, chegando até aquelas produzidas por atos altruístas de respondentes que espontaneamente compartilham informações na intenção em benefício do bem comum. A análise dos dados estatísticos podem servir a diversos propósitos: (i) encontrar correlações no caso de dados médicos e de saúde; (ii) melhorar serviços públicos, incluindo serviços tecnológicos tais como o refinamento de resultados de busca na internet, assim como a associação de anúncios a termos de consulta; (iii) permitir melhor agrupamento em mineração de dados, em árvores de decisão, em análise de componentes principais. Em todos os casos, há a promessa ou o compromisso de proteção à privacidade aos respondentes. O fato é que a promessa pode ser descumprida conforme a ameaça ao “curador” do banco de dados. Nesse ponto surge a noção de pan-privacidade.
Em artigo recente (“Pan-Private Streaming Algorithms”, First Symposium on Innovations in Computer Science, Jan/2010), C. Dwork, M. Naor, T. Pitassi, G. Rothblum e S. Yekhanin começam lembrando que entidades coletoras de dados confidenciais, tais como bibliotecas, órgãos governamentais, hospitais, redes sociais, e até mesmo provedores de engenhos de busca, podem vir a sofrer pressão para permitir que dados sejam usados para propósitos diferentes daqueles para os quais os dados foram coletados. A idéia é que, quando o propósito da coleta de dados é a análise estatística, pode não haver necessidade de armazenar as informações uma vez que a análise esteja concluída. De forma geral, se a análise ainda estiver em andamento, informações obsoletas podem ser razoavelmente descartadas à medida em que novas informações são coletadas. E isso sugere a necessidade de uma busca por algoritmos de fluência (“streaming”) de dados que preservem a privacidade, levando à classe dos “algoritmos de pan-privacidade”: algoritmos que retêm suas propriedades de privacidade mesmo que seu estado interno se torne visível a um adversário.
Trazendo contribuições tanto de natureza definicional quanto algorítmica, os autores introduzem duas novas noções: pan-privacidade e privacidade a nível de usuário. Entre os resultados algorítmicos obtidos estão algoritmos de fluência pan-privados para diversas tarefas de contagem: estimativa do número de elementos distintos num fluxo de dados, e estimativa de contagem de freqüência (“quantos itens aparecem no fluxo exatamente k vezes?”).
No final das contas, o requisito da pan-privacidade visa eliminar, na prática, os riscos inerentes ao compartilhamento de informações ainda que na presença de uma intrusão, dessa forma encorajando ainda mais a participação do indivíduo numa coleta de dados assim protegida. E como uma intrusão pode ocorrer a qualquer momento, inclusive num futuro distante, o design de algoritmos pan-privados é interessante mesmo quando vai gerar uma única saída.
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE
Nenhum comentário:
Postar um comentário