Páginas

domingo, 26 de dezembro de 2010

Ativismo Digital e Protesto Cibernético


Ativismo Digital e Protesto Cibernético

E-mail Imprimir PDF
Dentre os diversos desdobramentos da espetacular disrupção no status quo da indústria do jornalismo investigativo provocada por Julian Assange e o WikiLeaks, avatar cibernético da transparência e inimigo declarado da mentira institucional, figura o que parece ser a consolidação do ativismo digital em larga escala. Desde a disponibilização pública dos documentos vazados pela organização de Assange, sobretudo os registros de conversações sigilosas envolvendo autoridades diplomáticas do governo americano, o site principal do WikiLeaks e o que hospedou o incrível volume de um quarto de milhão de documentos permaneceram indisponíveis por algumas horas devido a um congestionamento de dados provocado não se sabe exatamente por quem, até que um representante da organização conseguiu escrever no seu microblog no Twitter: “Estamos no momento sob um ataque massivo de negação de serviço distribuída” (em inglês, “distributed denial of servisse”, abrev. DDoS). Cerca de seis horas depois do início dos ataques o WikiLeaks anunciou os endereços (em serviços de servidores remotos localizados na França e na Irlanda) para onde havia desviado os documentos. (Logo após, um “hacktivista” autodenominado “The Jester” – “O Coringa” – reivindicou a autoria dos ataques, declarando no Twitter que havia alvejado o WikiLeaks “por ameaçar as vidas de nossos soldados e outros patrimônios.”)
Adicionalmente, em razão da incerteza em torno da legalidade das operações de vazamento de documentos sigilosos, diversas empresas decidiram cortar o acesso do WikiLeaks a seus serviços, entre elas Amazon, PayPal, MasterCard, Visa e a empresa suíça de transações financeiras PostFinance. Em resposta, uma associação de hackers que se denomina Anonymous e se apresenta como defensora da liberdade na internet, organizou, durante dois ou três dias, ataques cibernéticos de “negação de serviço” (inundação do site com requisições falsas provenientes de milhares de computadores comandados à distância como se fossem escravos) contra os principais sítios daquelas empresas, forçando-os a sair do ar em detrimento dos clientes que lhe apresentavam requisições legítimas. Denominando a iniciativa de “Operation: Payback” (“Operação: Retaliação”), o grupo decide alvejar os sítios dos mais proeminentes personagens e instituições que se manifestaram aberta e, em alguns casos, agressivamente críticos do WikiLeaks, incluindo as corporações que cortaram unilateralmente o vínculo contratual com a organização liderada por Assange, o escritório de advocacia sueco Borgstrom & Bodström que representa suas supostas vítimas de estupro, o portal do procurador de justiça da Suécia à frente do processo, e políticos como o Senador americano Joseph Lieberman, e a governadora do Alasca Sarah Palin.
Inaugura-se aí definitivamente a era das batalhas cibernéticas em escala global.  John Perry Barlow, autor do célebre texto “Uma Declaração da Independência do Ciberespaço” (1996) e membro fundador da entidade de defesa dos direitos civis na internet “Electronic Frontier Foundation” (EFF), enviou mensagem pelo Twitter no primeiro dia dos ataques: “A primeira infoguerra séria está engatada. O campo de batalha é o WikiLeaks. Vocês são os soldados.”
A bem da verdade, desde o surgimento da web no início da década de 1990 a população conectada cresceu de uns poucos milhões para alguns bilhões de pessoas: um fator de 1.000 em duas décadas. Nesse periodo a mídia social tem se tornado cada vez mais parte da vida contemporânea, envolvendo diversos agentes desde o cidadão comum, passando por ativistas, organizações não-governamentais, operadoras de telecomunicações, empresas de serviços na internet, e até governos. À medida em que o cenário das comunicações ganha densidade, complexidade e participação, a população conectada ganha mais acesso à informação, mais oportunidades de se engajar no discurso público, além de adquirir maior capacidade de agir coletivamente. No cenário político, as manifestações cibernéticas em favor do WikiLeaks demonstram que essa ampliação das liberdades de acesso à informação e de articulação em larga escala propiciam terreno fértil para a prática do ativismo a nível global.
Em “Politically Motivated Denial of Service Attacks” (publicado no Volume 3 (2009) da série de livros “Cryptology and Information Security” publicada pela IOS Press, intitulado “The Virtual Battlefield: Perspectives on Cyber Warfare”, sob organização de Christian Czosseck e Kenneth Geers),  Jose Nazario, especialista em segurança da informação da Arbor Networks, começa lembrando que os ataques na internet assumem diversas formas, incluindo o comprometimento e até o roubo de informações, assim como a negação de serviço perpetrada com o propósito explícito de causar disrupção em sítios de serviços de internet. Diversas são as motivações para tais ataques, desde frustração, diversão, e até extorsão (nesse caso, sobretudo contra sítios de jogos de aposta). Enquanto que os ataques com motivação política são extremamente raros, conta Nazario, os tipos de ataque dependem das habilidades e das motivações de seus autores. O primeiro registro de um ataque de DDoS tirou do ar um servidor da University of Minnesota por dois dias em 1999, mas somente um ano depois ataques desse tipo vieram a atingir sítios de maior envergadura como Amazon, CNN, eBay e Yahoo, que foram todos afetados num período de 24 horas, resultando em perdas estimadas em mais de um milhão de dólares para Amazon e Yahoo juntas. Ao que tudo indica, embora somente em 2006 tenham começado a surgir ferramentas especializadas para a realização de ataques DDoS, em sua grande maioria os ataques eram tipicamente criados e coordenados por indivíduos. A paralisação da minúscula porém intensamente interconectada nação da Estônia em 2007 por grupos de ativistas russos em 2007 marcou o início do uso em massa de ataques DDoS por motivação política.
Através de uma breve análise histórica dos ataques de negação de serviço, o artigo de Nazario mostra que, embora inicialmente concebido para infligir danos na vítima em nome de uma punição qualquer, desde o “ciberconflito” acontecido na Estônia, mais e mais se observa o uso de ataques DDoS como ferramenta sofisticada de censura. E a lista de ataques significativos nessa categoria começa com vários episódios de hacktivismo na China em Abril de 2008 em resposta a comentários do jornalista Jim Cafferty da CNN sobre a preparação chinesa das Olímpiadas de Pequim que não agradaram aos chineses. Seguiram os seguintes ataques: ao portal do partido político de Gary Kasparov, então dissidente, nas eleições russas de 2007; aos portais de órgãos de imprensa da Ucrânia em Março/Abril 2008 em razão dos eventos em memória aos mortos no desastre de Chernobyl; ao sítio do presidente da Geórgia em Julho de 2008 por ocasião do conflito de seu país com a Rússia; ao portal do “Democratic Voice of Burma”, partido político dissidente da Birmânia, em Agosto de 2008; ao portal do fórum MSK aliado ao governo do Cazaquistão no início de 2009, não-aliado a Moscou; a portais de ambos os lados da guerra entre Israel e Palestina na faixa de Gaza no início de 2009; aos sítios do governo do Kurguistão em 2009, ataques atribuídos ao governo da Rússia; a portais do governo do Irã em 2009 em retaliação à repressão às manifestações de rua denunciando a possível existência de fraudes nas eleições; a sítios governamentais da Coréia do Sul em 2009, simultaneamente a ataques a portais governamentais e corporativos dos EUA; aos sítios da Motion Picture Association of America (MPAA) e da Recording Industry Association of America (RIAA) assim como da British Photographic Industry em Setembro de 2010, organizados pelo “internet bulletin board” denominado 4chan em retaliação a um suposto ataque de DDoS que a própria MPAA teria incentivado a empresa indiana Aiplex Software a perpetrar contra o portal de compartilhamento de arquivos PirateBay.org.
Ao comentar sobre os ataques à MPAA, o especialista em segurança Sean-Paul Correll chamou DDoS de “o futuro dos ciberprotestos”, e sua previsão não demorou para ser cumprida. A disputa entre os críticos e os defensores do WikiLeaks revela o novo cenário do ativismo na era digital. Ganha notoriedade em larga escala o grupo Anonymous, que, aparentemente inclui o 4chan, e, embora sem um porta-voz definido nem sequer revelado, se organizou em torno de uma hierarquia relativamente frouxa, desafiou associações consolidadas e diversas entidades constituídas como a Church of Scientology, a MPAA, e as instituições e as personalidades contrárias ao trabalho realizado pelo WikiLeaks.
Em artigo recentemente publicado no portal do Berkman Center (Harvard) intitulado “Distributed Denial of Service Attacks Against Independent Media and Human Rights Sites” (por Ethan Zuckerman, Hal Roberts, Ryan McGrady, Jillian York, John Palfrey, Dezembro 2010), os autores analisam especificamente o fenômeno dos ataques de DDoS em mídias independentes e organizações de direitos humanos com o objetivo de melhor compreender a natureza e a frequência desses ataques, além de sua eficácia e os mecanismos de defesa à disposição. A constatação é de que o crescimento no uso de DDoS como ferramenta para silenciar sítios de mídia independente e direitos humanos é o sintoma de um problema maior: a carência de pessoal técnico competente na administração desses sítios, além do crescente isolamento desses portais do chamado núcleo da rede. Embora ofereça recomendações úteis às potenciais vítimas desse tipo de ataque, o relatório expõe a inevitável constatação de que, para muitos sítios, não há solução fácil, particularmente para os ataques que consomem largura de banda à exaustão.
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE

domingo, 21 de novembro de 2010

A Delimitação dos Danos de Privacidade


A Delimitação dos Danos de Privacidade

E-mailImprimirPDF
Ainda considerada uma noção extremamente confusa , em constante evolução, e declarada morta por muitos, privacidade parece estar sempre em desvantagem perante outros direitos supostamente fundamentais do cidadão tais como liberdade de expressão e segurança. Diante de casos concretos de invasão de privacidade, tais como os que têm sido reportados na recente série de matérias intitulada “What They Know” do Wall Street Journal mostrando a ampla espionagem dos hábitos de navegação dos consumidores na internet para fins de direcionamento de propaganda, a tendência é nos recolhermos ou aceitarmos como uma decorrência inexorável de um novo contrato social que aos poucos se estabelece entre as empresas de serviços na internet e o internauta.
Discussões sobre privacidade frequentemente apelam para sentimentos de receio e de ansiedade das pessoas, mas dificilmente esses instintos são traduzidos para uma expressão articulada e objetiva das razões pelas quais os problemas de privacidade trazem danos. A reivindicação da proteção à privacidade não raro vem acompanhada de uma dificuldade em deixar bem claro exatamente do que se trata.  E essa falta de clareza, como bem analisa Daniel Solove em “A Taxonomy of Privacy” (University of Pennsylvania Law Review, Jan/2006), cria uma enorme barreira para o estabelecimento de políticas que sirvam de referencial, ou mesmo na resolução de um caso, pois tanto legisladores quanto magistrados acabam tendo pela frente a árdua missão de articular os danos de privacidade. Os interesses do lado dos direitos de livre expressão, de segurança, e de transação de consumo eficiente, são, de modo geral, muito melhor articulados, argumenta Solove. Daí, tanto as cortes quanto os legisladores e responsáveis por políticas públicas têm dificuldade em reconhecer os interesses de privacidade. E mesmo quando isso ocorre, casos meritórios são desconsiderados ou projetos de lei não são aprovados em decorrência da falta de clareza. O resultado disso tudo é que não há um equilíbrio entre privacidade e os interesses compensatórios.
Até mesmo o imperativo da transparência de dados governamentais parece se sobrepor facilmente ao direito à privacidade, visto que o recurso à noção de privacidade nem sempre é suficientemente provido das devidas nuances para capturar adequadamente os problemas envolvidos. Nos Estados Unidos, o relatório da comissão encarregada de analisar o episódio das torres gêmeas em 2001 recomenda que, sempre que as agências governamentais se engajem em compartilhamento de informações entre si e com entidades privadas, procurem salvaguardar a privacidade dos indivíduos sobre os quais as informações dizem respeito. No entanto, pergunta Solove, estaríamos em condições de definir precisamente o que significa salvaguardar a privacidade? Seria possível tratar privacidade de forma apropriada sem que tenhamos um entendimento no mínimo razoável sobre a natureza dos problemas de privacidade?
Adicione-se a isso o fato de que diversos especialistas tratam privacidade como um conceito monolítico, com valor uniforme, e invariante em diferentes situações. Ao elaborar uma taxonomia da privacidade, Solove procura mostrar que as violações de privacidade envolvem vários tipos bem distintos de atividade problemática ou danosa, tais como, por exemplo: (i) um jornal publica o nome verdadeiro de uma vítima de estupro; (ii) repórteres penetram sorrateiramente na casa de uma pessoa e, sem autorização, fazem imagens dessa pessoa; (iii) dispositivos de raio-X utilizados em segurança de aeroportos permitem visualizar o corpo da pessoa através da roupa; (iv) uma empresa envia propaganda a cinco milhões de mulheres que sofrem de incontinência urinária; (v) apesar de prometer não vender as informações pessoais de seus clientes, a empresa o faz sem consultá-los; (vi) de posse de um smartphone, alguém filma os itens de compra de uma outra pessoa na farmácia e disponibiliza essas imagens na internet, sem autorização. Muito embora representem violações bem distintas inclusive na gravidade dos danos decorrentes, sem uma devida categorização do conceito de privacidade, todas seriam julgadas sob um único critério. E isso significa que problemas distintos de privacidade ou estariam sendo tratados em pé de igualdade apesar das diferenças significativas, ou sequer estariam sendo reconhecidos como um problema.
Em seu artigo “A Feeling of Unease About Privacy Law” (“University of Pennsylvania Law Review”, Vol. 155, 2006), Ann Bartow faz uma resenha do artigo de Solove, e avalia que o argumento peca em não categorizar adequada e convincentemente os verdadeiros danos de violação de privacidade. Apesar do consenso entre vários especialistas de que o comprometimento da privacidade de uma pessoa leva a um tolhimento e a uma mudança não desejada de comportamento, teria faltado na análise de Solove uma lista de razões pelas quais esse seria um fenômeno negativo que a lei deveria buscar prevenir. Em linguagem coloquial, Bartow diz que a taxonomia de Solove estaria sofrendo de excesso de doutrina, porém falta de cadáveres.
Em tom de discórdia da crítica de Bartow, Ryan Calo em artigo em seu blog (“Clementi And The Nature Of Privacy Harm”, 06/11/10) chama a atenção para o surgimento de um cadáver em decorrência de violação de privacidade: o corpo de Tyler Clementi, estudante de 18 anos de idade da Rutgers University que cometeu suicídio após ter sido informado de que havia sido filmado em cenas picantes com um outro rapaz por uma câmera escondida plantada por dois colegas, foi encontrado em 29/09/10 no Rio Hudson, sete dias após ter anunciado em seu perfil na Facebook, em tom de desespero, que saltaria da ponte George Washington em Nova Iorque. Embora ainda não esteja devidamente esclarecido quem de fato assistiu às imagens gravadas pelos colegas de Clementi, Calo acredita que o que importa é o que se passou na cabeça de Clementi. Se ele de fato se matou porque achou que todos os estudantes da Universidade assistiram às cenas de seu envolvimento sexual com um rapaz, então ele sofreu um severo dano de privacidade subjetivo, independentemente da veracidade do que acreditou ter acontecido. Ainda segundo Calo, o fato das imagens terem sido apenas gravadas ou também distribuídas largamente seria altamente relevante para se concluir que houve uma violação de privacidade, contudo não teria qualquer relevância para se afirmar que teria havido um dano de privacidade.
Finalmente, Calo conclui que o suicídio de Clementi traz à tona a natureza dual do dano de privacidade. Se, por um lado, danos de privacidade são as conseqüências objetivas que decorrem da perda de controle sobre informações pessoais, por outro lado também se revelam através da experiência subjetiva dessa perda. E isso se estenderia às experiências cotidianas do consumidor preocupado com o roubo de identidade que poderá sofrer após um vazamento de informações, ou à preocupação do cidadão em evitar piadas sobre terrorismo com receio da espionagem do governo sobre seus emails.
No final das contas, está em jogo a delimitação dos danos de privacidade. Em artigo intitulado “The Boundaries of Privacy Harm” (Jul/2010, a ser publicado no Indiana Law Journal), Calo propõe uma nova abordagem ao enfretamento dos problemas de privacidade. O autor defende que os danos de privacidade se classificam em subjetivo e objetivo.  O dano subjetivo é a percepção indesejada de estar sendo observado, que provoca estados mentais como ansiedade, receio e constrangimento. Por outro lado, o dano subjetivo é o uso coagido ou não antecipado de informações relativas a uma pessoa contra aquela pessoa, exemplo do qual estão o roubo de identidade e o vazamento de informações confidenciais.
Entre outras vantagens, a teoria oferece um desacoplamento entre dano e violação de privacidade, mostrando que para que haja um dano de privacidade não há necessidade de que uma pessoa cometa uma violação de privacidade (e vice-versa).  Adicionalmente, a teoria estabelece um “princípio limitador” capaz de revelar quando um outro valor, tal como autonomia ou igualdade, está mais diretamente em jogo.  Como se não fosse bastante, a teoria cria uma “regra de reconhecimento” que permite a identificação de um dano de privacidade quando nenhum outro dano está aparente, além de propiciar uma nova perspectiva sobre o dimensionamento dos danos de privacidade
 
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE

terça-feira, 26 de outubro de 2010

O Rastreamento de Dados do Internauta Infantil


O Rastreamento de Dados do Internauta Infantil

E-mailImprimirPDF
Novos avanços tecnológicos da última década na indústria do anúncio na internet têm levado a privacidade de crianças a um nível de risco cada vez maior. Nos dias de hoje as crianças crescem num ambiente de mídias digitais ubíquas no qual dispositivos móveis, sistemas de mensagem instantânea, redes sociais, realidade virtual, avatares, vídeo games interativos, e vídeo online têm se tornado parte integrante de suas experiências pessoais e sociais. A convivência online é uma realidade, e alguns números refletem isso: segundo a revista Advertising Age, mais de 16 milhões de crianças americanas entre 2 e 11 anos estão online, o que significa um crescimento de 18% no período de 2004 a 2009, o maior percentual de crescimento entre as faixas etárias, segundo um relatório da Nielsen intitulado “On-Demand Generation Will Pay to Play”, de Abril de 2010. O mesmo relatório informa que, numa pesquisa conduzida em Julho de 2009, foi constatado que o tempo que as crianças de 2 a 11 anos passam conectadas cresceu de 7 horas para 11 horas por semana. Por outro lado, um estudo da comScore revelou que, no Brasil, em Maio de 2010, os usuários de internet na faixa etária de 6 a 14 anos já representavam cerca de 12% da população online.
Uma matéria de 17/09/10 do Wall Street Journal (“On the Web, Children Face Intensive Tracking”, por Steve Stecklow) revela que diversos dos mais populares portais voltados para o público infantil têm feito intenso uso de tecnologias de rastreamento de hábitos de navegação com o objetivo de formar perfis de usuários, muito mais até do que os portais destinados ao público adulto. Quando o Congresso Americano aprovou, em 1998, a lei de proteção à privacidade online da criança (“Children Online Privacy Protection Act”, abrev. COPPA), o único meio de acesso aos serviços online e de internet era o computador. Hoje, no entanto, as crianças dispõem de muitas outras vias de acesso a esse universo virtual. Por essa razão, diversas entidades americanas, lideradas pelo Center for Digital Democracy, submeteu uma solicitação de pronunciamento público à Federal Trade Commission (FTC), em 30/06/10, com respeito à atualização dos procedimentos da FTC relativos ao cumprimento do COPPA, assim como a tão desejada e já iniciada atualização da própria lei, face às novas circunstâncias. No documento, as demandantes urgem a FTC a esclarecer ou definir certos termos usados no COPPA e nas regras da FTC, e a assumir um papel mais pró-ativo na transparência e informação ao público sobre como os marqueteiros estão coletando e usando informações e sobre indivíduos.
Em sua essência, o COPPA proíbe os operadores de portais de, em sã consciência, coletar informações pessoalmente identificáveis de crianças menores de 13 anos sem o consentimento explícito dos pais. A lei exige também que esses operadores coletem apenas informações pessoais que sejam “razoavelmente necessárias” para uma atividade online. Tendo sido aprovado em 1998, mas somente vigorando a partir de 2000, o COPPA prevê que informações pessoais incluem nome completo, endereço residencial ou eletrônico, número de telefone ou o número de seguridade social. A intenção foi dar aos pais o controle sobre as informações coletadas de seus filhos online, e sobre como essas informações são usadas e compartilhadas.
Com a chegada dos navegadores lá pelos idos de 1993, muitas foram as tentativas de conceber modelos de negócio que pudessem transformar em receita as visitas de usuários a páginas na internet. O grande acontecimento nessa área foi sem dúvida o fato de a Google ter forjado, na virada do milênio, o modelo de negócios que veio a dominar a web até os dias de hoje, oferecendo uma variedade de serviços de internet altamente atraentes e a custo zero, desde busca, passando por mapas, até correio eletrônico, que acabam sendo, na realidade, financiados através de um sistema de anúncios altamente sofisticado e lucrativo. É fato também que desde o início a indústria do anúncio na web percebeu o valor do direcionamento e da relevância do anúncio para o consumidor alvo. Os sistemas de recomendação, que tiveram na Amazon.com um pioneiro, têm desde então quase que removido as barreiras entre o comércio e o consumidor ao fazer marketing de compras futuras baseado em escolhas anteriores. É daí que começam a surgir as tecnologias de rastreamento do internauta, que permitem maior eficácia no direcionamento da propaganda. A rigor, embora extremamente ubíquo nos dias de hoje, o rastreamento de hábitos de navegação e de compra se tornou possível quando o Netscape introduziu os minúsculos arquivos de texto conhecidos como “cookies”, com o propósito de propiciar mais conveniência ao internauta memorizando conteúdos de carrinhos de compra na web, além de outras informações que pudessem oferecer uma melhor experiência, tais como a memorização da própria senha de entrada num portal que não precisaria ser fornecida novamente numa segunda visita.
Naquela época, a indústria do anúncio online se encontrava em sua primeira infância. À medida que os anúncios na web começaram a aparecer mais intensamente durante o boom da era ponto-com do final dos anos 1990’s, os anunciantes compravam espaços para seus anúncios com base na proximidade do conteúdo das páginas nas quais esse espaço era oferecido. Atualmente, os anunciantes estão dispostos a pagar um preço adicional para poder seguir seu público alvo onde quer que ele esteja, com mensagens altamente específicas. O fato é que hoje o consumidor alvo, seja ele adulto, criança ou adolescente, dispõe de diversas formas de acesso à internet além do computador pessoal, e serviços online incluindo aparelhos celulares, consoles de videogame, e televisão interativa, e as novas tecnologias de anúncio se tornam cada vez mais sofisticadas e ubíquas.
Segundo matéria publicada em 30/07/10 no Wall Street Journal (“The Web's New Gold Mine: Your Secrets”, por Julia Angwin), o rastreamento de consumidores é a base de uma economia de anúncios online que movimentou 23 bilhões de dólares em gastos com propaganda no ano passado. E nesse contexto, a atividade de rastreamento cresce a passos largos: pesquisadores dos AT&T Labs e do Worcester Polytechnic Institute encontraram, em 2009, tecnologia de rastreamento em 80% de 1.000 portais populares, percentual que se encontrava em 40% daqueles portais em 2005.
As minúsculas ferramentas de rastreamento são, de modo geral, utilizadas pelas empresas de coleta de dados para seguir as pessoas em seus movimentos de navegação na rede. A partir dessas informações as empresas montam perfis detalhando suas atividades online, que adquirem um alto valor agregado sobretudo para os anunciantes. Esses perfis não incluem nomes, mas podem incluir idade, preferências, hobbies, hábitos de compra, raça, propensão a participar de blogs através de comentários, e até a localização geográfica a nível de cidade.
Em geral, vender esses dados não é ilegal, porém desperta enorme controvérsia, principalmente quando envolve crianças ou adolescentes. No final das contas, independentemente da legislação existente, a verdadeira proteção a crianças e adolescentes contra a venda e o mau uso de seus dados pessoais deve ser mesmo a educação sobre o que está envolvido nesse mundo das tecnologias de rastreamento. Como diz danah boyd, pesquisadora do Berkman Center (Harvard), em seu artigo “How COPPA Fails Parents, Educators, Youth” (10/06/10), para que as boas intenções de uma legislação como o COPPA venham a surtir efeito, é preciso “encontrar maneiras de ajudar os cidadãos digitais a entender como suas informações são utilizadas, que direitos eles têm, e como as políticas que existem afetam suas vidas”.
 
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE

terça-feira, 5 de outubro de 2010

Privacidade em Análise de Dados, Privacidade Diferencial e Pan-Privacidade


Privacidade em Análise de Dados, Privacidade Diferencial e Pan-Privacidade

E-mailImprimirPDF
Normalmente, a perda da privacidade por vazamento de informações está associada a algum tipo de falha no controle de acesso à informação, no controle do fluxo da informação, ou mesmo no controle dos propósitos aos quais a informação foi destinada. A bem da verdade, na era da tecnologia digital, muitas são as ameaças à privacidade de dados eletrônicos, desde o roubo de informações, passando pelos ataques de phishing e de vírus, e chegando até à famigerada e muitas vezes um tanto traiçoeira mudança de política de privacidade de redes sociais ou de portais de acesso a serviços de internet. Não obstante, há um cenário não exatamente incomum em que assegurar a privacidade é um desafio mesmo que todos os problemas de controle estejam resolvidos: a análise estatística de dados com preservação da privacidade.
Em 1977 coube ao estatístico Tore Dalenius uma definição geral dos objetivos de privacidade para bases de dados estatísticos: tudo que se pode aprender sobre um respondente da base de dados deve ser possível aprender sem acesso à base de dados.  Em palestra recente no Berkman Center de Harvard (“I'm in the Database, but Nobody Knows”, 28/09/10), Cynthia Dwork explica por que qualquer definição como essa, embora essencialmente intuitiva, é problemática quando interpretada em cenários concretos.
Em artigo intitulado “A Firm Foundation for Private Data Analysis” (a ser publicado em Janeiro/2011 na revista “Communications of the ACM”), Dwork lembra que são várias as tentativas na literatura de formalizar o objetivo de Dalenius (às vezes até mesmo inconscientemente) impondo o requisito de que as visões sobre um indivíduo antes e depois de ter acesso ao banco de dados que um adversário venha a ter não devam ser muito diferentes, ou que o acesso ao banco de dados não deva mudar substancialmente o conhecimento que o adversário tem do indivíduo. Infelizmente, trata-se de um requisito inatingível, pois se o banco de dados detém informações sobre indivíduos, é inevitável que após o acesso ao banco de dados o adversário terá outra visão sobre aqueles indivíduos, ainda que a privacidade de cada um deles tomado isoladamente não tenha sido violada.
Finalmente, Dwork mostra como a definição de Dalenius, embora extremamente útil na formulação de requisitos mais precisos, não se sustenta quando se considera a presença de informações auxiliares que não pertencem ao banco de dados. Suponha que um determinado banco de dados estatísticos informe a média de altura das mulheres suecas. Uma informação extra de que Pamela Jones é 5 centímetros mais baixa que a média das mulheres suecas, juntamente com o acesso ao banco de dados, nos revela a altura de Pamela Jones, muito embora ninguém com acesso apenas ao banco de dados tenha elementos suficientes para concluir qual é a altura da atriz. Note que ela sequer teria que estar no banco de dados para que o ataque descrito pudesse ser perpetrado contra sua pessoa. De modo geral, aquilo para o qual os bancos de dados estatísticos são concebidos para informar podem, ainda que indiretamente, causar danos a um indivíduo, mesmo que esse indivíduo não esteja no banco de dados. Esse é um caso típico de “ataque de acoplamento” em que certos dados, que aqui denominamos de “informações auxiliares”, são acoplados a outros bancos de dados ou fontes de informação com vistas à obtenção de informações sensíveis e privadas que deveriam estar sob a devida proteção.
Como alternativa, Dwork sugere a noção de “privacidade diferencial”: formulada e analisada nos últimos cinco anos por especialistas em tecnologias de preservação da privacidade, a definição de privacidade diferencial veio justamente para resolver um problema fundamental nessa área que diz respeito à definição dos contornos, e tornar mais precisa a sua delimitação. Em poucas palavras, os requisitos de privacidade diferencial buscam prover meios de maximizar a precisão das consultas a bancos de dados estatísticos, ao mesmo tempo em que minimiza as chances de que os registros sejam identificados. Tecnicamente, a privacidade diferencial requer que as chances de ocorrência de resultados sejam essencialmente as mesmas, independente da presença de qualquer indivíduo no banco de dados. Dessa forma, a garantia da privacidade diferencial permite que cada indivíduo seja incentivado a fazer parte das estatísticas, visto que o risco de perda de privacidade é minimizado.
Com efeito, quando se têm armazenados em bancos de dados de interesse público muitos dados sensíveis de indivíduos, surge o problema do controle de revelação estatística: como revelar dados estatísticos precisos sobre um conjunto de respondentes preservando, ao mesmo tempo, a privacidade dos indivíduos? Trata-se de problema de grande relevância e de tamanha importância que seu tratamento na literatura tem sido extenso e amplamente multidisciplinar: além da estatística, o problema é alvo de pesquisadores em computação teórica, segurança da informação, bancos de dados, e até mesmo criptografia. O fato é que os bancos de dados estatísticos podem ser de valor social inestimável, pois são usados para a alocação de recursos, para a avaliação de terapias médicas assim como a vigilância epidemiológica, sem falar nos benefícios em termos de política econômica.
Muitas podem ter sido as formas através das quais os dados foram obtidos, desde aquelas oficiais e obrigatórias tais como um recenseamento público, os registros governamentais referentes à arrecadação de impostos, passando por aquelas resultantes de coletas circunstanciais tais como o tráfego na internet, compras eletrônicas, e termos de busca submetidos a engenhos de busca, chegando até aquelas produzidas por atos altruístas de respondentes que espontaneamente compartilham informações na intenção em benefício do bem comum. A análise dos dados estatísticos podem servir a diversos propósitos: (i) encontrar correlações no caso de dados médicos e de saúde; (ii) melhorar serviços públicos, incluindo serviços tecnológicos tais como o refinamento de resultados de busca na internet, assim como a associação de anúncios a termos de consulta; (iii) permitir melhor agrupamento em mineração de dados, em árvores de decisão, em análise de componentes principais. Em todos os casos, há a promessa ou o compromisso de proteção à privacidade aos respondentes. O fato é que a promessa pode ser descumprida conforme a ameaça ao “curador” do banco de dados. Nesse ponto surge a noção de pan-privacidade.
Em artigo recente (“Pan-Private Streaming Algorithms”, First Symposium on Innovations in Computer Science, Jan/2010), C. Dwork, M. Naor, T. Pitassi, G. Rothblum e S. Yekhanin começam lembrando que entidades coletoras de dados confidenciais, tais como bibliotecas, órgãos governamentais, hospitais, redes sociais, e até mesmo provedores de engenhos de busca, podem vir a sofrer pressão para permitir que dados sejam usados para propósitos diferentes daqueles para os quais os dados foram coletados. A idéia é que, quando o propósito da coleta de dados é a análise estatística, pode não haver necessidade de armazenar as informações uma vez que a análise esteja concluída. De forma geral, se a análise ainda estiver em andamento, informações obsoletas podem ser razoavelmente descartadas à medida em que novas informações são coletadas. E isso sugere a necessidade de uma busca por algoritmos de fluência (“streaming”) de dados que preservem a privacidade, levando à classe dos “algoritmos de pan-privacidade”: algoritmos que retêm suas propriedades de privacidade mesmo que seu estado interno se torne visível a um adversário.  
Trazendo contribuições tanto de natureza definicional quanto algorítmica, os autores introduzem duas novas noções: pan-privacidade e privacidade a nível de usuário. Entre os resultados algorítmicos obtidos estão algoritmos de fluência pan-privados para diversas tarefas de contagem: estimativa do número de elementos distintos num fluxo de dados, e estimativa de contagem de freqüência (“quantos itens aparecem no fluxo exatamente k vezes?”).
No final das contas, o requisito da pan-privacidade visa eliminar, na prática, os riscos inerentes ao compartilhamento de informações ainda que na presença de uma intrusão, dessa forma encorajando ainda mais a participação do indivíduo numa coleta de dados assim protegida. E como uma intrusão pode ocorrer a qualquer momento, inclusive num futuro distante, o design de algoritmos pan-privados é interessante mesmo quando vai gerar uma única saída.
 
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE