Páginas

terça-feira, 26 de outubro de 2010

O Rastreamento de Dados do Internauta Infantil


O Rastreamento de Dados do Internauta Infantil

E-mailImprimirPDF
Novos avanços tecnológicos da última década na indústria do anúncio na internet têm levado a privacidade de crianças a um nível de risco cada vez maior. Nos dias de hoje as crianças crescem num ambiente de mídias digitais ubíquas no qual dispositivos móveis, sistemas de mensagem instantânea, redes sociais, realidade virtual, avatares, vídeo games interativos, e vídeo online têm se tornado parte integrante de suas experiências pessoais e sociais. A convivência online é uma realidade, e alguns números refletem isso: segundo a revista Advertising Age, mais de 16 milhões de crianças americanas entre 2 e 11 anos estão online, o que significa um crescimento de 18% no período de 2004 a 2009, o maior percentual de crescimento entre as faixas etárias, segundo um relatório da Nielsen intitulado “On-Demand Generation Will Pay to Play”, de Abril de 2010. O mesmo relatório informa que, numa pesquisa conduzida em Julho de 2009, foi constatado que o tempo que as crianças de 2 a 11 anos passam conectadas cresceu de 7 horas para 11 horas por semana. Por outro lado, um estudo da comScore revelou que, no Brasil, em Maio de 2010, os usuários de internet na faixa etária de 6 a 14 anos já representavam cerca de 12% da população online.
Uma matéria de 17/09/10 do Wall Street Journal (“On the Web, Children Face Intensive Tracking”, por Steve Stecklow) revela que diversos dos mais populares portais voltados para o público infantil têm feito intenso uso de tecnologias de rastreamento de hábitos de navegação com o objetivo de formar perfis de usuários, muito mais até do que os portais destinados ao público adulto. Quando o Congresso Americano aprovou, em 1998, a lei de proteção à privacidade online da criança (“Children Online Privacy Protection Act”, abrev. COPPA), o único meio de acesso aos serviços online e de internet era o computador. Hoje, no entanto, as crianças dispõem de muitas outras vias de acesso a esse universo virtual. Por essa razão, diversas entidades americanas, lideradas pelo Center for Digital Democracy, submeteu uma solicitação de pronunciamento público à Federal Trade Commission (FTC), em 30/06/10, com respeito à atualização dos procedimentos da FTC relativos ao cumprimento do COPPA, assim como a tão desejada e já iniciada atualização da própria lei, face às novas circunstâncias. No documento, as demandantes urgem a FTC a esclarecer ou definir certos termos usados no COPPA e nas regras da FTC, e a assumir um papel mais pró-ativo na transparência e informação ao público sobre como os marqueteiros estão coletando e usando informações e sobre indivíduos.
Em sua essência, o COPPA proíbe os operadores de portais de, em sã consciência, coletar informações pessoalmente identificáveis de crianças menores de 13 anos sem o consentimento explícito dos pais. A lei exige também que esses operadores coletem apenas informações pessoais que sejam “razoavelmente necessárias” para uma atividade online. Tendo sido aprovado em 1998, mas somente vigorando a partir de 2000, o COPPA prevê que informações pessoais incluem nome completo, endereço residencial ou eletrônico, número de telefone ou o número de seguridade social. A intenção foi dar aos pais o controle sobre as informações coletadas de seus filhos online, e sobre como essas informações são usadas e compartilhadas.
Com a chegada dos navegadores lá pelos idos de 1993, muitas foram as tentativas de conceber modelos de negócio que pudessem transformar em receita as visitas de usuários a páginas na internet. O grande acontecimento nessa área foi sem dúvida o fato de a Google ter forjado, na virada do milênio, o modelo de negócios que veio a dominar a web até os dias de hoje, oferecendo uma variedade de serviços de internet altamente atraentes e a custo zero, desde busca, passando por mapas, até correio eletrônico, que acabam sendo, na realidade, financiados através de um sistema de anúncios altamente sofisticado e lucrativo. É fato também que desde o início a indústria do anúncio na web percebeu o valor do direcionamento e da relevância do anúncio para o consumidor alvo. Os sistemas de recomendação, que tiveram na Amazon.com um pioneiro, têm desde então quase que removido as barreiras entre o comércio e o consumidor ao fazer marketing de compras futuras baseado em escolhas anteriores. É daí que começam a surgir as tecnologias de rastreamento do internauta, que permitem maior eficácia no direcionamento da propaganda. A rigor, embora extremamente ubíquo nos dias de hoje, o rastreamento de hábitos de navegação e de compra se tornou possível quando o Netscape introduziu os minúsculos arquivos de texto conhecidos como “cookies”, com o propósito de propiciar mais conveniência ao internauta memorizando conteúdos de carrinhos de compra na web, além de outras informações que pudessem oferecer uma melhor experiência, tais como a memorização da própria senha de entrada num portal que não precisaria ser fornecida novamente numa segunda visita.
Naquela época, a indústria do anúncio online se encontrava em sua primeira infância. À medida que os anúncios na web começaram a aparecer mais intensamente durante o boom da era ponto-com do final dos anos 1990’s, os anunciantes compravam espaços para seus anúncios com base na proximidade do conteúdo das páginas nas quais esse espaço era oferecido. Atualmente, os anunciantes estão dispostos a pagar um preço adicional para poder seguir seu público alvo onde quer que ele esteja, com mensagens altamente específicas. O fato é que hoje o consumidor alvo, seja ele adulto, criança ou adolescente, dispõe de diversas formas de acesso à internet além do computador pessoal, e serviços online incluindo aparelhos celulares, consoles de videogame, e televisão interativa, e as novas tecnologias de anúncio se tornam cada vez mais sofisticadas e ubíquas.
Segundo matéria publicada em 30/07/10 no Wall Street Journal (“The Web's New Gold Mine: Your Secrets”, por Julia Angwin), o rastreamento de consumidores é a base de uma economia de anúncios online que movimentou 23 bilhões de dólares em gastos com propaganda no ano passado. E nesse contexto, a atividade de rastreamento cresce a passos largos: pesquisadores dos AT&T Labs e do Worcester Polytechnic Institute encontraram, em 2009, tecnologia de rastreamento em 80% de 1.000 portais populares, percentual que se encontrava em 40% daqueles portais em 2005.
As minúsculas ferramentas de rastreamento são, de modo geral, utilizadas pelas empresas de coleta de dados para seguir as pessoas em seus movimentos de navegação na rede. A partir dessas informações as empresas montam perfis detalhando suas atividades online, que adquirem um alto valor agregado sobretudo para os anunciantes. Esses perfis não incluem nomes, mas podem incluir idade, preferências, hobbies, hábitos de compra, raça, propensão a participar de blogs através de comentários, e até a localização geográfica a nível de cidade.
Em geral, vender esses dados não é ilegal, porém desperta enorme controvérsia, principalmente quando envolve crianças ou adolescentes. No final das contas, independentemente da legislação existente, a verdadeira proteção a crianças e adolescentes contra a venda e o mau uso de seus dados pessoais deve ser mesmo a educação sobre o que está envolvido nesse mundo das tecnologias de rastreamento. Como diz danah boyd, pesquisadora do Berkman Center (Harvard), em seu artigo “How COPPA Fails Parents, Educators, Youth” (10/06/10), para que as boas intenções de uma legislação como o COPPA venham a surtir efeito, é preciso “encontrar maneiras de ajudar os cidadãos digitais a entender como suas informações são utilizadas, que direitos eles têm, e como as políticas que existem afetam suas vidas”.
 
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE

terça-feira, 5 de outubro de 2010

Privacidade em Análise de Dados, Privacidade Diferencial e Pan-Privacidade


Privacidade em Análise de Dados, Privacidade Diferencial e Pan-Privacidade

E-mailImprimirPDF
Normalmente, a perda da privacidade por vazamento de informações está associada a algum tipo de falha no controle de acesso à informação, no controle do fluxo da informação, ou mesmo no controle dos propósitos aos quais a informação foi destinada. A bem da verdade, na era da tecnologia digital, muitas são as ameaças à privacidade de dados eletrônicos, desde o roubo de informações, passando pelos ataques de phishing e de vírus, e chegando até à famigerada e muitas vezes um tanto traiçoeira mudança de política de privacidade de redes sociais ou de portais de acesso a serviços de internet. Não obstante, há um cenário não exatamente incomum em que assegurar a privacidade é um desafio mesmo que todos os problemas de controle estejam resolvidos: a análise estatística de dados com preservação da privacidade.
Em 1977 coube ao estatístico Tore Dalenius uma definição geral dos objetivos de privacidade para bases de dados estatísticos: tudo que se pode aprender sobre um respondente da base de dados deve ser possível aprender sem acesso à base de dados.  Em palestra recente no Berkman Center de Harvard (“I'm in the Database, but Nobody Knows”, 28/09/10), Cynthia Dwork explica por que qualquer definição como essa, embora essencialmente intuitiva, é problemática quando interpretada em cenários concretos.
Em artigo intitulado “A Firm Foundation for Private Data Analysis” (a ser publicado em Janeiro/2011 na revista “Communications of the ACM”), Dwork lembra que são várias as tentativas na literatura de formalizar o objetivo de Dalenius (às vezes até mesmo inconscientemente) impondo o requisito de que as visões sobre um indivíduo antes e depois de ter acesso ao banco de dados que um adversário venha a ter não devam ser muito diferentes, ou que o acesso ao banco de dados não deva mudar substancialmente o conhecimento que o adversário tem do indivíduo. Infelizmente, trata-se de um requisito inatingível, pois se o banco de dados detém informações sobre indivíduos, é inevitável que após o acesso ao banco de dados o adversário terá outra visão sobre aqueles indivíduos, ainda que a privacidade de cada um deles tomado isoladamente não tenha sido violada.
Finalmente, Dwork mostra como a definição de Dalenius, embora extremamente útil na formulação de requisitos mais precisos, não se sustenta quando se considera a presença de informações auxiliares que não pertencem ao banco de dados. Suponha que um determinado banco de dados estatísticos informe a média de altura das mulheres suecas. Uma informação extra de que Pamela Jones é 5 centímetros mais baixa que a média das mulheres suecas, juntamente com o acesso ao banco de dados, nos revela a altura de Pamela Jones, muito embora ninguém com acesso apenas ao banco de dados tenha elementos suficientes para concluir qual é a altura da atriz. Note que ela sequer teria que estar no banco de dados para que o ataque descrito pudesse ser perpetrado contra sua pessoa. De modo geral, aquilo para o qual os bancos de dados estatísticos são concebidos para informar podem, ainda que indiretamente, causar danos a um indivíduo, mesmo que esse indivíduo não esteja no banco de dados. Esse é um caso típico de “ataque de acoplamento” em que certos dados, que aqui denominamos de “informações auxiliares”, são acoplados a outros bancos de dados ou fontes de informação com vistas à obtenção de informações sensíveis e privadas que deveriam estar sob a devida proteção.
Como alternativa, Dwork sugere a noção de “privacidade diferencial”: formulada e analisada nos últimos cinco anos por especialistas em tecnologias de preservação da privacidade, a definição de privacidade diferencial veio justamente para resolver um problema fundamental nessa área que diz respeito à definição dos contornos, e tornar mais precisa a sua delimitação. Em poucas palavras, os requisitos de privacidade diferencial buscam prover meios de maximizar a precisão das consultas a bancos de dados estatísticos, ao mesmo tempo em que minimiza as chances de que os registros sejam identificados. Tecnicamente, a privacidade diferencial requer que as chances de ocorrência de resultados sejam essencialmente as mesmas, independente da presença de qualquer indivíduo no banco de dados. Dessa forma, a garantia da privacidade diferencial permite que cada indivíduo seja incentivado a fazer parte das estatísticas, visto que o risco de perda de privacidade é minimizado.
Com efeito, quando se têm armazenados em bancos de dados de interesse público muitos dados sensíveis de indivíduos, surge o problema do controle de revelação estatística: como revelar dados estatísticos precisos sobre um conjunto de respondentes preservando, ao mesmo tempo, a privacidade dos indivíduos? Trata-se de problema de grande relevância e de tamanha importância que seu tratamento na literatura tem sido extenso e amplamente multidisciplinar: além da estatística, o problema é alvo de pesquisadores em computação teórica, segurança da informação, bancos de dados, e até mesmo criptografia. O fato é que os bancos de dados estatísticos podem ser de valor social inestimável, pois são usados para a alocação de recursos, para a avaliação de terapias médicas assim como a vigilância epidemiológica, sem falar nos benefícios em termos de política econômica.
Muitas podem ter sido as formas através das quais os dados foram obtidos, desde aquelas oficiais e obrigatórias tais como um recenseamento público, os registros governamentais referentes à arrecadação de impostos, passando por aquelas resultantes de coletas circunstanciais tais como o tráfego na internet, compras eletrônicas, e termos de busca submetidos a engenhos de busca, chegando até aquelas produzidas por atos altruístas de respondentes que espontaneamente compartilham informações na intenção em benefício do bem comum. A análise dos dados estatísticos podem servir a diversos propósitos: (i) encontrar correlações no caso de dados médicos e de saúde; (ii) melhorar serviços públicos, incluindo serviços tecnológicos tais como o refinamento de resultados de busca na internet, assim como a associação de anúncios a termos de consulta; (iii) permitir melhor agrupamento em mineração de dados, em árvores de decisão, em análise de componentes principais. Em todos os casos, há a promessa ou o compromisso de proteção à privacidade aos respondentes. O fato é que a promessa pode ser descumprida conforme a ameaça ao “curador” do banco de dados. Nesse ponto surge a noção de pan-privacidade.
Em artigo recente (“Pan-Private Streaming Algorithms”, First Symposium on Innovations in Computer Science, Jan/2010), C. Dwork, M. Naor, T. Pitassi, G. Rothblum e S. Yekhanin começam lembrando que entidades coletoras de dados confidenciais, tais como bibliotecas, órgãos governamentais, hospitais, redes sociais, e até mesmo provedores de engenhos de busca, podem vir a sofrer pressão para permitir que dados sejam usados para propósitos diferentes daqueles para os quais os dados foram coletados. A idéia é que, quando o propósito da coleta de dados é a análise estatística, pode não haver necessidade de armazenar as informações uma vez que a análise esteja concluída. De forma geral, se a análise ainda estiver em andamento, informações obsoletas podem ser razoavelmente descartadas à medida em que novas informações são coletadas. E isso sugere a necessidade de uma busca por algoritmos de fluência (“streaming”) de dados que preservem a privacidade, levando à classe dos “algoritmos de pan-privacidade”: algoritmos que retêm suas propriedades de privacidade mesmo que seu estado interno se torne visível a um adversário.  
Trazendo contribuições tanto de natureza definicional quanto algorítmica, os autores introduzem duas novas noções: pan-privacidade e privacidade a nível de usuário. Entre os resultados algorítmicos obtidos estão algoritmos de fluência pan-privados para diversas tarefas de contagem: estimativa do número de elementos distintos num fluxo de dados, e estimativa de contagem de freqüência (“quantos itens aparecem no fluxo exatamente k vezes?”).
No final das contas, o requisito da pan-privacidade visa eliminar, na prática, os riscos inerentes ao compartilhamento de informações ainda que na presença de uma intrusão, dessa forma encorajando ainda mais a participação do indivíduo numa coleta de dados assim protegida. E como uma intrusão pode ocorrer a qualquer momento, inclusive num futuro distante, o design de algoritmos pan-privados é interessante mesmo quando vai gerar uma única saída.
 
Ruy José Guerra Barretto de Queiroz, Professor Associado, Centro de Informática da UFPE