Como 160.000 comunicações interceptadas levaram à nossa história mais recente da NSA

Blogs

No fim de semana passado, a ALES publicou uma história que escrevi com Julie Tate e Ashkan Soltani sobre a vigilância da Agência de Segurança Nacional que varre as conversas de pessoas que não são alvos estrangeiros. A história, baseada em 160.000 comunicações interceptadas que recebi do ex-contratante da NSA Edward Snowden, provocou muitas perguntas, objeções e, eu acho, mal-entendidos.

Alguns leitores e comentaristas descreveram a história como uma afirmação exagerada do óbvio: que a vigilância de uma pessoa inclui o conteúdo das pessoas que falam com ela. Outros disseram que a ALES, não o governo, invadiu a privacidade de inocentes porque publicamos suas conversas e a NSA não. Na opinião de alguns críticos, mostramos ignorância sobre os sistemas da NSA ou optamos conscientemente por distorcer a forma como eles funcionam.

(Transcrição: Perguntas e Respostas com Barton Gellman)

A vigilância da NSA é um assunto complexo - jurídica, técnica e operacionalmente. Elaboramos a história cuidadosamente e a defendemos. Quero desvendar alguns dos principais pontos e controvérsias, acrescentando novo material para o contexto. Nesse formato, posso oferecer mais detalhes técnicos sobre o conjunto de dados fornecido por Snowden e os métodos que usamos para analisá-lo. Também irei abordar algumas questões éticas e de segurança nacional que enfrentamos. Ao longo do caminho, explicarei por que nossa história realmente subestimou suas descobertas, esclarecerá as especulações sobre a espionagem do presidente Obama e verificarei um tweet recente da CIA sobre senhas perdidas.

Vamos começar dando uma olhada em nossa liderança:

Os usuários comuns da Internet, americanos e não americanos, superam em muito os estrangeiros legalmente visados ​​nas comunicações interceptadas pela Agência de Segurança Nacional das redes digitais dos EUA, de acordo com uma investigação de quatro meses da ALES.

Imagine uma grande pilha de conversas interceptadas pela NSA. Nele estão o texto de bate-papos e e-mails junto com fotos e outros tipos de arquivos que alguém enviou para outra pessoa. Contamos todas as pessoas que participaram dessas comunicações (ou mais precisamente, o número de contas online únicas) e comparamos esse número com o número que a NSA pretendia.

A maioria das contas que encontramos na pilha não eram alvos da NSA e não seriam qualificadas legalmente como tal. Alguns comentaristas disseram que isso não é surpreendente e nada notável. Eu voltarei a isso.

Em seguida, colocamos um número nele:

Nove entre 10 correntistas encontrados em um grande cache de conversas interceptadas, que o ex-contratante da NSA Edward Snowden forneceu integralmente ao The Post, não eram os alvos de vigilância pretendidos, mas foram pegos em uma rede que a agência lançou para outra pessoa.

Esse número é realmente muito baixo, mas foi o único que pudemos medir com alguma precisão. Um gráfico de Todd Lindeman o detalhou. Encontramos cerca de 11.400 contas online exclusivas. Entre eles, cerca de 1.200 foram designados pela NSA como alvos estrangeiros. Os mais de 10.000 restantes eram semelhantes a espectadores digitais. Alguns deles conheciam os alvos da NSA e conversaram com eles. Outros caíram na pilha entrando em uma sala de bate-papo, independentemente do assunto, ou usando um serviço online hospedado em um servidor que um alvo usava para algo totalmente diferente.

Não tínhamos uma lista oficial de alvos da NSA. Nós mesmos tínhamos que encontrá-los na pilha. Soltani, um independente investigador , fez a maior parte do trabalho pesado nisso. Como as informações não eram dispostas em linhas e colunas, como deveriam ser em uma planilha, Soltani escreveu um código de computador para extrair o que estávamos procurando de algo como um quarto de milhão de páginas de texto não estruturado.

Algumas de nossas perguntas não puderam ser respondidas com os dados de que dispomos. Por esse motivo, nossa história não disse o que alguns comentaristas lhe imputaram.

Essas são distinções sutis, mas são importantes porque relatamos apenas o que podíamos contar. Não dissemos que a NSA interceptou um número maior de conversas ou um volume maior de conteúdo pertencente a transeuntes do que a alvos. Dissemos que havia mais participantes (contas online únicas) nessas conversas que não eram alvos do que participantes que eram.

Também não dissemos que há mais americanos do que alvos estrangeiros na pilha. Suspeitamos que a proposição pode ser verdadeira, mas não podemos estabelecê-la de maneira confiável.

Aqui, a partir do terceiro parágrafo, estão algumas das coisas que poderíamos contar:

Quase metade dos arquivos de vigilância, uma proporção surpreendentemente alta, continha nomes, endereços de e-mail ou outros detalhes que a NSA marcou como pertencentes a cidadãos ou residentes dos EUA. Os analistas da NSA mascararam, ou minimizaram, mais de 65.000 dessas referências para proteger a privacidade dos americanos, mas o The Post encontrou quase 900 endereços de e-mail adicionais, desmascarados nos arquivos, que poderiam estar fortemente vinculados a cidadãos ou residentes dos EUA.

Essas são três medidas separadas e significativas.

1. Americanos - falando, sendo falado ou falado - foram identificáveis ​​em quase metade dos arquivos que continham conversas interceptadas. Esse foi um resultado que não esperávamos da vigilância dirigida a estrangeiros localizados no exterior.

2. A NSA ingeriu tanto conteúdo ao espionar 1.250 estrangeiros que teve que ocultar 65.000 referências a cidadãos americanos e titulares de green card. Esse número não inclui empresas dos EUA, que também são pessoas dos EUA sob a lei de vigilância.

3. Os analistas da NSA deixaram um número substancial de endereços de e-mail dos EUA sem máscara. Pesquisando dados públicos e comercialmente disponíveis, os pesquisadores Julie Tate e Jennifer Jenkins de Soltani e ALES vincularam cerca de 900 das contas capturadas a identidades dos EUA. Suas fontes basearam-se em pesquisas padrão na Internet, registros de registro de contas, alterações de endereço postal dos EUA, bancos de dados de marketing de produtos, processos judiciais e listas de registro de eleitores. A qualidade desses dados é imperfeita, mas é provável que sejam precisos na maioria dos casos.

Das forças armadas à NSA e ao Departamento do Tesouro, a PostTV divide as 16 diferentes agências e organizações que coletam inteligência para o governo dos EUA - e o 17º escritório que supervisiona todas elas. (Davin Coburn / ALES)Americanos ‘incidentais’ e ‘minimizados’

Os termos e regras de minimização são opacos e frequentemente usados ​​para desviar o debate público. A NSA está proibida de mirar em cidadãos americanos, titulares de green-card ou empresas para vigilância sem um mandado individual de um juiz. Se ela atinge americanos inadvertidamente - acreditando que eles sejam estrangeiros, então descobrindo o contrário - a NSA normalmente descarta suas conversas.

Tudo isso é bom para a privacidade, mas tem pouco a ver com a maneira como os americanos são realmente capturados pelos sistemas de coleta da NSA. Os serviços de inteligência dos EUA usam rotineiramente métodos de coleta contra estrangeiros que previsivelmente - com certeza - também ingerem grandes volumes de comunicações dos EUA.

Isso é chamado de coleção incidental. A NSA não descarta essas conversas nos EUA. Ele os armazena, com nomes sem censura, em um repositório chamado PINWALE e outros bancos de dados centrais. Nenhuma lei proíbe a NSA de pesquisar dentro desse conteúdo por nomes dos EUA e outros identificadores, e ela o faz. A CIA também o faz, e o FBI relatou recentemente que pesquisa os dados tão rotineiramente que não consegue fornecer uma contagem. As regras de minimização colocam condições nessas pesquisas e limitam, mas não proíbem, a distribuição de identidades dos EUA em relatórios para outras agências.

Não há como evitar a coleta acidental, mas as escolhas de políticas decidem quanto acontecerá e o que a NSA e outras agências podem fazer com seus frutos.

Em uma passagem pouco notada de seu relatório, o Grupo de Revisão de Tecnologias de Inteligência e Comunicações do presidente pediu no final do ano passado ( Recomendação 12, pág. 28 ) que as informações adquiridas acidentalmente sobre os americanos devem ser eliminadas assim que forem detectadas, a menos que forneçam inteligência estrangeira valiosa ou alertem sobre danos graves a terceiros. Muito do que a NSA mantém agora provavelmente teria que ser descartado sob esse padrão. O presidente e sua equipe o colocaram de lado sem comentários públicos.

Até agora não foi possível debater a coleta incidental em termos concretos. Não sabíamos o quanto disso aconteceu ou a natureza do conteúdo privado coletado. A NSA não responde a perguntas em público sobre essas coisas. O Escritório do Diretor de Inteligência Nacional afirma que não é capaz nem mesmo de estimar quantos americanos são afetados. E nenhum vigilante externo - incluindo o Congresso, os tribunais, o Conselho de Supervisão de Privacidade e Liberdades Civis ou o Grupo de Revisão de Tecnologias de Inteligência e Comunicação - teve acesso a conteúdo interceptado suficiente para julgar por si mesmo.

_ Quando você assume. . . ’

Alguns veteranos da inteligência argumentaram esta semana que nossa história divulgou fatos não surpreendentes. O ex-conselheiro geral da NSA, Stewart Baker, escreveu (no site The Post) que a vigilância de um alvo obviamente adquire a comunicação de outras pessoas. (Pesquisadores de redes sociais em todos os lugares: Bem, duh, cientista da computação Robert Olson tuitou .)

Se isso é tudo que o Post estava dizendo, de acordo com Baker:

. . . o viés inerente à medida é tal que exige um reconhecimento. (Afinal, isso permite que você diga 'metade de todos os titulares de contas no banco de dados não eram o alvo' se a agência armazenar apenas uma única mensagem enviada ao destino.) Isso é algo que qualquer editor senciente parcial deveria ter reconhecido.

Como observei acima, concordamos que a coleção incidental, em abstrato, não era novidade. Quase no início de nossa história, dissemos que é inevitável em muitas formas de vigilância.

A escala dessa coleção e os segredos íntimos que ela revela podem não surpreender os sábios da inteligência, que entendem os efeitos colaterais da vigilância e consideram a intromissão um dado adquirido. É, no entanto, surpreendente - e, com base nas reações do leitor, perturbador - para muitas pessoas que confiaram em garantias públicas de que a NSA se concentra fortemente em alvos estrangeiros e não pode ler e-mails dos EUA sem um mandado.

Esta é a forma como formulamos essa questão:

Os arquivos de vigilância destacam um dilema de política que foi ao ar apenas de forma abstrata em público. Existem descobertas de considerável valor de inteligência nas mensagens interceptadas - e danos colaterais à privacidade em uma escala que o governo Obama não está disposto a abordar.

Marc Ambinder, jornalista que escreveu muito sobre vigilância, fez uma crítica mais detalhada. Ele merece uma resposta um pouco mais longa porque foi amplamente citado. Ambinder baseou sua conclusão de que nossa história foi um fracasso em suposições incorretas sobre nosso conjunto de dados e descrições errôneas dos sistemas que a NSA usa para interceptar e processar comunicações.

De acordo com a Seção 702 da Lei de Vigilância de Inteligência Estrangeira emendada, Ambinder escreve, as operações domésticas da NSA começam com uma classe de alvos certificados pelo tribunal - como 'funcionários do governo russo que vivem em Utah'. Na verdade, as classes de alvos certificados pelo tribunal da FISA são muito mais amplas (A Rússia, como um todo, é um dos 193 países certificados de interesse) e o tribunal não é informado dos alvos específicos que a NSA seleciona de uma classe certificada. Isso dá à agência muito mais latitude para vigilância do que Ambinder sugere.

Em seguida, escreve Ambinder, a NSA tenta eliminar o máximo [possível] dos e-mails e bate-papos dos alvos com pessoas dentro dos Estados Unidos automaticamente. Isso está incorreto. Existem sistemas que tentam derrotar, ou filtrar, conversas que são exclusivamente domésticas ou apenas entre americanos. Mas a NSA não tem obrigação legal e, na prática, não tenta filtrar os cidadãos ou residentes dos EUA que se comunicam com um alvo estrangeiro.

Esses dois erros trazem Ambinder ao seu principal argumento, que é que a alta proporção de coleta incidental e as identidades desmascaradas dos EUA que encontramos resultam de limites técnicos do sistema de minimização automatizado. Mas isso não é um problema, ele escreve, porque os defeitos são curados manualmente mais tarde no processo. Os analistas da NSA são obrigados apenas a minimizar todas as comunicações de americanos que veem, escreve ele, e nossa história foi baseada em conteúdo interceptado que os analistas ainda não examinaram.

A comunicação simplesmente não foi analisada. Nenhum ser humano viu. Os repórteres do Post analisaram cada linha de 160.000 interceptações. Os analistas da NSA não fazem isso / não podem fazer isso porque o sistema SIGINT não funcionaria por um segundo se o fizessem.

Isso também está errado. Tudo na amostra que analisamos foi avaliado por analistas da NSA no Havaí, retirado dos repositórios centrais da agência e minimizado manualmente após esforços automatizados para filtrar identidades dos EUA. Eu descrevo os dados mais detalhadamente perto do final deste post.

Se nossa amostra não tivesse sido avaliada, muito mais de 90% das pessoas nela não teriam sido alvos. Se não tivesse sido minimizado, teríamos encontrado muito mais americanos do que identificamos por conta própria.

senado aprovará outro estímulo
Por que nossas descobertas foram subestimadas

Nos números que relatamos, incluímos todas as contas online desmascaradas. Não incluímos as contas minimizadas porque não tínhamos como saber quantas eram exclusivas.

Por exemplo, poderíamos contar 2.721 ocorrências do termo pessoa dos EUA minimizada, 5.060 de nome de usuário dos EUA minimizado e 57.331 de endereço IP dos EUA minimizado. (Existem pouco mais de 1.000 categorias adicionais de conteúdo minimizado.) Mas, em teoria, não podemos descartar que todos esses termos correspondam a uma única pessoa - uma figura semelhante a Zelig cujas conversas de alguma forma abrangeram um universo de 11.000 contas. Na realidade, é provável que as identidades dos EUA mascaradas cheguem a centenas ou milhares.

Não incluímos nenhum deles em nossas estatísticas, porque optamos por não imputar um número que não podíamos contar. Dentre as contas que pudemos identificar com segurança, 900 pertenciam a americanos e 1.250 a estrangeiros. Se apenas 400 das dezenas de milhares de identidades norte-americanas mascaradas forem exclusivas, o banco de dados conterá mais americanos do que alvos estrangeiros legais.

‘Presidente minimizado dos EUA entra em um bar’

Um monte de fechar leitores incompreendido uma passagem, no fundo de nossa história, que se referia ao presidente Obama. Eles pensaram que isso significava que a NSA estava interceptando seu e-mail. Não foi. (Espiar o presidente é o tipo de notícia que você provavelmente pode contar com o The Post para colocar no topo.) Se eu tivesse previsto essa leitura, teria escrito os seguintes parágrafos de maneira diferente:

Mais de 1.000 termos de minimização distintos aparecem nos arquivos, tentando mascarar as identidades de possíveis, potenciais e prováveis ​​pessoas dos EUA, juntamente com os nomes de empresas de bebidas dos EUA, universidades, cadeias de fast-food e hosts de Webmail.

Alguns deles beiram o absurdo, usando títulos que poderiam se aplicar a apenas um homem. Um presidente eleito minimizado dos EUA começa a aparecer nos arquivos no início de 2009, e as referências ao atual presidente eleito minimizado aparecem 1.227 vezes nos quatro anos seguintes.

Nenhuma dessas foram conversas em que Obama participou. Nós verificamos cuidadosamente. As estatísticas referem-se, em vez disso, a conversas em que outra pessoa mencionou o nome do presidente. Nenhum deles envolveu informações privilegiadas.

Em uma conversa interceptada, alguém conta uma piada que começa: [PESSOA DOS EUA MINIMIZADA] e [PRESIDENTE DOS EUA MINIMIZADA] entram em um bar. A piada chega ao genocídio. Não é uma piada amigável. Em outra troca, alguém zomba de um conhecido dizendo que seu conselho sobre as mulheres é como um conselho sobre o Islã de [MINIMIZADO EX-PRESIDENTE DOS EUA].

Alguns mal-entendidos são difíceis de curar. Eu anotei no Twitter em Domingo e Segunda-feira que as conversas de Obama não foram interceptadas. Vários dos que responderam foram não inclinado para acreditam isto.

Muitas pessoas perguntaram, desde a publicação da história, se encontramos conversas interceptadas de outras autoridades eleitas, juízes, jornalistas ou organizações não governamentais. Nós não. Os arquivos incluem referências minimizadas a um senador, um membro do Congresso, três juízes, três emissoras dos EUA e várias ONGs. Em todos esses casos, os assuntos foram mencionados por outras pessoas em conversas sobre eventos públicos.

Nossa referência a Obama foi feita para mostrar outro ponto. Comparamos o cuidado escrupuloso da NSA com a minimização, em muitos contextos, com políticas que permitem a um analista confiar em evidências duvidosas como base para julgar um alvo como inelegível para essa proteção de privacidade. Encontramos muitos casos em que os analistas basearam uma crença razoável de estrangeiro no fato de que o alvo estava falando um idioma estrangeiro ou se conectando a partir de um endereço IP que parecia ser estrangeiro. Esses critérios se aplicariam a dezenas de milhões de americanos.

Suporte técnico de Langley

A CIA abriu uma conta no Twitter no mês passado e usou o humor atrevido para ganhar um grande número de seguidores em pouco tempo. Na segunda-feira, a conta foi enviada este anúncio : Não, não sabemos sua senha, por isso não podemos enviá-la para você. Tornou-se viral, com mais de 12.000 retuítes.

Na verdade, os arquivos da NSA que examinamos incluíam 1.152 senhas minimizadas dos EUA, ou seja, senhas para contas de e-mail e bate-papo americanas interceptadas de links de dados dos EUA. Não espere suporte técnico de Langley, mas a CIA tem acesso a esse tráfego bruto.

youtube charlie mordeu meu dedo
‘Inocente’ v. ‘Íntimo’

A crítica de Stewart Baker à nossa história fez um segundo ponto que não mencionei acima:

A história é construída em torno da afirmação implícita de que 90% dos dados de interceptação da NSA são sobre pessoas inocentes. Acho que a estatística é falsa.

Não foi isso que a história disse ou o que significou. Não tentamos medir a culpa ou virtude. Para grandes volumes de conteúdo interceptado, a qualidade definidora é a intimidade, não a inocência.

Baker fez sua própria caixa de entrada parecer um tanto enfadonha, cheia de negócios de rotina e mensagens pontuais que posso lidar com uma resposta curta (ou ignorando a mensagem). Acontece que o e-mail não constitui a maior parte do que a NSA intercepta. Muito mais conteúdo vem do chat ao vivo, um meio para jovens que está cheio de preocupações dos jovens.

Entre a grande maioria das pessoas que não são alvos da NSA, muitas das conversas em nossa amostra são extremamente privadas. Freqüentemente, eles estão muito longe de serem publicáveis, sem edição.

Ele: E você [verbo, adjetivo possessivo, substantivo]

Ela: eu [verbo] se você [outro verbo].

Ele: Isso pode ser arranjado.

Ela: Eu realmente preciso de punição.

Outra jovem, que também não é um alvo, responde a um pretendente que se propõe a fazer uma visita.

Ela: não acho que seria justo com o cara que estou vendo

Ele: às vezes você pode ser meio safado rsrs

Ela: Sim lol

A conversa continua a partir daí. Faz diferença para a mulher ou para seu namorado que a NSA registrou seu deslize rumo à infidelidade se nenhum dos dois souber disso? (Ela é uma cidadã australiana, cuja identidade deveria ser minimizada com o mesmo cuidado devido a um americano, mas seu nome e fotos estão desmascarados.)

É importante para um filho que os registros médicos de seu pai, ou para uma mãe que as fotos do banho de seu bebê, estejam nas lojas da NSA?

No início do debate de Snowden, o presidente do Comitê de Inteligência da Câmara, Mike Rogers disse em uma audiência que o fato de não termos recebido nenhuma reclamação com qualquer especificidade argumentando que sua privacidade foi violada indica claramente que o sistema está funcionando.

Mas quem reclamaria? perguntou a testemunha, o professor de direito da American University Stephen Vladeck.

Alguém cuja privacidade foi violada, respondeu Rogers. Você não pode ter sua privacidade violada se não souber que sua privacidade foi violada.

Vladeck discordou veementemente dessa afirmação. As regras e procedimentos da NSA, disse ele, não podem ser julgados sem um olhar objetivo sobre o que ela faz com sua autoridade. Esse é o debate que nossa história pretendia informar.

Pote, encontre a chaleira

Ao estruturar nossa história, enfrentamos um paradoxo: como relatamos os danos à privacidade sem agravá-los? Alguns leitores ficaram perturbados com a nossa citação de correspondência privada - e até mesmo com a nossa decisão de lê-la.

Ben Wittes, escrevendo sobre Lawfare , descreve a transferência de conteúdo da NSA de Snowden para mim desta forma:

O contratante dá um cache de 160.000 dessas conversas - algumas delas muito longas - para um terceiro. Ele o faz aparentemente indiscriminadamente e não deixa nada além de confiar que o destinatário usará o material de forma responsável. O terceiro então passa a publicar as passagens. . . da correspondência de um particular, escrita a um namorado sobre seu aparente caso - um particular que não foi acusado de nenhum delito. . . . Se o empreiteiro em questão fosse qualquer outra pessoa que não Edward Snowden, reconheceríamos imediatamente esta revelação pelo que ela é: uma violação massiva das liberdades civis exatamente do tipo que colocamos a inteligência sob o estado de direito para tentar prevenir.

Reconhecemos um dilema aqui, mas não achamos que a resposta seja óbvia. Havia uma história importante para contar sobre vigilância e privacidade. Não acreditamos que poderíamos dizer isso com amplas alusões a conteúdo pessoal não especificado nos arquivos interceptados da NSA. Também acreditávamos que devíamos dar peso às implicações de privacidade e segurança nacional de citá-los.

Wittes escreve, referindo-se à mulher que citamos, que embora tenhamos delicadamente mantido seu nome fora da história, todo o seu mundo social saberá quem ela é. Isso é especulação. A mulher me diz o contrário.

Decidimos desde o início que não faríamos citações de nenhuma conversa sem o consentimento do palestrante. A australiana nos deu isso, desde que omitimos seu nome e outros detalhes que ela especificou. Depois, ela escreveu para elogiar um artigo fantástico e disse que seu empregador e amigos, exceto aqueles que já conheciam a história, não a haviam conectado a ela.

Muito obrigada, escreveu ela. Agradeço seus esforços para manter o anonimato.

Deixando um exemplo à parte, Wittes faz um ataque mais amplo a Snowden - no exercício irrestrito de seu arbítrio ilimitado - escolhendo Gellman como o único controle e equilíbrio na divulgação de dados pessoais - Gellman que, ao contrário da NSA, não tem nenhum padrão legal para cumprir sem supervisão do Congresso ou dos tribunais.

É verdade que, com algumas exceções, como difamação, o governo não estabelece padrões de publicação nem me obriga a segui-los. Essa é uma característica bastante básica de nosso sistema constitucional. A maneira como faço uso dessa liberdade e as escolhas que o Post fez para esta história são um jogo justo para qualquer um julgar. Sentimo-nos confortáveis ​​com nossas escolhas e com a maneira como as fizemos.

Pedir consentimento antes da cotação não foi nossa única, nem mesmo nossa primeira consideração. Reconhecemos desde o início que havia riscos de segurança nacional no mero ato de alertar alguém de que suas conversas foram interceptadas. Fizemos reportagens independentes para estabelecer, antes de eu ligar para ela, que o ex-namorado da australiana não estava mais sob vigilância e não era mais considerado pela inteligência dos EUA como uma ameaça.

Mesmo quando omitimos nomes, não nos sentíamos livres para citar conversas interceptadas sem uma reflexão cuidadosa. Uma linguagem distinta pode ser reconhecida por um alvo de vigilância e, da mesma forma, alusões a segredos constrangedores quando lidos por alguém próximo à pessoa citada.

Como nossa história afirma, vimos por nós mesmos na amostra de Snowden que a vigilância sob a Seção 702 produziu uma grande quantidade de informações valiosas. Se dissermos a um alvo direta ou indiretamente que ele está sob o microscópio da NSA, isso arriscaríamos.

Quando procuramos exemplos que pudéssemos citar, começamos verificando se um alvo de vigilância ainda estava vivo e solto. Por relatórios independentes, identificamos quatro que estavam sob custódia. Trouxemos esses nomes para a NSA e a CIA. Oficiais de inteligência nos deram razões concretas e persuasivas, não oficialmente, pelas quais qualquer menção a dois deles atrapalharia as operações em andamento. Nós os deixamos de fora e citamos os outros dois - Muhammad Tahir Shahzad, um construtor de bombas baseado no Paquistão, e Umar Patek, um suspeito de um atentado terrorista em 2002 na ilha indonésia de Bali - em nossa história.

Existem riscos para a privacidade, como alguns críticos observaram, em manter cópias dos arquivos interceptados. Existem riscos de segurança nacional comparáveis ​​se alguém roubar o arquivo. Tomamos medidas significativas, com o conselho de especialistas renomados, para manter o material o mais seguro possível de estranhos. Nenhum funcionário da ALES tem acesso desmarcado e muito poucos têm acesso. Destruir os arquivos agora seria a maneira mais certa de garantir que eles não sejam violados. Isso levantaria questões jurídicas e interromperia nosso trabalho em uma história de importação global contínua. Não tomamos nenhuma decisão a longo prazo.

Dados e métodos

Havia 22.000 arquivos eletrônicos no conjunto de dados que analisamos, contendo conteúdo interceptado pela NSA entre 2009 e 2012. Eles vieram de um repositório hospedado na unidade regional de Kunia da NSA no Havaí, que foi compartilhado por um grupo de analistas especializados em Sudeste Ameaças e alvos asiáticos.

Esse banco de dados do Havaí foi, em essência, com curadoria de membros do grupo. Eles utilizaram um armazenamento muito maior de conteúdo bruto ou não processado hospedado na sede da NSA e importaram seleções dele em modelos para o material avaliado. Controles de acesso especiais protegeram os arquivos em ambos os locais porque as comunicações foram obtidas de comutadores de rede e servidores de computador nos Estados Unidos. Até 2008, esse tipo de cobrança exigia um mandado individual de um juiz. A seção 702 da FISA permitia que a NSA selecionasse dezenas de milhares de alvos por conta própria, de acordo com as regras e procedimentos revisados ​​pelo tribunal uma vez por ano.

Como nossa amostra foi selecionada manualmente por analistas para o banco de dados do Havaí, havia muito menos conteúdo irrelevante e comunicações dos EUA coletadas incidentalmente do que um auditor encontraria no banco de dados PINWALE central de onde foi extraído.

Cerca de 16.000 dos arquivos de dados continham o texto das conversas interceptadas. O resto eram fotografias ou documentos como registros médicos, vales de viagem, históricos escolares e contratos de casamento. Convertemos qualquer texto dentro dos arquivos de imagem para um formato legível por máquina.

Alguns arquivos tinham apenas uma única troca de e-mail ou mensagem instantânea. Outros incluíram muitas conversas separadas, com muitos participantes. Outros ainda tinham transcrições de bate-papo longas e ininterruptas que se estendiam por vários dias e centenas de páginas.

Para analisar os arquivos, Soltani os ingeriu todos em um banco de dados. Poderíamos então pesquisar informações quantificáveis ​​com ferramentas geek, como expressões regulares Unix e SQL, ou linguagem de consulta estruturada.

Queríamos saber, por exemplo, quantas conversas distintas havia nos arquivos. Soltani tentou vários métodos para encontrar os limites em cada arquivo de documento. Ele descreveu os dados como sujos, com erros tipográficos e inconsistências no uso de formatação e modelos oficiais. Soltani corrigiu esses erros usando vários critérios em suas pesquisas, como o identificador PINWALE de primeira ocorrência em um cabeçalho. Compará-los nos levou ao número publicado de 160.000 conversas.

Soltani fez a maior parte da análise, mas me ensinou a fazer minhas próprias perguntas. Os endereços de e-mail, para dar um exemplo muito simples, são sempre compostos por uma faixa permitida de caracteres antes e depois do sinal @, com um ponto na segunda metade. Essa consulta encontrou 12.310 resultados. Depois de limpar os falsos positivos e adicionar identificadores de bate-papo e IDs do Facebook, alcançamos o número publicado de cerca de 11.400 contas exclusivas.

Tivemos que usar métodos mais complexos para identificar quais dessas contas eram alvos da NSA. Comparamos várias abordagens, que produziram resultados semelhantes, mas não idênticos. Depois de investigar por que eles diferiam, julgamos que uma contagem de notações de caso exclusivas, ou CASNs, era mais confiável.

Uma notação de caso se parece com isto: P2BSQC090008441. Um ano atrás, publicamos um slide útil para decodificá-lo.


Os caracteres SQC representam o programa PRISM, que coleta o conteúdo de contas online de nove grandes empresas de Internet dos EUA. P2 identifica o alvo como uma conta do Yahoo, B diz que é uma conta de chat e o resto identifica o ano de início da vigilância (2009) e o número de série exclusivo do alvo.

A coleta de comutadores de rede, que a NSA chama de Upstream, usa notações de caso que começam com XX.SQF. Também são chamados de coleção FBI FISA, gerenciados pelo bureau e compartilhados com a NSA. O upstream é mais comumente usado para formas mais efêmeras de bate-papo que não são facilmente obtidas nos servidores da empresa na Internet.

O número total de alvos, contados pelo CASN, chegou a 1.257. Fizemos uma verificação geral do número - fazia sentido? - lendo o conteúdo de uma grande amostra de suas conversas.

Julie Tate e Jennifer Jenkins despenderam um trabalho prodigioso determinando os nomes dos correntistas e pesquisando seus registros públicos. Em quase todos os casos, as razões do interesse da NSA eram aparentes. Entre mais de 10.000 contas não direcionadas, as comunicações refletiam uma faixa normal de interação humana.

Por causa das mudanças que o Congresso fez na Seção 702, o Conselho de Supervisão de Privacidade e Liberdades Civis relatou que o volume da coleção não direcionada - e o conteúdo incidental dos EUA dentro dela - cresceu exponencialmente.

O conselho se dividiu sobre se o governo deveria ser obrigado a obter um mandado para pesquisar e fazer uso dessas conversas interceptadas nos EUA. (Nenhum mandado é necessário agora.) O Grupo de Revisão do presidente foi além, recomendando que a NSA descartasse o conteúdo dos EUA na maioria das circunstâncias.

O governo Obama não abordou nenhuma dessas recomendações. Nossa história acrescentou informações que não poderiam ser encontradas em nenhum outro lugar sobre os interesses conflitantes em jogo.