Mentindo Com Pixels - Morte Súbita inc.

Este texto já foi lambido por 1102 almas.

A imagem que você vê no noticiário da tv pode ser uma falsificação – uma montagem fabricada pelas novas tecnologias de manipulação de vídeo

No ano passado, Steven Livingston, professor de Comunicação Política na George Washington University, deixou atônitos os participantes de uma conferência sobre Geopolítica. Discutia-se o papel dos satélites nas transmissões de imagens. Ele não produziu provas de novas mobilizações militares ou pandemias globais. Em vez disso, mostrou um vídeo da patinadora Katarina Witt durante uma competição de patinação em 1998.

No clipe, Katarina desliza no gelo graciosamente por cerca de 20 segundos. Então vem o que talvez seja uma das mais inusitadas repetições de imagens jamais vistas. O fundo era o mesmo e os movimentos da câmera eram os mesmos. Na realidade, a imagem era idêntica ao original em todas as formas, exceto talvez na mais importante: Katarina tinha desaparecido, junto com todos os sinais dela. Em seu lugar estava exatamente aquilo que você esperaria se Katarina nunca tivesse estado ali – o gelo, as paredes do ringue e a multidão.

Grande coisa, você dirá. Afinal, há mais de meio século a equipe de Stálin, o ditador soviético, já eliminava das fotos personalidades malvistas pelo governo. E, dezessete anos atrás Woody Allen realizou um grande número de deformações da realidade no filme Zelig, onde ele aparece junto a figuras do passado como Adolf Hitler e os presidentes americanos Calvin Coolidge e Herbert Hoover. Também em filmes como Forrest Gump e Mera Coincidência, a distorção da realidade tornou-se lugar-comum.

O que diferencia a demonstração com Katarina Witt – e muito – é que a tecnologia usada para “excluir virtualmente” a patinadora pode agora ser aplicada em tempo real, ao vivo, mesmo enquanto a câmera grava a cena e no mesmo instante em que a transmite aos espectadores. Na fração de segundo entre os quadros de vídeo, qualquer pessoa ou objeto que se mova em primeiro plano pode ser retirado, e objetos que não se encontram ali podem ser inseridos e parecer reais. “Plasticidade de pixel”, eis o nome que Livingston deu a essa técnica. As implicações para as pessoas que compareceram à conferência sobre Geopolítica e imagens de satélite deram o que pensar: as fotos exibidas podem não ser necessariamente aquelas que a câmera eletrônica do satélite efetivamente gravou.
Mas a ramificação dessa nova tecnologia vai além das imagens de satélite. À medida que a manipulação ao vivo se torna mas prática, a credibilidade de todos os vídeos se tornará tão suspeita quanto fotos soviéticas da Guerra Fria. O problema tem sua origem na natureza do vídeo moderno. Ao vivo ou não, ele é composto de pixels e, como diz Liningsotn, pixels podem ser alterados.

Os exemplos mais conhecidos de manipulação de vídeo em tempo real até agora são as “inserções virtuais” em transmissões de esportes profissionais. Em 30 de janeiro deste ano, quase um sexto da humanidade em mais de 180 países assistiu a uma linha laranja repetidamente traçada sobre o campo de futebol americano, durante a transmissão do Super Bowl. A Princeton Video Imaging (PVI), em Lawerenceville, Nova Jersey, criou aquela linha, gravou-a num computador e a inseriu na transmissão ao vivo. Para ajudar a determinar onde inserir os pixels de cor laranja, diversas câmeras do jogo foram equipadas com sensores que rastreavam as posições espaciais das câmaras e os níveis de ampliação. Adicionada à ilusão de realidade estava a capacidade do sistema da PVI garantindo que os jogadores e os juízes ocultassem a linha virtual quando seus corpos a atravessassem.

Mesmo as transmissões de TV ao vivo já podem ser manipuladas com “inserção virtuais”

Nos Estados Unidos, durante a primavera e o verão passados, enquanto a PVI e rivais como a Sport-vision de New York colocavam no ar produtos de inserção virtual, incluindo anúncios simulados em paredes atrás dos batedores da liga principal de beisebol, uma equipe de engenheiros da Sarnoff Corporation, de Princeton, Nova Jersey, voou até o Centro Operacional da Coalizão Aliada, da OTAN, Vicenza, Itália. Sua missão: transformar sua tecnologia experimental de processamento de vídeo numa ferramenta experimental de processamento de vídeo numa ferramenta operacional para localizar rapidamente e converter em alvos os veículos militares sérvios em Kosovo. O projeto foi batizado de Tiger, sigla em inglês que corresponde a “fixação de alvos por georregistro de imagem”. “Nosso objetivo era poder disparar munição guiada com precisão através de veículos militares sérvios – basta marcar as coordenadas e a coisa vai:, explica Michaels Hansen, um jovem e agitado aficionado por equipamentos da Sarnoff que acha difícil acreditar que estava ajudando a fazer uma guerra no ano passado.

Se comparada ao trabalho da PVI, a tarefa técnica dos militares era mais difícil – e o que estava em jogo era muito maior. Em vez de alterar transmissões de futebol, a equipe Tiger manipulou a transmissão de vídeo ao vivo de um Predator, uma aeronave de reconhecimento não-tripulada voando a 450 metros de altura sobre os campos de batalha de Kosovo. Em lugar de sobrepor linhas virtuais ou anúncios em cenários esportivos, a tarefa era colocar em tempo real as imagens “georregistradas” de Kosovo sobre as cenas correspondentes transmitidas ao vivo da câmera de vídeo do Predator. As imagens do terreno tinham sido capturadas antes com fotografia aérea e armazenadas digitalmente. O sistema Tiger, que detectava automaticamente objetos em movimento contra o fundo, podia, quase de forma instantânea, fornecer aos oficiais encarregados da artilharia as coordenadas de qualquer equipamento sérvio no campo de visão do Predator. Esse foi um feito bastante técnico, uma vez que o Predator estava se movendo e seu ângulo de visão apresentava constante mudança. Mesmo assim, aquelas visões tinham que ser eletronicamente alinhadas e registradas com a imagem armazenada em menos de um trinta avos de segundo (para corresponder à taxa de quadros da gravação em vídeo).

Em princípio, a definição de alvos poderia ter sido direcionada diretamente às armas guiadas com precisão. “Não estávamos realmente fazendo aquilo na Força Aliada”, observa Hansen. “Estávamos apenas informando aos oficiais encarregados da pontaria exatamente onde estavam os alvos sérvios e eles, então, dirigiam aviões para atingir os alvos”. Dessa forma, os tomadores de decisão humanos poderiam evitar decisões errôneas tomadas por máquinas com defeitos. De acordo com a Agência de Projetos de Pesquisa Avançada para a Defesa, a tecnologia Tiger foi usada de forma extensa nas últimas três semanas da operação Kosovo, durante as quais “80% a 90% dos alvos móveis foram atingidos”.

Até então, a manipulação de vídeo em tempo real estava ao alcance somente de organizações tecnologicamente sofisticadas como, por exemplo, redes de televisão e os militares. Mas os desenvolvedores da tecnologia dizem que ela está se tornando simples e barata o suficiente para se espalhar para todos os lados. E isto tem levado alguns observadores a pensar se a manipulação de vídeo em tempo real vai corroer a confiança do público nas imagens de televisão, mesmo quando transmitidas em telejornais. “A idéia de ver para crer pode perder a validade”, diz Norman Winarsky, vice-presidente corporativo para tecnologia de informação da Sarnoff. “Você pode não saber em que confiar.”

Uma forma grosseira de manipulação de vídeo já está acontecendo na comunidade de imagens por satélite. A publicação semanal Space News informou no início do ano que o governo da Índia libera imagens de seus satélites de sensoriamento remoto somente após as instalações de defesa terem sido “removidas”. Neste caso, não há manipulação em tempo real e é aberta, como um marcador de tinta de censor. Mas os pixels são flexíveis. É perfeitamente possível agora inserir conjuntos de pixels em imagens de satálite que os interpretadores de dados poderiam identificar como batalhões de tanques, ou aviões de guerra, ou locais de sepultamento, ou linhas de refugiados, ou vacas mortas que ativistas aleguem ser vítimas de um acidente biotécnico.

Uma fita de demonstração fornecida pela PVI reforça esse aspecto no prosaico cenário de um estacionamento num subúrbio. A cena parece comum, exceto por uma característica perturbadora: entre camionetas e minivans estão diversos tanques estacionados e um monstro armado rodando de maneira desconcertante. Imagine uma fita de tanques paquistaneses virtuais rodando pela fronteira da Índia entregue aos telejornais como autêntica, e você pode sentir o tipo de problema que imagens falsificadas podem provocar.
Fornecedores comerciais de serviços de inserção virtual estão concentrados demais em novas oportunidades de marketing para se preocupar muito com geopolítica. Eles têm os olhos voltados para mercados muito mais lucrativos. De repente, esses grandes espaços de programação entre comerciais – ou seja, o verdadeiro show – tornam-se disponíveis para bilhões de dólares de anúncios em horário nobre. A fita de demonstração da PVI, por exemplo, inclui uma cena em que uma caixa do Microsoft Windows aparece – virtualmente, é claro – na estante do estúdio de Frasier Crane. Esse tipo de colocação de produto poderia tornar-se mais e mais importante à medida que novas tecnologias de gravação em vídeo como, por exemplo, TiVo e RePlayTV, oferecerem aos espectadores mais poder para editar comerciais.

Dennis Wilkinson, especialista em marketing que adora esportes e se tornou CEO da PVI há cerca de um ano, não podia estar mais feliz com isso. Os olhos de Wilkinson brilham quando ele descreve o futuro (próximo) em que a tecnologia de inserção virtual levará os anúncios a extremos de personalização. Combinado com serviços de datamining (através dos quais gostos individuais e padrões de consumo dos navegadores podem ser rastreados e analisados), a inserção virtual abre a possibilidade de enviar anúncios personalizados de acordo com o alvo por linhas ou cabos telefônicos a usuários da Web ou espectadores da TV a cabo. Digamos que você gosta de Pepsi, mas seu vizinho ao lado gosta de Coca e seu vizinho do outro lado da rua gosta de Seven Up – o tipo de dados de fácil coleta por meio de registros de caixas de supermercado. Será possível ajustar a imagem de refrigerante no sinal da transmissão para atingir cada um de vocês com sua marca preferida.

A apenas 15 minutos de distância da PVI, Winarsky, da Sarnoff, também está radiante – não tanto com ganhar fatia de mercado, mas quanto ao poder transformador da tecnologia. A Sarnoff tem uma história distinta nesse campo: a empresa descende dos Laboratórios RCA, que iniciaram a inovação em tecnologia de televisão no início da década de 40 e trouxeram à luz grande quantidade de tecnologias de mídia. O tubo de TV em cores, as telas de cristal líquido e a televisão de alta definição vieram todos, pelo menos em parte, da RCA. A Sarnoff exibe cinco prêmios Emmy técnicos em sua recepção.

A capacidade de manipular dados de vídeo em tempo real, diz Winarsky, tem tanto potencial quanto alguns desses predecessores. “Agora que você pode alterar o vídeo em tempo real, você mudou o mundo”, diz. Isso pode soar pomposo, mas, após ver o vídeo de Katarina Witt, a conversa de Winarsky sobre “mudar o mundo” perde um pouco do tom de exagero.

Apagar pessoas ou abjetos no vídeo ao vivo, ou inserir pessoas previamente gravadas ou objetos em cenas ao vivo é somente o início de todos os truques que estão tornando possíveis. Muito de qualquer vídeo que tenha sido gravado está se tornando clipart que os produtores podem esculpir digitalmente na história que quiserem contar, diz Eric Haseltine, vice-presidente sênior de P&D da Walt Disney Imagineering em Glendale, Califórnia. Com tecnologias adicionais de manipulação de vídeo, os atores anteriormente gravados podem dizer e fazer coisas que eles efetivamente nunca fizeram ou disseram. “Você pode fazer com que atores mortos estrelem novos filmes inteiros”, diz Haseltine.

Filmagens contemporâneas, incluindo gravações de atores mortos, têm estado por aí por muitos anos. Mas o ilusionismo de Hollywood – que, por exemplo, inseriu John Wayne num comercial de TV – exigia um trabalho difícil de pós-produção quadro-a-quadro, feito por técnicos especializados. Existe agora uma grande diferença, diz Haseltine. “O que costumava levar 1 hora (por quadro de vídeo) agora pode ser feito em um sessenta avos de segundo”. Essa aceleração dramática significa que a manipulação pode ser feita em tempo real, instantaneamente, à medida que a câmera grava ou transmite. Não somente podem John Wayne, Fred Astaire ou Saddam Hussein ser virtualmente inseridos em anúncios pré-produzidos, como eles poderiam ser inseridos em, digamos, uma transmissão ao vivo de um show de TV.

A combinação de tempo real, inserção virtual com técnicas de pós-produção existentes e emergentes abre um mundo de oportunidades de manipulação. Consideremos a tecnologia Video Rewrite (regravação de vídeo), desenvolvida pela Interval Corporation e pela Universidade de Berkeley, e demonstrada pela primeira vês três anos atrás. Com apenas alguns minutos de vídeo de alguém falando, seu sistema captura e armazena um conjunto de fotos em vídeo, de modo que a área da boca da pessoa parece mover-se ao dizer diferentes conjuntos de sons. A partir da biblioteca resultante de “visemas” é possível retratar a pessoa como se ela dissesse qualquer coisa que os produtores sonhassem – incluindo expressões que o indivíduo nunca usaria, nem morto.

Num teste de aplicação, o cientista de computação Tim Bregler, agora na Universidade Stanford, e colegas digitalizaram 2 minutos de gravação de domínio público do presidente americano John F. Kennedy falando durante a crise dos mísseis cubanos, em 1962. Usando a biblioteca de “visemas”, os pesquisadores criaram “animações” da boca de Kennedy dizendo coisas que ele nunca disse, entre elas, “Eu nunca me encontrei com Forrest Gump”. Com tecnologia desse tipo, em princípios os ativistas poderão em futuro próximo ser capazes de orquestrar via Internet transmissões de seus adversários dizendo coisas que poderiam fazer a pessoa mais íntegra e honrada soar como o mais rematado dos cafajestes.

Haseltine acredita que as técnicas de manipulação de vídeo serão rapidamente levadas a seu extremo lógico: “Posso prever, com absoluta certeza”, diz ele, “que uma pessoa sentada diante de um computador poderá escrever o roteiro de um vídeo, desenhar as personagens, fazer a iluminação, o guarda-roupa, toda a atuação, diálogo e pós-produção, distribuir esse vídeo numa rede de banda larga, tudo isso num laptop – e os espectadores não notarão a diferença”.

Truques que hoje exigem um sistema de 80.000 dólares poderão em breve estar nas lojas, numa câmera de vídeo comercial
Até agora, as aplicações amplamente encontradas de manipulação de vídeo em tempo real ocorreram em áreas benignas como esportes e entretenimento. Já no ano passado, entretanto, a tecnologia começou a se difundir além desses locais, para aplicações que já provocaram uma certa preocupação. No outono passado, por exemplo, a CBS contratou a PVI para inserir virtualmente o logotipo familiar da rede em toda a cidade de New York, em edifícios, outdoors, fontes e outros locais – durante a transmissão do programa The Early Show da rede. O New York Times publicou uma reportagem de primeira página em janeiro questionando a ética jornalística existente em alterar a aparência de algo que está realmente ali.

A combinação de inserção virtual em tempo real, cibermarionetes, regravação de vídeo e outras tecnologias de manipulação de vídeo com uma infra-estrutura de mídia de massa que transmite instantaneamente vídeo de noticiário para o mundo inteiro tem preocupado alguns analistas. “Imagine se você é o governo de um país hipotético que deseja mais assistência financeira internacional”, diz Livingston, da George Washington University. “Você poderia enviar vídeos de uma área remota com pessoas morrendo de fome, e isto poderia nunca ter acontecido”, diz ele.

Haseltine concorda. “Estou surpreso que ainda não tenhamos visto vídeos falsos”, diz ele antes de voltar atrás um pouco: “Talvez tenhamos visto. Quem poderia saber?”

É exatamente o tipo de cenário exibido no filme Mera Coincidência, de 1988, no qual um assessor presidencial de primeiro nível conspira com um produtor de Hollywood para transmitir uma guerra montada virtualmente entre os Estados Unidos e a Albânia para desviar a atenção de um escândalo de corrupção presidencial. Haseltine e outros ficam imaginando quando a realidade imitará a arte imitando a realidade.

A importância da questão somente se intensificará à medida que a tecnologia se tornar mais acessível. O que agora exige uma máquina de 80.000 dólares do tamanho de um pequeno refrigerador logo será encontrado em placas do tamanho da palma da mão (e no limite, num único chip) que caberão num gravador de vídeo comercial, segundo Winarsky. “Isso estará disponível nas lojas de componentes eletrônicos”, diz ele. Um equipamento de consumo para inserção virtual provavelmente exigirá uma câmera de vídeo com uma placa ou chip especial para processamento de imagem. Esse hardware receberá sinais dos sensores de imagem eletrônica da câmera e os converterá numa forma que poderá ser analisada e manipulada num computador com software adequado – algo idêntico ao que se faz com o Adobe Photoshop e outros programas para “limpar” arquivos de imagem digital. Um usuário doméstico poderia, por exemplo, inserir parentes ausentes numa filmagem da última reunião de família, ou remover estranhos que prefiram não aparecer na cena – trazendo as revisões históricas no estilo soviético direto para o ambiente doméstico.

Nos EUA, especialistas já discutem os riscos do uso político das novas técnicas de vídeo

Combine-se a erosão potencial da confiança na autenticidade de reportagens ao vivo com o chamado “efeito CNN” e o cenário está montado para a falsificação mover o mundo de diferentes maneiras. Livingston descreve o efeito CNN como a capacidade da mídia de massa de ir além da mera reportagem sobre o que acontece, para influenciar verdadeiramente os tomadores de decisões quando examinarem questões militares, de assistência internacional e outros assuntos nacionais e internacionais. “O efeito CNN é real”, diz James Currie, professor de Ciência Política na National Defense University, em Fort McNair, Washington. “Todos os escritórios aonde você vai no Pentágono estão com uma TV ligada na CNN”. E isso significa, diz ele, que um governo, um grupo terrorista ou uma ONG poderia colocar eventos geopolíticos em movimento dentro de poucas horas, partindo de uma credibilidade conseguida graças à distribuição de um pedaço de vídeo bem trabalhado.

Com experiência como reservista do Exército, membro de uma equipe com privilégios de alta confidencialidade no Comitê de Inteligência do Senado, e como oficial de ligação legislativa para a Secretaria do Exército, Currie viu de perto as tomadas de decisões governamentais e políticas. Ele está convencido de que a manipulação de vídeo em tempo real estará, ou já está, nas mãos das comunidades militares e de inteligência. E, embora ainda não tenha evidências de que alguma organização tenha empregado técnicas de manipulação de vídeo, em tempo real ou não, para finalidade política ou militar, ele é capaz de divisar cenários de desinformação. Por exemplo, diz ele, pensa só no impacto de um vídeo fabricado que pareça amostrar Saddam Hussein “derramando uísque escocês num copo e bebendo um grande gole. Você poderia transmiti-lo na televisão do Oriente Médio e isso minaria totalmente a credibilidade dele junto a audiências islâmicas”.

Apesar de todas as reações emocionais, entretanto, alguns especialistas ainda não estão convencidos de que a manipulação de vídeo em tempo real representa uma verdadeira ameaça, não importando quão boa a tecnologia venha a se tornar. John Pike, analista da comunidade de inteligência da Federação de Cientistas Americanos, em Washington, D.C., diz que os riscos são simplesmente grandes demais para que governos ou organizações sérias sejam surpreendidas tentando enganar o público. E, para as organizações que estivessem dispostas a correr o risco de faze-lo, diz Pike, o pessoal que trabalha com notícias – sabendo aquilo que a tecnologia pode fazer – vai se tornar cada vez mais vigilante.

“Se alguma organização de direitos humanos aparecesse na CNN com um vídeo, particularmente uma organização com a qual eles não estejam familiarizados, acho que (a CNN) consideraria aquilo radioativo”, diz Pike. O mesmo vale para as organizações não-governamentais (ONGs). “Nenhum diretor responsável de uma organização séria autorizaria esse tipo de coisa. E eles demitiriam, no ato, qualquer pessoa surpreendida fazendo isso. A moeda corrente de ONGs políticas é “nós falamos a verdade”.

Mesmo pessoas mais ponderadas como Pike, entretanto, admitem que a mídia tem um calcanhar-de-aquiles: a Internet. “A questão não é tanto a capacidade de falsificar vídeos na CNN, mas conseguir coloca-los online”, diz ele. Isso ocorre porque a maior parte do conteúdo da Internet não é filtrado. “Isso poderia interferir no processo de produção de notícias, onde você não reproduziria o relatório original, mas relataria o que foi relatado”, diz Pike. Tal procedimento poderia resultar, em cascata, num efeito CNN. “Sem dúvida, esse tipo de experiência acabará acontecendo”, diz Pike.

O problema, afirma Livingston, é que apenas algumas experiências podem ser suficientes para levar as pessoas a questionar para sempre a autenticidade do vídeo. Isso poderia ter repercussões enormes sobre operações militares, de inteligência e de notícias. Uma conseqüência sociológica irônica poderia surgir: o retorno a uma dependência mais pesada de comunicação cara-a-cara, sem intermediários. Neste meio tempo, entretanto, haverá algumas interessantes torções e reviravoltas, à medida que os pixels se tornarem ainda mais flexíveis.

por Ivan Amato – Publicada originalmente na revista Info Exame No. 175 – Outubro/2000