Por que parte do arquivo da internet está desaparecendo para sempre (e o que está sendo feito para evitar isso)
14/11/2024
Um quarto de todas as páginas web que já existiram em algum momento entre 2013 e 2023 já não existem mais.
Pesquisas indicam que 25% das páginas web publicadas entre 2013 e 2023 não existem mais.
Getty Images via BBC
Os fragmentos remanescentes de papiros, mosaicos e tábuas de cera da Antiguidade nos ensinam o que os moradores de Pompeia comiam no café da manhã, 2 mil anos atrás.
Aprendendo um pouco de latim medieval, é possível saber quantos animais eram criados no século 11, nas fazendas de Northumberland, no norte da Inglaterra, graças ao Domesday Book – o documento mais antigo dos Arquivos Nacionais do Reino Unido.
Cartas e romances remanescentes mostram como era a vida social na era vitoriana – e quais eram as pessoas mais adoradas ou odiadas da época, no Reino Unido.
Mas os historiadores do futuro podem enfrentar dificuldades para entender totalmente como vivemos hoje, no início do século 21.
O motivo: a combinação da nossa forma de vida digital com a falta de esforços oficiais para arquivar as informações que o mundo produz hoje em dia pode apagar a nossa história.
Mas um grupo informal de organizações vem combatendo as forças da entropia digital.
Muitas delas são operadas por voluntários, com pouco apoio institucional.
O maior símbolo da luta para salvar a web é o Internet Archive, uma organização sem fins lucrativos sediada em São Francisco, na Califórnia (EUA).
Criada em 1996 como um projeto apaixonado do pioneiro da internet Brewster Kahle, a organização criou o que pode ser o mais ambicioso projeto de arquivo digital já realizado.
São 866 bilhões de páginas web, 44 milhões de livros, 10,6 milhões de vídeos com filmes e programas de televisão – e muito mais.
Abrigadas em diversos centros de dados espalhados pelo mundo, as coleções do Internet Archive e outros grupos similares são tudo o que temos para evitar a amnésia digital.
"Os riscos são muitos.
Não é só a tecnologia que pode falhar, embora isso certamente aconteça", afirma Mark Graham, diretor da Wayback Machine – uma ferramenta do Internet Archive que coleta e armazena cópias de websites para a posteridade.
"O mais importante é que as instituições falham, as empresas fecham.
As organizações jornalísticas são devoradas por outras organizações jornalísticas ou saem do ar, como é cada vez mais frequente", exemplifica ele.
Graham destaca que existem inúmeros incentivos para colocar conteúdo online, mas são poucas as razões que fazem as companhias manterem este conteúdo no longo prazo.
Mesmo com todos os feitos já realizados, o Internet Archive e organizações similares enfrentam ameaças financeiras, dificuldades técnicas, ciberataques e batalhas jurídicas geradas por empresas que não gostam da ideia de ver cópias da sua propriedade intelectual disponíveis gratuitamente.
E, como mostram as recentes derrotas na Justiça, o projeto de salvar a internet pode ser tão volátil quanto o próprio conteúdo que ele tenta proteger.
"Cada vez mais, nossos esforços intelectuais, nosso entretenimento, nossas notícias e nossas conversas existem apenas no ambiente digital", explica Graham.
"Este ambiente é inerentemente frágil."
Salvar nossa história
Um quarto de todas as páginas web que já existiram em algum momento entre 2013 e 2023...
não existem mais.
Esta é a conclusão de um estudo recente do think tank (centro de pesquisa e debates) Pew Research Center, com sede na capital americana, Washington DC.
Suas conclusões fizeram soar o alarme: nossa história digital está desaparecendo.
Os pesquisadores concluíram que o problema se agrava, quanto mais antiga for uma página web.
A organização tentou acessar páginas existentes em 2013 – e 38% delas não funcionam mais.
Mas este também é um problema das publicações mais recentes.
Cerca de 8% das páginas web publicadas em algum momento de 2023 desapareceram em outubro do mesmo ano.
Esta não é apenas uma preocupação dos admiradores da história e dos obcecados pela internet.
O estudo indicou, por exemplo, que um em cada cinco websites governamentais contém pelo menos um link quebrado.
O Pew Research Center também descobriu que mais da metade dos artigos da Wikipédia tem um link quebrado na sua seção de referências.
Ou seja, as evidências que sustentam as informações da enciclopédia online estão lentamente se desintegrando.
Com a inexistência de um trabalho público formal de documentação da web, o Internet Archive passou a ser uma parte fundamental da nossa infraestrutura digital.
Getty Images via BBC
Mas, graças ao trabalho do Internet Archive, nem todos esses links quebrados ficaram inacessíveis.
O projeto Wayback Machine vem destacando exércitos de robôs para rastrear os tortuosos labirintos da internet há décadas.
O sistema baixa cópias funcionais de websites à medida que eles mudam ao longo do tempo.
Muitas vezes, eles capturam as mesmas páginas diversas vezes em um único dia e as oferecem ao público sem custo.
"Quando observamos quantas daquelas URLs foram oferecidas pelo Wayback Machine, verificamos que dois terços eram disponíveis de alguma forma", ele conta.
Isso indica que o Internet Archive está cumprindo sua função, guardando registros da sociedade online para a posteridade.
Outras organizações, grandes e pequenas, trabalham com projetos similares.
A Biblioteca do Congresso dos Estados Unidos, por exemplo, preserva websites governamentais, os sites dos congressistas e uma coleção de sites jornalísticos norte-americanos.
A Biblioteca do Congresso também preservou uma cópia de cada tweet enviado desde a fundação do Twitter (hoje, conhecido como X), até o encerramento do projeto, em 2017.
Outros governos conduzem suas próprias iniciativas.
O UK Web Archive, da Biblioteca Britânica, rastreia anualmente os websites com nomes de domínio .uk, preservando uma cópia da internet britânica pelo menos uma vez por ano.
Em 2022, um grupo de voluntários se propôs a salvar a internet ucraniana, quando ela foi atingida por ciberataques russos.
Mas o escopo destes projetos é pequeno e o Internet Archive procura ter uma cobertura mais abrangente.
Com os recursos disponíveis, seria impossível chegar perto de preservar toda a internet, mas seus sistemas definiram uma ampla rede.
E, dependendo do que você esteja procurando, a coleção do Internet Archive é tão vasta que, às vezes, parece um registro funcional e completo da World Wide Web.
O sucesso traz complacência
Os documentos do Archive disponíveis ao público ajudam a manter o registro das nossas vidas na era atual.
A Wikipédia adotou, como prática padrão, mencionar as cópias de websites do Wayback Machine e não os próprios websites originais.
E a organização também preserva uma vasta coleção de gravações anteriores à era digital.
A adorada série de TV americana Fernwood 2 Night (1977), por exemplo, não está disponível em nenhum serviço de streaming, mas você pode assistir de graça no Internet Archive.
Livros, revistas e websites mencionam as cópias digitais de livros do Internet Archive, indisponíveis nas bibliotecas físicas.
O projeto age até como ferramenta de preservação para o público.
Qualquer pessoa pode carregar vídeos, websites e praticamente qualquer coisa para os servidores da organização.
Entre as principais coleções preservadas pela Wayback Machine, encontram-se vastos registros de websites criados no GeoCities – um antigo serviço de hospedagem de sites, agora extinto.
Muito antes das redes sociais, o GeoCities foi uma das primeiras plataformas que possibilitavam a qualquer pessoa criar o seu próprio website.
Os historiadores da internet consideram o GeoCities um dos capítulos mais importantes dos primórdios da World Wide Web – e, sem o trabalho do Internet Archive, a maior parte dos seus sites teria sido perdida.
Mais recentemente, uma comissão do Congresso dos Estados Unidos adotou o Internet Archive para preservar artigos e documentos relativos ao ataque ao Capitólio, em 6 de janeiro de 2021.
"De tempos em tempos, surge uma nova plataforma e as forças econômicas rapidamente meio que a destroem", afirma Andrew Jackson, arquiteto técnico de registros de preservação da Coalizão para a Preservação Digital, um grupo ativista e organização filantrópica britânica que orienta como preservar os arquivos digitais online.
"É uma grande fonte de rotatividade."
O website jornalístico especializado em tecnologia CNET sofreu pressões em 2023, após informações de que a empresa excluiu dezenas de milhares de artigos, causando a perda de décadas de história.
Entre as respostas do site, veio a indicação de que todos os seus artigos excluídos foram preservados na Wayback Machine.
Muitos críticos acusaram a empresa de ter transferido para o Internet Archive sua responsabilidade de manutenção dos arquivos.
"O Google e outros mecanismos de busca incentivam ativamente a manutenção de URLs estáveis, mas, tecnicamente, é algo bastante difícil", explica Jackson.
"Sempre que uma nova empresa reforma seu website, ela precisa calcular quantos das suas novas URLs ela irá tentar manter ao longo do tempo."
Mas vale a pena lembrar que o Internet Archive é uma organização sem fins lucrativos, financiada por doações de fundações beneficentes.
É um projeto sem fim, com custos que crescem exponencialmente.
O Internet Archive assumiu voluntariamente a missão de ser a principal biblioteca da nossa vida digital em todo o mundo.
E, com a web se aproximando da sua quarta década, este projeto totalmente não oficial se tornou um pilar fundamental da internet.
Mas, da mesma forma que aumenta a nossa confiança no Internet Archive, também crescem as ameaças que pairam sobre o seu trabalho.
Golpes no Whatsapp: saiba como se proteger
'Ponto crítico de falha'
Em setembro, o Internet Archive anunciou uma importante parceria com o Google.
O mecanismo de busca da gigante da tecnologia irá agora incluir links para o Wayback Machine nos seus resultados de busca.
Nenhuma das partes publicou os detalhes financeiros do acordo.
Mas outras notícias recentes demonstram que o projeto ainda enfrenta fragilidades.
Sua vulnerabilidade foi exposta abertamente em uma ação judicial contra o Internet Archive, promovida por quatro grandes editoras de livros.
Elas alegam que a prática de digitalizar livros físicos e emprestar cópias digitais infringe a legislação americana de direitos autorais.
Antes da pandemia de covid-19, o Internet Archive emprestava apenas uma cópia digital por vez, para cada livro físico na sua coleção.
Mas, durante os lockdowns, a organização eliminou a restrição, emprestando aos seus apoiadores quantidades ilimitadas de cópias digitais de livros, para tentar compensar o fechamento das bibliotecas físicas.
Em 2023, um tribunal americano julgou a prática ilegal e, no início de setembro, o recurso do Internet Archive contra a decisão foi rejeitado.
A organização havia informado que concordava em pagar ao grupo de editoras um valor não revelado em relação ao caso.
Passada aquela ação, o Internet Archive já enfrenta outro processo movido pelas gravadoras, referente à digitalização de discos.
Em caso de derrota, este novo processo poderá custar US$ 400 milhões (R$ 2,3 bilhões).
O valor pode pôr em risco a sobrevivência da organização.
Formada ao longo de três décadas, a coleção do Internet Archive inclui centenas de bilhões de páginas web.
Getty Images via BBC
O diretor dos ser...