A Ciência são as pessoas
Investigação da Faculdade de Ciências da Universidade de Lisboa originou uma máquina do tempo na Web
Em 2000, dois anos após o lançamento do Google, um grupo de investigadores do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa, decide criar de raiz um novo motor de busca sobre a Web. Te(re)mos um Motor de Busca Alternativo! Dava-se início ao projecto TUMBA!
O objectivo deste projecto era criar um motor de busca inovador em Portugal, baseado no desenho do Google, mas optimizado para a língua portuguesa. Este novo serviço destinado principalmente à comunidade lusófona, iria colmatar lacunas dos motores de busca existentes na altura que, por exemplo, tratavam palavras portuguesas com caracteres acentuados de maneira pouco eficaz. Embora em ambiente académico, o motor de busca TUMBA! manteve-se como um serviço disponível ao público de 2001 a 2009.
O projecto TUMBA! serviu para formar especialistas em áreas que na altura estavam muito longe de fazerem parte do quotidiano da maioria das pessoas. Em 2002, muito antes da febre dos smartphones, foi lançada a versão móvel do TUMBA! A pesquisa de informação geográfica começou a ser estudada em 2004, assim como o processamento automático do português. O primeiro protótipo de um sistema de arquivo da Web portuguesa foi criado em 2006.
A Ciência são as pessoas
Em 2007, após concluir o seu doutoramento, um dos investigadores que esteve na origem do TUMBA!, iniciou o projecto oficial do Arquivo da Web Portuguesa na Fundação para a Computação Científica Nacional (FCCN).
A equipa que desenvolve e suporta o Arquivo da Web Portuguesa (AWP) é composta por 5 elementos. Todos realizaram trabalhos de investigação científica ao longo da sua formação. Três dos membros da equipa do AWP trabalharam no projecto TUMBA! onde tiraram as suas pós-graduações (mestrado, doutoramento).
A área do arquivo da web é recente e para criar um serviço útil à comunidade, a equipa do AWP tem de frequentemente ultrapassar problemas que nunca foram resolvidos. As competências obtidas através de uma sólida formação científica, como a capacidade análise crítica ou adaptação a novas situações, são cruciais para desenvolver serviços avançados e mantê-los ao longo do tempo.
A equipa do AWP continua a disseminar o conhecimento adquirido através da publicação de artigos científicos, validados, referenciados e premiados a nível internacional.
A cooperação entre especialistas de várias áreas é fundamental para a criação de serviços úteis à comunidade. O AWP foi desenvolvido graças a colaborações internacionais e nacionais. A título de exemplo, a sua interface de utilização foi desenhada e validada em colaboração com investigadores do Laboratório de Sistemas Informáticos de Grande Escala. Este laboratório da FCUL tem formado cientistas que hoje integram as unidades de investigação de empresas como a Google, Yahoo! ou Microsoft.
O que há de novo no Arquivo da Web Portuguesa?
Desde 2010 que o Arquivo da Web Portuguesa disponibiliza publicamente em www.arquivo.pt um serviço experimental de pesquisa sobre o passado da Web, que permite aceder e navegar sobre informação arquivada que já não se encontra disponível nos sites dos seus publicadores.
O AWP foi desenvolvido com base nas ferramentas de arquivo da web mais avançadas que são disponibilizadas pelo Internet Archive. O AWP melhorou estas ferramentas para que passassem a suportar novas funcionalidades como uma interface de utilização em português e sugestões de pesquisa. Além disso, o AWP destaca-se por permitir pesquisar por páginas do passado que continham determinadas palavras. Como se fosse um “Google do passado”.
Enquanto que, por exemplo o Internet Archive, que também preserva conteúdos da Web portuguesa, apenas permite pesquisar por endereços de páginas. Ou seja, os utilizadores têm de saber o endereço exacto da página que continha a informação desejada há anos atrás. Por exemplo, não é possível pesquisar por “eleições” no Internet Archive. Ao passo que o AWP suporta esta função de pesquisa textual sobre o passado.
No âmbito de uma colaboração com o Internet Archive, toda a informação que esta entidade detinha recolhida a partir do domínio português .PT, foi integrada no AWP e agora já pode ser pesquisada textualmente através de www.arquivo.pt.
Os conhecimentos adquiridos através da formação obtida durante o TUMBA!, principalmente ao nível da recolha de informação e pesquisa na web, foram fundamentais para a criação de um serviço público mais avançado do que as melhores práticas internacionais num curto intervalo de tempo.
O Arquivo da Web Portuguesa é um serviço único que dá resposta a necessidades actuais em diversos sectores da sociedade como a investigação ou jornalismo. Assim como continua a evoluir para antecipar necessidades futuras, por exemplo, através da investigação em áreas como o arquivo da web móvel.
Investigação aplicada para suportar novas investigações
O Arquivo da Web Portuguesa é um exemplo de investigação aplicada para a resolução de um problema que afecta o dia-a-dia da maioria das pessoas. Quem é que nunca se deparou com uma mensagem de “Página não encontrada”, quando necessitava de aceder a uma informação? Por outro lado, o AWP é uma nova ferramenta de suporte à investigação em diversas áreas científicas, como a Sociologia, História ou Comunicação.
A investigação realizada para escrever este artigo baseou-se em informações que tinham sido exclusivamente publicadas na Web e que entretanto desapareceram dos seus sites de origem. As informações puderam ser encontradas através do AWP (basta seguir as hiperligações contidas no texto deste artigo para aceder às páginas consultadas). O AWP permitiu também já realizar estudos científicos inovadores como a medição em larga escala da acessibilidade da web portuguesa para pessoas com deficiência.
Na Era Digital, os arquivos nacionais da Web são fundamentais para a preservação da herança cultural de um país. Contudo, a sua utilidade ultrapassa o âmbito histórico-cultural, podendo ser usados, por exemplo, como fonte de informação para a criação de ferramentas mais eficazes no combate ao crime.