Qualidade de pesquisa do Google - I

terça-feira, 27 de maio de 2008

Qualidade de Pesquisa é o nome de uma equipe responsável pela classificação dos resultados de pesquisa do Google. O trabalho deles é claro: Algumas centenas de milhões de vezes por dia pessoas fazem perguntas ao Google e, dentro de uma fração de segundos, o Google precisa decidir quais dentre os bilhões de páginas da Internet serão exibidas a elas - e em que ordem.

Para algo que é usado tão freqüentemente por tantas pessoas, surpreendentemente sabe-se pouco sobre a classificação no Google. Existem duas razões para isso: concorrência e abuso. A concorrência é uma razão bastante óbvia. Nenhuma empresa quer compartilhar suas receitas secretas com seus concorrentes. Quanto ao abuso, se o Google deixar suas fórmulas de classificação acessíveis demais, facilitarão para que as pessoas burlem o sistema.

Os detalhes dos algoritmos de classificação são de muitas maneiras as jóias da coroa do Google e essas jóias são protegidas com o máximo de cuidado. Estima-se que mais de mil programadores e cientistas foram utilizados diretamente em seu desenvolvimento e o ritmo da inovação não diminuiu.

O coração do grupo é a equipe que trabalha na classificação principal. A classificação é difícil, muito mais difícil do que a maioria das pessoas pensa. Uma razão para isso é que os idiomas são inerentemente ambíguos e os documentos não seguem nenhum conjunto específico de regras. Realmente não há normas sobre como juntar informações, portanto, o Google precisa conseguir entender todas as páginas da Internet escritas por qualquer pessoa, por qualquer razão. E isso é apenas metade do problema. Também precisam entender as consultas que as pessoas fazem, que têm em média menos de três palavras e mapeá-las de acordo com nossa compreensão de todos os documentos. Sem dizer que pessoas diferentes têm necessidades diferentes. E o Google deve fazer tudo isso em apenas alguns milissegundos.

A parte mais famosa do nosso algoritmo de classificação é o PageRank, um algoritmo desenvolvido por Larry Page e Sergey Brin, fundadores do Google. O PageRank ainda é usado hoje, mas agora é parte de um sistema muito maior. Outras partes incluem modelos de idioma (a capacidade de lidar com frases, sinônimos, sinais diacríticos, erros de digitação, etc.), modelos de consulta (não é apenas o idioma, a questão é como as pessoas o usam hoje), modelos de tempo (algumas consultas são melhor respondidas com uma página com 30 minutos de idade e algumas são melhor respondidas com uma página que resistiu ao teste do tempo) e modelos personalizados (nem todas as pessoas querem a mesma coisa).

Outra equipe de nosso grupo é responsável por avaliar como o Google está indo. Isso é feito de várias maneiras diferentes, mas o objetivo é sempre o mesmo: melhorar a experiência do usuário. Este não é o objetivo principal, é o único. Existem avaliações automatizadas a cada minuto (para garantir que nada dê errado), avaliações periódicas da qualidade geral e, mais importante, avaliações das melhorias de algoritmos específicos. Quando um engenheiro tem uma nova idéia, ele cria um novo algoritmo, e o Google testa essa idéia exaustivamente. Eles tem uma equipe de estatísticos que analisa os dados e determina o valor da nova idéia e esses engenheiros se reunem frequentemente para analisar novas idéias e aprovar novos lançamentos. Em 2007, foram lançadas mais de 450 novas melhorias, cerca de 9 por semana em média. Algumas dessas melhorias são simples e óbvias e algumas são bastante complicadas.

A pesquisa internacional tem sido uma das principais áreas de concentração nos últimos dois anos. Isso significa todos os idiomas falados e não apenas os principais. No ano passado, por exemplo, foram feitas grandes melhorias em azerbaijani, idioma falado por cerca de 8 milhões de pessoas. Nos últimos meses, corretores ortográficos foram lançados em estoniano, catação, sérvio, sérvio-croata, ucraniano, bosniano, latviano, filipino, esloveno e farsi. Foi organizada uma rede de pessoas em todo o mundo que dão feedback ao Google, que ainda possui um grande número de voluntários de todas as partes que falam diferentes idiomas e os ajudam a melhorar a pesquisa.

Outra equipe se dedica a novos recursos e novas interfaces com o usuário. Ter um bom motor é algo necessário para se ter um bom carro, mas não é o suficiente. O carro precisa ser confortável e fácil de dirigir. A interface de pesquisa com o usuário do Google é bastante simples. Muito poucos usuários leem as páginas de ajuda e eles se viram muito bem sem elas (mas é bom lê-las mesmo assim). Quando novos recursos são adicionados, o Google tenta garantir que sejam intuitivos e fáceis de usar para todos. Uma das mudanças mais visíveis dos últimos anos foi a Pesquisa Universal. Outras incluem o Google Notebook, Mecanismos de Pesquisa Personalizados e obviamente várias melhorias do iGoogle. A equipe de interface com o usuário tem o auxílio de uma equipe de especialistas em usabilidade que conduz estudos com o usuário e avalia novos recursos. Eles viajam por todo o mundo e chegam a ir até as casas das pessoas para ver os usuários em seus habitats naturais. (Não se preocupe, eles não chegam sem se anunciar ou sem serem convidados!)

Há uma equipe inteira que se concentra no combate ao spam e outros tipos de abuso. Essa equipe trabalha em vários assuntos desde texto oculto até páginas fora do assunto principal entulhadas com palavras-chave inúteis e muitos outros esquemas que as pessoas usam para tentar obter uma classificação mais alta em nossos resultados de pesquisa. A equipe identifica novas tendências de spam e trabalha para reagir a essas tendências de maneiras escalonáveis e, como todas as outras equipes, fazem isso internacionalmente. O grupo de spam trabalha lado a lado com a equipe Central de Webmasters do Google para que possam compartilhar idéias com todos e para que também possam ouvir os donos dos sites.

Existem outras equipes devotadas a projetos particulares. Em geral, a estrutura organizacional é bastante informal. As pessoas se deslocam e novos projetos começam a todo momento.

Uma dos principais fatores sobre a pesquisa é que as expectativas dos usuários crescem rapidamente. As consultas de amanhã serão bem mais difíceis do que as consultas de hoje. Continuarei a fornecer atualizações sobre a qualidade de pesquisa nos próximos meses, portanto, fiquem ligados.