GBIF, AFD e outras bases de dado de táxons no Wikidata

O Wikidata possui itens que podem representar espécies e outros táxons. Cada item tem propriedades, algumas das quais são ligações para bases de dados tradicionais de táxons. Dentre estas bases de dados de táxons estão o Global Biodiversity Information Facility (GBIF), COL (Catalogue of Life), OTOL (Open Tree of Life), etc. Estas propriedades recebem o código Wikidata property to identify taxa (Q42396390).

Construiu-se um query para obter todas essas propriedades: https://w.wiki/HEx4 (execução rápida).

Com uma query, é possível descobrir quantos items do Wikidata utilizam quais propriedades. As bases de dados com mais de um milhão de itens de táxons são: 

P846 GBIF taxon ID 3319448
P10585 Catalogue of Life ID 2288294
P9157 Open Tree of Life ID 2033527
P5055 IRMNG ID 1383278
P830 Encyclopedia of Life ID

1105767 

 A query completa encontra-se em https://qlever.dev/wikidata/tRIwGH (execução lenta).

 Assim, o GBIF é a base de dados com maior número de itens. No entanto, nem todos os itens de táxon possuem ligação para o GBIF. Isso pode ser simplesmente uma limitação do Wikidata (ex. há registro da espécie no GBIF, mas o item no Wikidata ainda não tem ligação para ele) ou pode representar uma lacuna real no GBIF (ex. espécie recém descoberta atualizada no Wikidata mas não no GBIF; ou espécie registrada em outra base de dados mas não no GBIF).

 Para testar a sobreposição do GBIF com outras bases de dados, foi feita uma query. A query seleciona um número aleatório de items com a propriedade da base menor (ex. iNaturalist taxon ID) e conta quantos deles tem ligação para o GBIF, retornando a porcentagem. É preciso atualizar a query para cada código P de cada propriedade. Query disponível em: https://w.wiki/HFTV (link para P6039 = Australian Faunal Directory ID).

 A maioria das bases de dados amostradas possui 90% ou mais de itens representados no GBIF. No entanto, Australian Faunal Directory ID (P6039) teve apenas 62% dos seus itens com ligação para o GBIF. O que explica essa baixa concordância?

 Uma nova query pode ajudar a entender. Essa query pega itens aleatórios da AFD e retorna seu label e seu link para o GBIF. Disponível em: https://w.wiki/HFTz. Vamos ver exemplos.

Kaimon plistonotius (Q111594552) não tem ligação para o GBIF (ainda), mas existe no GBIF (12231277). Assim, basta um voluntário adicionar a ligação. E eu fiz isso.

 Enchesphora poliophanes (Q111311085) não existe no GBIF (conforme esta busca), apenas seu gênero. Assim, se trata de fato de uma lacuna no GBIF.

 Uma explicação para a baixa representatividade no GBIF é que o AFD teria uma grande quantidade de itens que não são táxon. Isso pode ser conferido com outra query. Esta query a seguir pega itens que têm ligação para o AFD e retorna seu "instance of" (ou seja, se é um taxon, ou uma pessoa, ou um livro, etc.) e "instance of Label", além de "taxon rank level", para verificar se é realmente uma espécie, ou gênero, família, etc. Query em  https://w.wiki/HFVD (LIMIT 123 para executar rapidamente). 

Com a query, é possível verificar visualmente que não há desvios do esperado. Todos os itens vistos são táxon ou táxon fóssil, portanto dentro do escopo do que teria ligação para o GBIF. Em uma amostra de 12 mil itens, menos de 30 eram instâncias de algo fora do escopo (como "clado", "misspelling" ou "unavailable combination"). Assim, mantêm-se a hipótese de lacuna no GBIF.

   Para comparação, a query semelhante buscando a propriedade do Internet Archive (P724) retorna itens que são instância de edição, filme, revista científica, etc. (https://w.wiki/HFVY) 

Nenhum comentário:

Postar um comentário

As cotas e a ampla concorrência na UFV

Em agosto de 2012 foi sancionada a Lei 12.711, conhecida popularmente como Lei das Cotas. A partir de então, todas as universidades federai...