Introdução
Vários nomes científicos utilizam o mesmo epíteto específico. Artemisia vulgaris e Beta vulgaris são plantas diferentes com o mesmo epíteto específico, vulgaris, mas com abreviações diferentes, A. vulgaris e B. vulgaris.
Alguns nomes científicos são por vezes abreviados com duas letras do gênero, ao invés de uma, como o mosquito Lu. longipalpis e o parasita Le. chagasi, que estão relacionados. Isso ocorre porque usar a mesma inicial para a abreviação poderia tornar mais difícil interpretar de qual gênero se está falando de cada vez.
Pergunta 1: qual o epíteto específico mais comum?
Pergunta 2: qual a abreviação de nome científico mais comum?
Metodologia
Usar um query do Wikidata para coletar todos os nomes científicos de espécies que estão catalogados no repositório. Podemos usar o Query Builder para uma edição visual.
Quais elementos selecionar? Na Consulta, colocamos
Filtro: com taxon rank (P105) correspondente a species (Q7432). Não marquei a caixa "Incluir valores relacionados na pesquisa" pois quero apenas resultados idênticos a espécie.
Depois de correr a consulta, nos Resultados, à direita, cliquei Editar visualmente para mostrar taxon name
(P225). A consulta corre novamente, e eu clico em "Mostra a consulta no Serviço de Consultas" para ver o código gerado.
Assim, conseguimos a seguinte query, disponível aqui:
SELECT DISTINCT ?item ?nome_do_táxon WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
{
SELECT DISTINCT ?item WHERE {
?item p:P105 ?statement0.
?statement0 (ps:P105/(wdt:P279*)) wd:Q7432.
}
LIMIT 100
}
OPTIONAL { ?item wdt:P225 ?nome_do_táxon. }
}
Está limitada a 100 resultados, para testes. Para alterar, basta mudar o LIMIT 100.
Eu removi o ?itemLabel que estava antes de ?nome_do_táxon. itemLabel serve para receber o nome do item, mas não será necessário, e isso tornaria a pesquisa mais lenta. Vamos fazer um teste com LIMIT 10000. Com itemLabel, o query retorna 10004 resultados em 8657 ms. Sem itemLabel, o query retorna 10004 resultados em 24 ms.
Alguns resultados são vírus. Vírus possuem nome científico que não segue a nomenclatura binomial. Por exemplo, o nome científico do vírus HPV é Human papilloma virus. É possível pedir apenas itens sem táxon superior vírus (Q808), mas o tempo de processamento aumenta muito. Melhor remover os vírus depois.
Descarregar o ficheiro em formato csv permite que ele seja trabalhado com outro programa.