sexta-feira, 7 de outubro de 2016

KEGG: Kyoto Encyclopedia of Genes and Genomes

KEGG (Kyoto Encyclopedia of Genes and Genomes) é um banco de dados com informações sobre genomas, vias metabólicas, drogas, doenças e substâncias químicas. Com o intuito de armazenar dados genômicos e metabólicos, Minoru Kanehisa, em 1995, iniciou a base de dados KEGG, que recebe atualizações até os dias de hoje.


Desde então KEGG funciona como uma poderosa ferramenta para estudos genômicos, pois possibilita a contextualização metabólica de um determinado  gene (ou proteína), verificação de EC number (Enzyme Commission number), armazenamento de dados sobre grupos de ortólogos (KO) e anotação funcioal.

Em relação à anotação funcional, KEGG possui KOALA (BlastKOALA - anotação genômica; GhostKOALA - anotação de metagenomas) e Pathogen Checker (usado na identificação de genes de resistência no genoma de um patógeno). Além do Pathogen Checker, KEGG Pathogen e KEGG Cancer também podem ser aplicados em pesquisas de determinadas doenças.

Nessa base de dados cada genoma possui um código e identificador derivado do nome cientifico da espécie em questão. Quando uma proteína é consultada, além do identificador do genoma, é acrescentado um separador ":" e um número, específico da sequência. Por exemplo: 


hsa:50 [aconitase 2 (EC:4.2.1.3)]

hsa:2016 [empty spiracles homeobox 1]

2) Mus musculus (camundongo)

mmu:208665 [aldo-keto reductase family 1, member D1 (EC:1.3.1.3)]

mmu:13075 [cytochrome P450, family 19, subfamily a, polypeptide 1 (EC:1.14.14.14)]

A base consta de genomas completamente sequênciados, genomas drafts e genomas obtidos por meio de experimentos metagenômicos. É possível encontrar genomas de eucariontes, procariontes (bactérias e arqueobactérias) e, recentemente, também genomas virais.

Talvez o grande trunfo do banco de dados seja a visualização das vias metabólicas (Pathway). São armazenados dados, manualmente curados, contendo o conhecimento experimental, a nível metabólico e em vários contextos e processos celulares. Nesses mapas, as moléculas são representadas por círculos, as proteínas (genes) por retângulos, outras vias relacionadas com a imagem observada são ovais e as conexões entre esses elementos ocorrem por meio de arestas.

Visualização do metabolismo humano completo. As cores representam as diferentes vias metabólicas presentes em nossa espécie e os nós são os elementos dentro dessas vias .


Anotação utilizada pelo KEGG para representar os elementos presentes nas vias metabólicas e processos biológicos.


Exemplo de uma busca de EC (1.1.1.1) contra os mapas metabólicos da espécie humana. Em retângulos brancos são as proteínas presentes em outros genomas, porém ausentes em humanos, verde representa a presença da proteína e vermelho (cor definida no momento da busca) o EC desejado.

Nenhum comentário:

Postar um comentário