BLOSUM

Origem: Wikipédia, a enciclopédia livre.
A Matriz BLOSUM62

A matriz BLOSUM (BLOcks of Amino Acid SUbstitution Matrix) é uma matriz de substituição usada para o alinhamento de sequências de proteínas. Matrizes BLOSUM são usadas para pontuar alinhamentos entre sequências de proteínas divergentes. Elas são baseadas em alinhamentos locais. As matrizes BLOSUM foram introduzidas pela primeira vez em um artigo de Henikoff e Henikoff.[1] Elas examinam o banco de dados BLOCKS buscando regiões muito conservadas de famílias de proteínas (que não têm lacunas no alinhamento de sequências) e depois contam a freqüência relativa de aminoácidos e as suas probabilidades de substituição. Então, elas calculam a pontuação do logaritmo das razões de chance para cada uma das 210 possíveis substituições dos 20 aminoácidos-padrão. Todas as matrizes BLOSUM são baseadas em alinhamentos observados; não são extrapoladas a partir de comparações de proteínas intimamente relacionadas como as Matrizes PAM.

Vários conjuntos de matrizes BLOSUM existem usando bases de dados de alinhamento diferentes, batizadas com números. As matrizes BLOSUM com números elevados são projetadas para comparar seqüências intimamente relacionadas, enquanto que aquelas com baixos números são projetadas para comparar seqüências distantemente relacionadas. Por exemplo, a BLOSUM80 é usada para alinhamentos menos divergentes, e a BLOSUM45 é usada para alinhamentos mais divergentes. As matrizes foram criadas pela fusão (clustering) de todas as seqüências que eram mais semelhantes do que uma determinada percentagem em uma única seqüência e depois comparando somente estas seqüências (aquelas que foram mais divergentes do que o valor percentual determinado); reduzindo assim a contribuição de seqüências estreitamente relacionadas. O percentual utilizado foi acrescentada ao nome, formando BLOSUM80, por exemplo, quando sequencias mais de 80% idênticas foram agrupadas.

Escores dentro de uma BLOSUM são pontuações do logaritmo das razões de chance que medem, em um alinhamento, o logaritmo para a razão entre a probabilidade de dois aminoácidos aparecendo com um sentido biológico e a probabilidade dos mesmos aminoácidos aparecendo por acaso.[2] As matrizes são baseadas no mínimo percentual de identidade das sequência de proteínas alinhadas usado para o cálculo delas.[2] A cada identidade ou substituição possível é atribuída uma pontuação com base nas suas frequências observadas no alinhamento das proteínas relacionadas.[3] Um escore positivo é dado para as substituições mais prováveis, enquanto uma pontuação negativa é dada para as substituições menos prováveis.

Para calcular uma matriz BLOSUM, a seguinte equação é utilizada:

Aqui, é a probabilidade de dois aminoácidos e estarem substituindo uns aos outros em uma seqüência homóloga, e e são as probabilidades de fundo de encontrar os aminoácidos e em qualquer seqüência de proteína de forma aleatória. O fator é um fator de escala, definido de tal forma que a matriz contenha ​​valores inteiros facilmente computáveis.

Um artigo na Nature Biotechnology[4] revelou que o BLOSUM62, usado por tantos anos como um padrão, não é exatamente preciso de acordo com o algoritmo descrito por Henikoff e Henikoff.[1] Surpreendentemente, o mal calculado BLOSUM62 melhora o desempenho da pesquisa.

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]

Referências

  1. a b Henikoff, S.; Henikoff, J.G. (1992). «Amino Acid Substitution Matrices from Protein Blocks». PNAS. 89 (22). p. 10915–10919. PMC 50453Acessível livremente. PMID 1438297. doi:10.1073/pnas.89.22.10915 
  2. a b Albert Y. Zomaya (2006). Handbook of Nature-Inspired And Innovative Computing (em inglês). New York: Springer. p. 673. ISBN 0-38740532-1 
  3. NIH "Scoring Systems"
  4. Styczynski, Mark P.; Jensen, Kyle L.; Rigoutsos, Isidore; Stephanopoulos, Gregory (2008). «BLOSUM62 miscalculations improve search performance». Nat. Biotech. 26 (3). p. 274–275. PMID 18327232. doi:10.1038/nbt0308-274