Universidade Federal de Viçosa Viçosa, MG. Brasil |
Programa
Genes Aplicativo computacional na área de
Genética e Estatística Experimental |
Departamento
de Biologia Geral Viçosa,
MG. 36570-00 |
ATENÇÃO:
1. O Chrome não está acessando a página do
tipo ftp. Assim, se você estiver utilizando-o, aparecerá, a seguir, uma tela em
branco.
2. Para acessar o site para download use outro
navegador.
3. Outra alternativa é não utilizar o
navegado mas digitar no campo do botão Iniciar do windows, o comando:
explorer ftp://ftp.ufv.br/dbg/Biodata/
Introdução
Os princípios teóricos desenvolvidos por inúmeros pesquisadores têm permitido o planejamento e a execução mais eficiente de programas de melhoramento e, principalmente, a predição das conseqüências das diferentes estratégias adotadas por melhoristas. Para que o programa de melhoramento tenha sucesso, deve-se ter, no contexto de genética quantitativa, uma série de informações da espécie a ser melhorada, dos métodos de melhoramento e das metodologias de análises genético-biométricas disponíveis.
Para a obtenção de materiais genéticos superiores é necessário que os indivíduos selecionados reunam, simultaneamente, uma série de atributos favoráveis que lhes confiram rendimento comparativamente mais elevado e que satisfaça às exigências do consumidor. Assim, uma maneira de se aumentar a chance de êxito de um programa de melhoramento é a realização de experimentos fidedignos, dos quais são obtidos grande volume de dados experimentais. É a partir do processamento adequado destes dados que os parâmetros genéticos são estimados e os fenômenos biológicos são interpretados. Nesta etapa de análise e interpretação de resultados é fundamental a existência de recursos computacionais e aplicativos eficientes à disposição do pesquisador.
O desenvolvimento de aplicativos na área de Genética e Melhoramento torna-se fundamental pela escassez dos mesmos, tanto no Brasil quanto no exterior. Sua disponibilidade visa atender a uma demanda crescente de usuários nas diversas instituições de pesquisa, que manipulam um grande volume de dados, os quais requerem um processamento adequado, para que parâmetros estatísticos e biológicos sejam convenientemente estimados.
Para o caso específico da Genética verifica-se que o melhoramento intensivo de muitas espécies e a complexidade dos caracteres de maior importância têm requerido a utilização de critérios de seleção cada vez mais apurados. Nas diversas etapas do melhoramento os melhoristas têm a necessidade de utilizar informações, expressas em parâmetros de modelos biométricos, que normalmente não estão disponíveis nas saídas da maioria dos softwares disponíveis para a área científica. Assim, por exemplo, metodologias de análises dialélicas, para escolha de progenitores para hibridações e formação de populações-base para seleção, de avaliação da estabilidade e adaptabilidade, para recomendação de cultivares, de estimação de parâmetros genéticos tais como herdabilidade, correlações etc., para avaliar e direcionar programas de melhoramento, não são geralmente encontradas nos aplicativos difundidos em nossa comunidade científica.
Assim, foi desenvolvido o programa GENES, com a finalidade de atender, principalmente, a área de Genética e Estatística Experimental. O software é distribuído gratuitamente para a comunidade científica, estando disponível no site www.ufv.br/dbg/genes/genes.htm.
Histórico
O desenvolvimento do programa Genes teve início em 1987, de forma preliminar e fragmentada e com poucas rotinas para atender algumas demandas específicas na área de melhoramento vegetal. Entretanto, já em 1990 foi citado em teses inciando, portanto, a sua inserção na comunidade cientíifica. Também em 1990 foi submetido, e aprovado pelo CNPq, o projeto "Programa GENES - Software Aplicado a Área de Genética Quantitativa e Estatística Experimental - Proc. 402734/90". Naquela época o objetivo era desenvolver um software com vários procedimentos biométricos em rotinas executáveis ocupando, junto com outros programas auxiliares, nove disquetes de 5 1/4 (3,2 Mbytes). O aplicativo era utilizado sob sistema operacional DOS e contava com grande número de procedimentos com ênfase em biometria e estatística experimental. Dada a crescente demanda e difusão do aplicativo, publicou-se, como suporte ao usuário, um primeiro manual de sua utilização, em 1997, pela editora UFV (CRUZ, C. D. Programa Genes - Aplicativo Computacional em Genética e Estatística. VIÇOSA, MG: EDITORA UFV, 1997. v1. 442 p.)
|
CRUZ, C. D. Programa Genes - Aplicativo Computacional em Genética e Estatística. VIÇOSA, MG: EDITORA UFV, 1997. v1. 442 p. |
Em 1993 também foi aprovado o projeto "Programa GENES II - Software aplicado a área de Genética Molecular - Proc. 301938/84-9". Este programa tinha como objetivo atender outro segmento da pesquisa voltada para a área de Genética Molecular, analisando dados obtidos de estudos com marcadores dominates e codominantes. Como esta área teve grandes avanços, o software também ampliou e formou a base de um novo aplicativo denominado GQMOL, atualmente disponível para download no site: www.ufv.br/gqmol/gqmol.htm.
Em 1995 o sistema operacional na versão windows se destacou pela sua forma de comunicação amigável com inúmeros recursos gráficos e com grande adesão pelos usuário. Este sistema facilitou sobremaneira o uso de aplicativos computacionais pois substituiu definitivamente a limitada, e às vezes difícil, linha de comando do DOS por uma interface gráfica com o usuário, muito mais rica e agradável. Nesta época deu-se início a migração de Genes para este sistema Windows, de forma que, em 2001 o programa já estava completamente vertido para este sistema e ocupava cerca de 4.0 Mbytes. Sua abrangência atingia pesquisadores de várias universidades brasileiras e instituições de pesquisas privadas, estatuais e federais.
As aplicações baseadas no Windows não apenas compartilha uma interface com o usuário, o que torna mais fácil o aprendizado de vários procedimentos disponíveis no aplicativo, como também dá acesso comum ao vídeo, impressoras e demais periféricos dos sistemas para todas as aplicações baseadas no Windows. A existência de uma versão do GENES em ambiente Windows permitiu usuário maximizar o uso de seu sistema uma vez que é estabelecida uma interface coerente com outros aplicativos tais como o Excel, Word, MS Paint etc.
Como suporte aos usuários desta nova versão do aplicativo, foi lançado pela editora UFV, em 2001, novo livro tratando de Genes em versão windows (CRUZ, C. D. . Programa GENES - versão windows. Aplicativo computacional em Genética e Estatística. 1. ed. Viçosa, MG: Editora UFV, 2001. v. 1. 648 p.).
|
CRUZ, C. D. . Programa GENES - versão windows. Aplicativo computacional em Genética e Estatística. 1. ed. Viçosa, MG: Editora UFV, 2001. v. 1. 648 p. |
Em 2003, o Programa de Apoio à Pesquisa em Educação a Distância – PAPED MEC-SEED (Secretaria de Educação a Distância) – CAPES, em reconhecimento pelo desenvolvimento do aplicativo Genes, concedeu prêmio ao autor, permitindo avaliar a importância do Genes no âmbito nacional.
Em 2006 o número de procedimentos dentro do Genes cresceu consideravelmente, de forma que tornou-se inviável manter um único livro para fins de suporte e detalhamento de seus procedimentos. Assim, neste ano foram lançados 3 volumes abordando os vários aplicativos disponíveis, quais sejam:
|
CRUZ, C. D. . Programa Genes - Estatística Experimental e Matrizes. 1. ed. Viçosa: Editora UFV, 2006. v. 1. 285 p. |
|
CRUZ, C. D. . Programa Genes - Biometria. 1. ed. Viçosa,MG: Editora UFV, 2006. v. 1. 382 p. |
|
CRUZ, C. D. . Programa Genes - Análise multivariada e simulação. 1. ed. Viçosa, MG: Editora UFV, 2006. v. 1. 175 p. |
Em 2008 é apresentada a descrição de novos procedimentos abrangendo a área de diversidade genética, culminando na publicação do quarto volume, com o seguinte título:
|
CRUZ, C. D. . Programa Genes - Diversidade Genética. 1. ed. Viçosa, MG: Editora UFV, 2008. v. 1. 278 p. |
Em
2007, SUDRÉ el al (Horticultura Brasileira 25: 496-503, 2007) realizaram
estudos identificando os trabalhos relacionados a recursos genéticos de
hortaliças publicados na “Revista de Olericultura” e “Horticultura Brasileira”,
de
Em 2012 é submetido à Fapemig projeto com a finalidade aprimorar e disponibilizar o aplicativo computacional Genes em vários idiomas e integrado ao software livre R. Considerou que apesar de toda potencialidade, o aplicativo Genes tem sua visibilidade internacional restrita. Assim, tornava-se fundamental que seu ambiente de utilização permita a utilização de diferentes idiomas ampliando a inserção territorial do aplicativo e a abrangência de usuários. Também teve início a associação entre os programas Genes e o R. O R vem tendo uma aceitação crescente na comunidade científica pela sua versatilidade e eficácia, com grande impacto em instituições de pesquisas, nas universidades e em empresas públicas e privadas. A combinação destes aplicativos é bastante proveitosa pois permite quebrar barreiras e facilitar a análise e a interpretação de dados de características com qualidade, com custo zero e com a mesma confiabilidade demonstrada por outros softwares.
Em 2013 é publicado o artigo: “Cruz, C.D. GENES - a software package for analysis in experimental statistics and quantitative genetics. Acta Scientiarum. v.35, n.3, p.271-276, 2013”.
http://periodicos.uem.br/ojs/index.php/ActaSciAgron/article/view/21251
Também neste ano foi disponibilizada na rede social facebook a página GenesNews que tem cerca de 2000 participantes e recebe críticas, sugestões e responde à diversas questões de participantes de mais de 30 países.
https://www.facebook.com/GenesNews/
Em 2015 é dado início ao desenvolvimento de scripts que permitam a integração com o Selegen e com o Matlab. Assim, é acrescido o módulo de Inteligência computacional fundamento e redes neurais e lógica Fuzzy.
Para facilitar o aprimoramento dos aplicativos é feita a fusão entre Genes e Gqmol, de forma que o programa Genes passa, em 2015, com o módulo adicional de genômica que possibilita a análise molecular fundamentada em mapeamento genético e detecção de QTLs.
Em 28/6/2011, em busca no Google Acadêmico, verifica-se que o aplicativo é citado em cerca de 4000 publicações.
Descrição
O
programa Genes deve ser ser utilizado sob
sistema operacional Windows, sendo compatível com microcomputadores da linha
IBM PC.
Com algumas
configurações indispensáveis, tais como:
- a resolução de vídeo de 1024 x 768
(fontes grandes 120ppp)
- uso de símbolo decimal expresso
por ponto.
Conta com 201 projetos
executáveis, 131 documentos texto em formato rtf, ocupa cerca de 250Mbytes e
está disponível nos idiomas inglês e português.
Fornecimento dos Dados para Processamento
Os procedimentos apresentam geralmente uma seqüência comum
de análise de dados. Basicamente, o usuário fornece o nome do arquivo que
contém os dados a serem processados, informa sobre os parâmetros (número de
variáveis, de tratamentos, blocos etc.), fornece os nomes das variáveis
(opcional) e imprime ou salva os resultados obtidos.
O
fornecimento dos dados é feito
via arquivo que contenha dados em uma
planilha, em que cada coluna representa determinada característica a ser
analisada, e cada linha, a observação experimental. Algumas vezes, as primeiras
colunas são reservadas para descrever variáveis classificatórias ou descritores
de efeitos, como tratamentos, blocos, anos, locais etc.
Módulos
O
programa Genes conta com os módulos de análise, descritos a seguir, envolvendo vários procedimentos de análise
biométrica.
1. Biometria
Interação Genótipos x Ambientes: análise de estratificação, cálculo de
dissimilaridade e correlações entre
ambientes
Estabilidade
e Adaptabilidade: análise por métodos baseados na ANOVA (tradicional, Plaisted e Peterson, 1959,
Wricke,1965 e
Annicchiarico,1992), em regressão (Eberhart e Russell, 1966, Finlay
e Wilkinson, 1963 e Tai, 1971), em regressão bissegmentada (Verma, Chahal e
Murty, 1978, Silva e Barreto, 1985 e
Cruz, Torres e Vencovsky, 1989) em
análise não-paramétrica (Huehn, 1990,
análise visual e Lin e Binns,1988), em análise de fatores e em componentes principais ou centróides.
Ganhos por Seleção – Índices:
cálculo de ganhos por seleção entre
famílias (univariada e índices) considerando a seleção direta e Indireta,
índices clássico de Smith,1936 e Hazel,
1943, baseado em soma de ranks de
Mulamba e Mock,1978, base de Willians, 1962, multiplicativo de Subandi et al., 1973, livre de pesos
e parâmetros de Elston, 1963, baseado nos ganhos desejados de Pesek e Baker, 1969 e no Índice da distância genótipo-ideótipo).
Cálculo de ganhos por seleção entre famílias por métodos univariados ou por
índices restritos clássico de Smith,1936 e Hazel, 1943, de Kempthorne e Nordskog, 1959, de
Tallis,1962, de James, 1968, de Cunningham et al., 1970 e baseado nos ganhos desejados de Pesek e
Baker, 1969. Cálculo de ganho por seleção entre
considerando índices sob colinearidade, de ganhos por seleção entre e dentro em
experimento balanceados e desbalanceado),
por seleção entre e dentro massal e estratificada. Análide de seleção
visual, seleção em vários ambientes e predição de ganhos por seleção dentro sem
Informações de plantas dentro da parcela.
Análise Dialélica: Análise de dialelos balanceados (Metodologias
de Griffing, 1956, de Gardner e Eberhart, 1966, de Hayman,1954 e de Cocherhan e
Weir,1977, teste entre híbridos e recíprocos, predição de compostos e híbridos
e de índices de família), análise
dialélica conjunta (de dialelos balanceados de Griffing, 1956, de Gardner e
Eberhart, 1966, e de dialelos parciais e
circulantes), dialelos Parciais( pelas
metodologias de Geraldi e Miranda Filho,
1988, de Miranda Filho e Geraldi,1984, de Kempthorne, 1966, de Viana et al.
1999 e 2000 e predição de híbridos
triplos e duplos). Análide de dialelos
circulantes, parciais circulantes e
desbalanceados.
Gerações
Segregantes e Não-segregantes: Teste de escala conjunta (P1, P2,
F1, F2 com inclusão facultativa de RC1 e RC2 ) análise de
experimentos de linhas segregantes e
pais em fileiras intercalares e análise de indivíduos na geração Ft
e de suas linhas Ft+1 derivadas
Repetibilidade
: Análise de dados originais ou
clasificados
Seleção
Combinada : análise de ensaios de famílias com
dados balanceados ou desbalanceados. Análise de delianemento genético
propostoso por Comstock e Robinson (1948), Comstock e Robinson (1948) envolvendo vários
Sets
Progresso Genético e Ambiental
Coleção Nuclear
2. Análise Multivariada
Componentes Principais
Variáveis Canônicas
Correlações Canônicas
Análise
Discriminante( pelo método propostos por
Anderson ou baseada em
componentes principais)
Análise
de Fatores
Medidas de
Dissimilaridade:
a partrir de variáveis quantitativas fenotípicas contínuas,
multicategóricas ou binárias. Análise de dados moleculares originados de
marcadores dominantes ou codominantes.
Análise
de Agrupamento: Método de otimização
de Tocher, hierárquicos,
dispersão gráfica e projeção 2D e
3D. Identificação de acessos mais e menos similares
Importância de Caracteres:
por componentes principais ou pela distância Generalizada de Mahalanobis e
análise de variáveis canônicas
3. Simulação
Simulação
de Ensaios
Simulação de Amostras (p populações e v variáveis)
Número
Ótimo de Famílias
Número
Ótimo de Plantas (Amostragem Aleatória ou
Predefinida)
Número Ótimo de Repetições ou
Tamanho Ótimo de Amostra
4. Diversidade Genética
Diversidade
entre Acesso: baseada em variáveis fenotípicas
contínuas multicategóricas, binárias e
análise de dados de marcadores dominantes
e codominantes (multialélicos).
Diversidade entre Populações: Cálculo identidade
genética de Nei (1972) e das distâncias euclidiana, de Rogers, Angular, de
Goldstein et. al (1985) e de Hedrick.
Diversidade
dentro de populações: cálculo do coeficiente de endogamia e
heterozigose, do índice de Shannon-Wiener e da heterozigose a partir de dados
binários
Diversidade entre e dentro de populações: análise
descritiva, cálculo da diversidade de Nei (1973), do índice de fixação de Wright (Dois alelos ou alelos múltiplos), da
heterozigosidade de Weir (1996). Análise
de tabela de Contigência, anova da freqüência alélica (F, f e ),
Amova de Excoffier et al (1992) e
análise de dados binários.
Análise
Discriminante: análise discriminante de Anderson,
análise baseada em componentes principais ou no K vizinhos mais próximos. Análises
discriminantes a partir de matrizes de dissimilaridade
Coeficiente de parentesco
Análise
de agrupamento: pelo método de otimização de Tocher e hierárquicos, por dispersão gráfica, por projeção 2D e 3D e
análise de acessos mais e menos similares
Matrizes de
Dissimilaridade: cálculo da correlação e da soma entre
elementos de matrizes de dissimilaridade
Importância
de Caracteres: considerando caracteres quantitativos
fenotípicos ou informações moleculares, por meio da Manova
Otimização:
Análise do número ótimo de marcadores binários ou multialélicos para estudo
da diversidade genética.
Simulação:
simulação de populações,
de cruzamentos e de amostras sob efeito da seleção divergente ou deriva
genética
Equilíbrio
de Hardy-Weinberg: Análise de populações a partir de
informações de marcadores codominante dialélico ou multialélico
Desequilíbrio de Fase Gamética
5. Estatística Experimental
Estatísticas
descritivas
Teste de Normalidade
Análise de
Variância: análise de delineamentos e esquemas
inteiramente ao acaso, de experimentos com tratamentos regulares e
não-regulares, em blocos ao acaso, fatorial e parcelas subdivididas. Análise de
procedência/progênie/planta, látices simples e triplos e modelos hierárquicos.
Regressões:
regressão linear simples, não-linear, múltipla e polinomial, superfície de resposta e análise
por gráfico 3D.
Correlações:
cálculo de correlações genéticas, correlações de Pearson e de Spearman,
parciais e canônicas. Análise de trilha (envolvendo 1 ou 2 cadeias) e análise de trilha sob colinearidade.
Comparação
Entre Médias: Testes de Tukey, Duncan, Scheffé e Scott e Knott, teste de Tukey com número de repetições variável, de Dunnett, teste t, de Tocher,
teste de qui-quadrado para avaliar hipótese, heterogeneidade e ligação Fatorial.
Métodos de Correção de Estande
6. Matrizes
Diagnóstico de Multicolinearidade
Álgebra de Matrizes
Solução do Sistema
Solução do Sistema
7. Genômica
A análise
genômica, voltada para a área agronômica e zootécnica, visa gerar mapas
genéticos saturados em várias
espécies e encontrar genes (denominados locos de características quantitativas
ou QTL) responsáveis pela variação genética em características de interesse em
plantas e animais (Liu, 1998, Schuster e Cruz, 2004). A maioria das características herdáveis e de
importância econômica resulta da ação conjunta de vários genes, denominadas
características poligênicas, quantitativas ou de herança complexa e seu estudo,
em nível molecular, é de grande interesse. Assim, para análise dos dados
quantitativos e moleculares, o aplicativo Genes conta com os seguintes módulos:
7.1 Análises de populações derivadas de
cruzamentos controlados
Uma população usada para fins de mapeamento
genético e detecção de QTLs (Quantitative Trait Loci) é denominada população de
mapeamento e pode ser obtida a partir de cruzamentos controlados ou de
populações naturais (ou populações exogâmicas). O programa Genes permite a
análise de dados provenientes de populações derivadas de cruzamentos
controlados, envolvendo genitores homizogotos contrastantes, do tipo F2,
F3, ...Fn, RILs, retrocruzamentos e duplo-haplóides. Os
seguintes procedimentos estão disponíveis:
a. Teste
de segregação mendeliana para cada marcador;
b. Mapa
de ligação considerando cada tipo de população;
c. Análise
de QTL por marca simples;
d. Análise
de QTL por intervalo simples;
e. Análise
de QTL por intervalo composto;
f. Análise
de interação QTL x ambiente;
g. Integração
de mapas genéticos;
7.2 Análises de populações exogâmicas
O aplicativo conta com
recurso para o estudo pormenorizado do mapeamento genético que incluem
informações de marcadores moleculares codominantes multialélicos em populações exogâmicas,
estabelecidas uma ou várias famílias de meio-irmãos e irmãos-completos, e
também técnicas de detecção de QTLs nestas populações. São realizadas as
seguintes análises:
a. Teste
de segregação mendeliana para cada marcador;
b. Cálculo
do valor da identidade por descendencia (IBD) para cada marcador;
c. Mapa
de ligação;
d. Análise
de QTL por contraste entre médias;
e. Análise
de QTL pelo método de Elston (1972);
f. Análise
de QTL pelo método de Fulker e Cardon (1994);
7.3 Simulação de genoma
Neste procedimento o usuário poderá
fazer estudo de comparativos de técnicas, modelos e estratégias de seleção
aplicadas a genomas de diferentes espécies caracterizadas por parâmetros tais
como: número de grupos de ligações; tamanho de cada grupo de ligação; número
marcas moleculares em cada grupo de ligação, sendo possível simular
simultaneamente a existência de marcas dominantes e codominantes multialélicas;
fase de ligação, número e posição de QTLs; ação gênica de QTLs e efeito
ambiental sobre a média e a variância fenotípica.
a)
Simulação de genoma de diferentes espécies a
partir da especificação do número básico de cromossomos e tamanho do
genoma;
b)
Simulação de genótipos de genitores. O
usuário poderá estabelecer genótipos de genitores considerando as
possibilidades de inclusão de cruzamentos totalmente informativos ou
parcialmente informativos. Também pode estabelecer número de marcas moleculares
por grupo de ligação, distância entre marcas e fase de ligação;
c)
Simulação de populações de diferentes tipos
(derivadas de cruzamentos controlados ou exogâmicas) com diferentes tamanhos de
modo que se possa estabelecer valor ótimo para estudos de mapeamento e comparar
a eficácia de metodologias no estabelecimento dos mapas genéticos e
procedimentos de detecção de QTLs;
d)
Simulação das características quantitativas
de controle poligênico, com efeitos aditivo-dominantes, com média,
variabilidade e herdabilidade conhecidas e estabelecidas pelo usuário
8. Inteligência Computacional
A
Inteligência computacional reune um conjunto de técnica que tem sido empregada,
mesmo que de forma tênue, como ferramenta adicional na tomada de decisão nos
programas de melhoramento genético animal e vegetal. Incluem modelos de
processamento de dados que emulam uma rede de neurônios biológicos, capazes de
recuperar rapidamente uma grande quantidade de dados e reconhecer padrões
baseados na experiência, ou seja, tentam reproduzir as funções das redes
biológicas, buscando implementar seu comportamento funcional e sua dinâmica
(Haykin, 2001). Por não se basear em regras, essa abordagem surge como uma
alternativa à metodologia de computação algorítmica convencional, em que, um
conjunto de neurônios artificiais conectados é capaz de resolver problemas de
complexidade elevada. No programa Genes encontram-se disponíveis os seguintes
procedimentos:
a.
Técnicas de rede neurais artificiais
aplicadas aos seguintes estudos:
- Estudos
classificatórios com ênfase e diversidade entre populações
- Estudo de
predição como ênfase em ajuste de modelos
- Estudos de
previsões com ênfase em análises temporais
- Estudos de
predição de valores genômicos por meio de análise de dados fenotípicos e
moleculares
- Estudos de
predição de valores fenotípicos por meio de estatísticas experimentais
b.
Técnicas de lógica Fuzzy aplicada ao estudo
de análise de estabilidade e adapatabilidade.
c.
Técnicas de análise por meio do mapeamento de
Kohonen
Referências sobre o aplicativo
CRUZ,
C. D. . Programa Genes - Análise multivariada e simulação. 1. ed. Viçosa, MG:
Editora UFV, 2006. v. 1. 175 p. |
|
CRUZ,
C. D. . Programa Genes - Biometria. 1. ed. Viçosa,MG: Editora UFV, 2006. v.
1. 382 p. |
|
CRUZ,
C. D. . Programa Genes - Diversidade Genética. 1. ed. Viçosa, MG: Editora
UFV, 2008. v. 1. 278 p. |
|
CRUZ, C. D. . Programa Genes - Estatística
Experimental e Matrizes. 1. ed. Viçosa: Editora UFV, 2006. v. 1. 285 p. |