以下是关于“OrthoMCL-同源基因查找软件”的完整攻略,包含两个示例。
背景
OrthoMCL是一种用于同源基因查找的软件。它可以将多个物种的基因组序列进行比对,找出其中的同源基因。在使用OrthoMCL时,我们需要了解如何安装和使用它。
安装
在使用OrthoMCL之前,我们需要先安装它。具体步骤如下:
- 下载OrthoMCL软件包。
bash
wget http://orthomcl.org/common/downloads/software/v2.0/orthomclSoftware-v2.0.9.tar.gz
- 解压软件包。
bash
tar -zxvf orthomclSoftware-v2.0.9.tar.gz
- 安装依赖项。
bash
sudo apt-get install mysql-server
sudo apt-get install libmysqlclient-dev
sudo apt-get install ncbi-blast+
- 配置数据库。
bash
mysql -u root -p
create database orthomcl;
grant all privileges on orthomcl.* to 'orthomcluser'@'localhost' identified by 'password';
flush privileges;
exit;
- 配置OrthoMCL。
bash
cd orthomclSoftware-v2.0.9
cp orthomcl.config.template orthomcl.config
- 修改配置文件。
bash
vi orthomcl.config
将以下行修改为正确的值:
dbConnectString=dbi:mysql:orthomcl:localhost:3306
dbLogin=orthomcluser
dbPassword=password
- 安装OrthoMCL。
bash
perl installModules.pl
使用
在安装OrthoMCL之后,我们可以它来查找同源基因。具体步骤如下:
- 准备输入文件。
输入文件应该是一个FASTA格式的文件,其中包含多个物种的基因组序列。
- 运行OrthoMCL。
bash
orthomclInstallSchema orthomcl.config
orthomclAdjustFasta input.fasta 1
orthomclFilterFasta goodProteins.fasta badProteins.fasta
makeblastdb -in goodProteins.fasta -dbtype prot
blastp -query goodProteins.fasta -db goodProteins.fasta -outfmt 6 -out blast.out
orthomclBlastParser blast.out compliantFasta
orthomclLoadBlast orthomcl.config compliantFasta
orthomclPairs orthomcl.config pairs.log cleanup=yes
orthomclDumpPairsFiles orthomcl.config
mcl mclInput --abc -I 1.5o mclOutput
orthomclMclToGroups groupName 1 < mclOutput
- 输出结果。
输出结果是一个文本文件,其中包含每个同源基因组的成员列表。
示例一:查找两个物的同源基因
以下是一个查找两个物种的同源基因的示例:
- 准备输入文件。
输入文件是一个FASTA格式的文件,其中包含两个物种的基因组序列。
- 运行OrthoMCL。
bash
orthomclInstallSchema orthomcl.config
orthomclAdjustFasta input.fasta 1
orthomclFilterFasta goodProteins.fasta badProteins.fasta
makeblastdb -in goodProteins.fasta -dbtype prot
blastp -query goodProteins.fasta -db goodProteins.fasta -outfmt 6 -out blast.out
orthomclBlastParser blast.out compliantFasta
orthomclLoadBlast orthomcl.config compliantFasta
orthomclPairs orthomcl.config pairs.log cleanup=yes
orthomclDumpPairsFiles orthomcl.config
mcl mclInput --abc -I 1.5 -o mclOutput
orthomclMclToGroups groupName 1 < mclOutput
- 输出结果。
输出结果是一个文本文件,其中包含每个同源基因组的成员列表。
示例二:查找三个物种的同源基因以下是一个查找三个物种的同源基因的示例:
- 准备输入文件。
输入文件是一个FASTA格式的文件,其中包含三物种的基因组序列。
- 运行OrthoMCL。
bash
orthomclInstallSchema orthomcl.config
orthomclAdjustFasta input.fasta 1
orthomclFilterFasta goodProteins.fasta badProteins.fasta
makeblastdb -in goodProteins.fasta -dbtype prot
blastp -query goodProteins.fasta -db goodProteins.fasta -outfmt 6 -out blast.out
orthomclBlastParser blast.out compliantFasta
orthomclLoadBlast orthomcl.config compliantFasta
orthomclPairs orthomcl.config pairs.log cleanup=yes
orthomclDumpPairsFiles orthomcl.config
mcl mclInput --abc -I 1.5 -o mclOutput
orthomclMclToGroups groupName 1 < mclOutput
- 输出结果。
输出结果是一个文本文件,其中包含每个同源基因组的成员列表。
结论
在使用OrthoMCL时,我们需要先安装它,并准备输入。然后,我们可以使用OrthoMCL来查找同源基因。使用OrthoMCL时,我们需要运行一系列命令,包括调整FASTA文件、过滤蛋白质、构建BLAST数据库、运行BLAST、解析BLAST结果、加载BLAST结果、生成同源基因对、转换MCL格式、生成同源基因组。无论是查找两个物种的同源基因还是查找三个物种的同源基因,我们都可以轻松地使用OrthoMCL来完成。