ほぼ中立ブログ

少しだけ趣味に偏った雑記ブログ

バイオインフォマティクス

全自動でシングルコピー遺伝子の連結系統樹推定(OrthoFinder, MAFFT, trimAL, IQ-TREE)

オーソログ推定プログラムのOrthoFinderですが、便利なことにオーソログ推定の結果予測されたシングルコピー遺伝子の情報を個別に抽出してディレクトリにまとめてくれます。 シングルコピー遺伝子の系統樹は種の系統関係を反映している可能性が高いと考えら…

Newick形式で系統樹の樹形が同じか確かめる

複数のNewick形式の系統樹から樹形が同じものを抽出する必要に駆られたので備忘録を兼ねたまとめです。 当たり前ですが、 ((A,B),(C,D)); ((C,D),(A,B)); の2つのNewick形式は同じ樹形を表しており、 ((A,B),(C,D)) ((A,C),(B,D)); の2つのNewick形式は異な…

BiopythonによるオンラインのBLAST実行

Biopythonを使って、与えられたFASTAファイルの配列データをクエリーとしてオンラインのBLASTを実行するスクリプトを作成したので、備忘録を兼ねてまとめます。 公式のチュートリアルを参考に作りましたので詳しくはそちらをご覧ください。 コード 補足 その…

BiopythonでFASTA形式をPhylip形式に変換する

解析に使うプログラムの中には、FASTA形式の配列ファイルではなくPhylip形式のものを要求するものがあります。今回はそのような事情でFASTA形式のデータをPhylip形式に変換する、ちょっとしたスクリプトを書いたので備忘録を兼ねてまとめます。 Phylip形式に…

Biopythonで入力ファイルがFASTA形式か調べる

与えられた配列ファイルをプログラムで処理する際に、ファイルのフォーマットを調べておきたいという場合がたまにあります。拡張子で識別するのが簡単で手っ取り早いですが、FASTAファイルのようによく使われる拡張子が複数種類あるものだと、識別が若干面倒…

ETE Toolkitでノードに通し番号を付ける

他人に説明するときなどに、系統樹のノードに番号が付いていると便利な場合がたまにあります。AとBの共通祖先等の表現でも良いんですが長くなりやすいので。 今回はPythonとETE Toolkitを使って系統樹のノードに通し番号を付けたのでそのまとめです。使用し…

Biopythonとアクセッション番号を使ってNCBIからGenbankファイルをダウンロードする

プログラム中で、NCBIの管理するデータベースに登録された配列ファイルをダウンロードしたいことがたまにあります。手作業は何かと煩雑なので。 そこで、Biopythonを利用して指定したアクセッション番号の配列データを自動でダウンロードするプログラムを作…

FastTreeの使い方まとめ

FastTreeは近似最尤法による系統樹推定プログラムです。大規模データに対応しており、他のプログラムに比べ実行時間が非常にはやいです。公式の説明によれば、PhyMLやRAxMLの100から1000倍高速な場合もあるようです。 ざっと調べたところ日本語の情報が少な…

OrthoFinderでFastTreeを使おうとしたらエラーが出た

オーソログ推定プログラム「OrthoFinder」は、推定したオーソロググループ配列を使用してそのまま系統樹作成まで行うことができます。詳しくはGithubのページに詳しい説明がありますのでご覧ください。 試しにFastTreeを使って系統樹作成まで行おうとしたと…

IQ-Treeの使い方まとめ

IQ-Treeは最尤法による系統樹作成プログラムです。コマンドラインから簡単に実行することができ、計算時間もはやいため便利です。 また、配列をパーティションに区切った解析を行うことができる他、塩基・アミノ酸配列以外にも、幾つかの形式の配列データに…

BiopythonでFASTAファイルの重複をチェック

プログラムで自動で配列を集めてきたり、トリミングなどの処理を行ったりした場合に、予期せず全く同じ配列ファイルが違う名前で紛れてしまうことがあります。私のやり方がまずいのかもしれませんが。 系統樹作成などにそうしたファイルを使ってしまうと解析…

BiopythonでFASTAファイルの改行を削除する

FASTAファイルの配列が途中で改行され、複数行に渡っている場合があります。通常は問題ないのですがたまに不便なときがあるので、Biopythonを使って不要な改行を削除し配列行を一行にします。 完成形のコードは以下のとおりです。結果の出力先は標準出力です…

BiopythonでGenbankファイルからアミノ酸配列を抽出する

Genbankファイル中のCDS情報から遺伝子のアミノ酸配列を抽出し、遺伝子ごとのアミノ酸配列が記載されたFASTAファイルを作ったまとめです。 Genbankファイルの扱いはBiopythonを利用すると簡単です。公式のチュートリアルに詳しい説明がありますが、英語だっ…