機械学習を用いたタンパク質化合物結合予測

scikit-learnによる機械学習プログラミング入門

タンパク質・化合物結合予測プログラムの実装

ドッキング解析

プログラムについて

本課題、発展課題共にgoogle colabを用いて同一ファイル内に作成する。その際、発展課題の位置はテキストセルを用いてわかりやすく示す。

ファイル名は学籍番号.ipynbとし、提出は右上の共有からmanato438@keio.jp宛に行う事。提出後も期限内であれば変更可能である。

プログラムはスライドのものを写すだけでなく各行がどの様な役割・意味を持って実行されているのかということをコメントアウトなどを用いて記述すること(すべての行について行う必要はありません。)。

発展課題

  • 示した方法よりも予測精度を向上させる。
    • 学習アルゴリズムを変更する。
      • scikit-learn以外を使っても良い。
    • 他の特徴抽出法を試みる。
      • RDkitでは、他のフィンガープリント法や属性値を計算する手法がある。
    • 学習データの使い方を工夫する。
      • 精度が良くない理由の一つは、正例と負例の個数が不均衡なことである。
  • 学習結果を分析・解釈する。
    • 線形モデルでは、特徴量に対応するパラメータ値がその特徴量の重要度を表している。
  • PubChemなどから他の化合物のSDFをダウンロードし、ARと結合する可能性がある新規化合物を探索する。
  • AR以外のタンパク質のアッセイデータで学習し、そのタンパク質と結合する候補化合物を探索する。
  • その他、各自のアイディアを試みてよい。

レポートの書き方

「3. 機械学習を用いたタンパク質化合物結合予測」については、以下の項目についてレポートをまとめてください。

  1. 目的
    本実験の目的を簡潔に書く。

  2. 手法
    • 機械学習に用いた手法や用いたツールについて簡潔にまとめる。
    • 作成したプログラムについてどのようなアルゴリズムを用いたかを簡潔に説明する。
  3. 結果
    以下の結果を示す。
    • 実装した機械学習による候補化合物の結合予測結果
    • AutoDockのドッキング結果 (affinity値、結合位置)
      • アンドロゲン受容体と化合物の画像を載せる場合、どのモデルがどこにあるのかを判別することができるように示す。ひとつの化合物につき一枚ずつ画像を載せてください。
  4. 考察
    各自、考察を行う。以下は考察の例である。
    • affinity値がどのような物理学的特性を示しているかについて、考察する。
    • 各化合物について構造情報や機能などを調べ、affinity値、結合位置、結合する理由などを考察する。
    • 前立腺がんはDHT(compound_10635)がアンドロゲンレセプターに結合することで引き起こされると考えられているが、DHTと他の化合物の結合部位、affinity値、構造などを比較して、どのような化合物が前立線がんの治療薬の候補となりえるか、考察する。
    • アンドロゲンレセプター、前立線がん、その治療法であるホルモン治療について調べる。
    • その他オリジナルの考察、発展課題(加点事項)
  5. 結論
    本課題の結論を簡潔に書く。

  6. 参考資料
    引用・利用したものがあればここに記載する。

参考文献