DeepSEQreen_NAR_fb

Sleeping

App Files Files Community

libokj commited on Mar 8, 2024

Commit

953417b

1 Parent(s): 9c47531

Upload 299 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

configs/data/dti_data.yaml +4 -4
configs/data/protein_featurizer/word2vec.yaml +1 -1
configs/model/decoder/concat_mlp.yaml +6 -0
configs/model/decoder/mlp_deepdta.yaml +6 -0
configs/model/decoder/mlp_lazy.yaml +5 -0
configs/model/drug_encoder/cnn.yaml +9 -0
configs/model/drug_encoder/cnn_deepdta.yaml +7 -0
configs/model/drug_encoder/gat.yaml +5 -0
configs/model/drug_encoder/gcn.yaml +5 -0
configs/model/drug_encoder/gin.yaml +5 -0
configs/model/drug_encoder/lstm.yaml +0 -0
configs/model/drug_encoder/transformer.yaml +11 -0
configs/model/dti_model.yaml +1 -1
configs/model/metrics/accuracy.yaml +1 -1
configs/model/metrics/auprc.yaml +1 -1
configs/model/metrics/auroc.yaml +1 -1
configs/model/metrics/bedroc.yaml +1 -1
configs/model/metrics/ci.yaml +2 -2
configs/model/metrics/concordance_index.yaml +2 -0
configs/model/metrics/dta_metrics.yaml +3 -1
configs/model/metrics/dti_case_study.yaml +18 -0
configs/model/metrics/dti_metrics.yaml +2 -1
configs/model/metrics/ef.yaml +21 -5
configs/model/metrics/f1_score.yaml +1 -1
configs/model/metrics/hit_rate.yaml +22 -1
configs/model/metrics/ir_hit_rate.yaml +3 -0
configs/model/metrics/mean_squared_error.yaml +2 -0
configs/model/metrics/mse.yaml +1 -1
configs/model/metrics/prc.yaml +1 -1
configs/model/metrics/precision.yaml +1 -1
configs/model/metrics/recall.yaml +1 -1
configs/model/metrics/roc.yaml +1 -1
configs/model/metrics/sensitivity.yaml +1 -1
configs/model/metrics/specificity.yaml +1 -1
configs/model/metrics/ww_dti_metrics.yaml +1 -1
configs/model/predictor/drug_vqa.yaml +2 -1
configs/model/protein_encoder/cnn.yaml +7 -0
configs/model/protein_encoder/cnn_deepdta.yaml +7 -0
configs/model/protein_encoder/lstm.yaml +0 -0
configs/model/protein_encoder/tape_bert.yaml +3 -0
configs/model/protein_encoder/transformer.yaml +12 -0
configs/preset/bacpi.yaml +37 -0
configs/preset/coa_dti_pro.yaml +28 -0
configs/preset/deep_dtaf.yaml +19 -0
configs/preset/drug_ban.yaml +1 -1
configs/preset/m_graph_dta.yaml +4 -1
configs/preset/mol_trans.yaml +1 -1
configs/preset/monn.yaml +17 -0
configs/preset/transformer_cpi.yaml +2 -1
configs/preset/transformer_cpi_2.yaml +4 -0

configs/data/dti_data.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 _target_: deepscreen.data.dti.DTIDataModule
 defaults:
-  - split: null
   - drug_featurizer: none  # ???
   - protein_featurizer: none  # ???
   - collator: default
@@ -13,8 +13,8 @@ data_dir: ${paths.data_dir}
 data_file: null
 train_val_test_split: null
-batch_size: ???
 num_workers: 0
 pin_memory: false
-#train: ${train}

 _target_: deepscreen.data.dti.DTIDataModule
 defaults:
+  - split: none
   - drug_featurizer: none  # ???
   - protein_featurizer: none  # ???
   - collator: default
 data_file: null
 train_val_test_split: null
+batch_size: 2
 num_workers: 0
 pin_memory: false
+query: X2
+#train: ${train}

configs/data/protein_featurizer/word2vec.yaml CHANGED Viewed

@@ -3,4 +3,4 @@ _partial_: true
 model:
   _target_: gensim.models.Word2Vec.load
-  fname: ${paths.resource_dir}/models/word2vec_30.model

 model:
   _target_: gensim.models.Word2Vec.load
+  fname: ${paths.resource_dir}/models/word2vec_30.model

configs/model/decoder/concat_mlp.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+_target_: deepscreen.models.components.mlp.ConcatMLP
+input_channels: ${eval:${model.drug_encoder.out_channels}+${model.protein_encoder.out_channels}}
+out_channels: 512
+hidden_channels: [1024,1024]
+dropout: 0.1

configs/model/decoder/mlp_deepdta.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+_target_: deepscreen.models.components.mlp.MLP2
+input_channels: ${eval:${model.drug_encoder.out_channels}+${model.protein_encoder.out_channels}}
+out_channels: 1
+hidden_channels: [1024,1024,512]
+dropout: 0.1

configs/model/decoder/mlp_lazy.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+_target_: deepscreen.models.components.mlp.LazyMLP
+out_channels: 1
+hidden_channels: [1024,1024,512]
+dropout: 0.1

configs/model/drug_encoder/cnn.yaml ADDED Viewed

	@@ -0,0 +1,9 @@

+_target_: deepscreen.models.components.cnn.CNN
+max_sequence_length: ${data.drug_featurizer.max_sequence_length}
+filters: [32, 64, 96]
+kernels: [4, 6, 8]
+in_channels: ${data.drug_featurizer.in_channels}
+out_channels: 256
+# TODO refactor the in_channels argument pipeline to be more reasonable

configs/model/drug_encoder/cnn_deepdta.yaml ADDED Viewed

	@@ -0,0 +1,7 @@

+_target_: deepscreen.models.components.cnn_deepdta.CNN_DeepDTA
+max_sequence_length: ${data.drug_featurizer.max_sequence_length}
+filters: [32, 64, 96]
+kernels: [4, 6, 8]
+in_channels: ${data.drug_featurizer.in_channels}
+out_channels: 128

configs/model/drug_encoder/gat.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+_target_: deepscreen.models.components.gat.GAT
+num_features: 78
+out_channels: 128
+dropout: 0.2

configs/model/drug_encoder/gcn.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+_target_: deepscreen.models.components.gcn.GCN
+num_features: 78
+out_channels: 128
+dropout: 0.2

configs/model/drug_encoder/gin.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+_target_: deepscreen.models.components.gin.GIN
+num_features: 78
+out_channels: 128
+dropout: 0.2

configs/model/drug_encoder/lstm.yaml ADDED Viewed

File without changes

configs/model/drug_encoder/transformer.yaml ADDED Viewed

	@@ -0,0 +1,11 @@

+_target_: deepscreen.models.components.transformer
+input_dim: 1024
+emb_size: 128
+max_position_size: 50
+dropout: 0.1
+n_layer: 8
+intermediate_size: 512
+num_attention_heads: 8
+attention_probs_dropout: 0.1
+hidden_dropout: 0.1

configs/model/dti_model.yaml CHANGED Viewed

@@ -5,7 +5,7 @@ defaults:
   - optimizer: adam
   - scheduler: default
   - predictor: none
-  - metrics: dti_metrics
 out: ${task.out}
 loss: ${task.loss}

   - optimizer: adam
   - scheduler: default
   - predictor: none
+  - metrics: null
 out: ${task.out}
 loss: ${task.loss}

configs/model/metrics/accuracy.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-accuracy:
   _target_: torchmetrics.Accuracy
   task: ${task.task}
   num_classes: ${task.num_classes}

+Accuracy:
   _target_: torchmetrics.Accuracy
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/auprc.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-auprc:
   _target_: torchmetrics.AveragePrecision
   task: ${task.task}
   num_classes: ${task.num_classes}

+AUPRC:
   _target_: torchmetrics.AveragePrecision
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/auroc.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-auroc:
   _target_: torchmetrics.AUROC
   task: ${task.task}
   num_classes: ${task.num_classes}

+AUROC:
   _target_: torchmetrics.AUROC
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/bedroc.yaml CHANGED Viewed

@@ -1,3 +1,3 @@
-bedroc:
   _target_: deepscreen.models.metrics.bedroc.BEDROC
   alpha: 80.5

+BEDROC:
   _target_: deepscreen.models.metrics.bedroc.BEDROC
   alpha: 80.5

configs/model/metrics/ci.yaml CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- ~~# FIXME~~: ~~implement concordance index~~
2	- _target_:


1	+ CI:
2	+ _target_: deepscreen.models.metrics.ci.ConcordanceIndex

configs/model/metrics/concordance_index.yaml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ # FIXME: implement concordance index
2	+ _target_:

configs/model/metrics/dta_metrics.yaml CHANGED Viewed

@@ -1,2 +1,4 @@
 defaults:
-  - mean_squared_error

 defaults:
+  - mse
+  - pearson
+  - ci

configs/model/metrics/dti_case_study.yaml ADDED Viewed

	@@ -0,0 +1,18 @@

+# train/test with many metrics at once
+defaults:
+  - auroc
+  - auprc
+  - specificity
+  - sensitivity
+  - precision
+  - recall
+  - f1_score
+  - ef
+  - bedroc
+  - hit_rate
+# Common virtual screening metrics:
+#  - ef
+#  - bedroc
+#  - hit_rate

configs/model/metrics/dti_metrics.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-# train with many loggers at once
 defaults:
   - auroc
@@ -8,6 +8,7 @@ defaults:
   - precision
   - recall
   - f1_score
 # Common virtual screening metrics:
 #  - ef
 #  - bedroc

+# train/test with many metrics at once
 defaults:
   - auroc
   - precision
   - recall
   - f1_score
 # Common virtual screening metrics:
 #  - ef
 #  - bedroc

configs/model/metrics/ef.yaml CHANGED Viewed

@@ -1,7 +1,23 @@
-ef1:
-  _target_: deepscreen.models.metrics.ef.EF
   alpha: 0.01
-ef5:
-  _target_: deepscreen.models.metrics.ef.EF
-  alpha: 0.05

+EF1:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
   alpha: 0.01
+EF2:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
+  alpha: 0.02
+EF5:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
+  alpha: 0.05
+EF10:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
+  alpha: 0.10
+EF15:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
+  alpha: 0.15
+EF20:
+  _target_: deepscreen.models.metrics.ef.EnrichmentFactor
+  alpha: 0.20

configs/model/metrics/f1_score.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-f1_score:
   _target_: torchmetrics.F1Score
   task: ${task.task}
   num_classes: ${task.num_classes}

+F1:
   _target_: torchmetrics.F1Score
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/hit_rate.yaml CHANGED Viewed

@@ -1,3 +1,24 @@
-hit_rate:
   _target_: deepscreen.models.metrics.hit_rate.HitRate
   alpha: 0.05

+HR0_01:
+  _target_: deepscreen.models.metrics.hit_rate.HitRate
+  alpha: 0.01
+HR0_02:
+  _target_: deepscreen.models.metrics.hit_rate.HitRate
+  alpha: 0.02
+HR0_05:
   _target_: deepscreen.models.metrics.hit_rate.HitRate
   alpha: 0.05
+HR0_10:
+  _target_: deepscreen.models.metrics.hit_rate.HitRate
+  alpha: 0.10
+HR0_15:
+  _target_: deepscreen.models.metrics.hit_rate.HitRate
+  alpha: 0.15
+HR0_20:
+  _target_: deepscreen.models.metrics.hit_rate.HitRate
+  alpha: 0.20

configs/model/metrics/ir_hit_rate.yaml ADDED Viewed

	@@ -0,0 +1,3 @@

+RetrievalHitRate:
+  _target_: torchmetrics.retrieval.RetrievalHitRate
+  top_k: 100

configs/model/metrics/mean_squared_error.yaml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ mean_squared_error:
2	+ _target_: torchmetrics.MeanSquaredError

configs/model/metrics/mse.yaml CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- ~~mean_squared_error~~:
2	_target_: torchmetrics.MeanSquaredError


1	+ Mean squared error:
2	_target_: torchmetrics.MeanSquaredError

configs/model/metrics/prc.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-prc:
   _target_: torchmetrics.PrecisionRecallCurve
   task: ${task.task}
   num_classes: ${task.num_classes}

+PR curve:
   _target_: torchmetrics.PrecisionRecallCurve
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/precision.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-precision:
   _target_: torchmetrics.Precision
   task: ${task.task}
   num_classes: ${task.num_classes}

+Precision:
   _target_: torchmetrics.Precision
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/recall.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-recall:
   _target_: torchmetrics.Recall
   task: ${task.task}
   num_classes: ${task.num_classes}

+Recall:
   _target_: torchmetrics.Recall
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/roc.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-roc:
   _target_: torchmetrics.ROC
   task: ${task.task}
   num_classes: ${task.num_classes}

+ROC curve:
   _target_: torchmetrics.ROC
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/sensitivity.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-sensitivity:
   _target_: deepscreen.models.metrics.sensitivity.Sensitivity
   task: ${task.task}
   num_classes: ${task.num_classes}

+Sensitivity:
   _target_: deepscreen.models.metrics.sensitivity.Sensitivity
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/specificity.yaml CHANGED Viewed

@@ -1,4 +1,4 @@
-specificity:
   _target_: torchmetrics.Specificity
   task: ${task.task}
   num_classes: ${task.num_classes}

+Specificity:
   _target_: torchmetrics.Specificity
   task: ${task.task}
   num_classes: ${task.num_classes}

configs/model/metrics/ww_dti_metrics.yaml CHANGED Viewed

@@ -190,4 +190,4 @@ F1Score0_95:
   _target_: torchmetrics.F1Score
   task: ${task.task}
   num_classes: ${task.num_classes}
-  threshold: 0.95

   _target_: torchmetrics.F1Score
   task: ${task.task}
   num_classes: ${task.num_classes}
+  threshold: 0.95

configs/model/predictor/drug_vqa.yaml CHANGED Viewed

@@ -5,7 +5,7 @@ lstm_hid_dim: 64
 d_a: 32
 r: 10
 n_chars_smi: 577
-n_chars_seq: 21
 dropout: 0.2
 in_channels: 8
 cnn_channels: 32
@@ -13,3 +13,4 @@ cnn_layers: 4
 emb_dim: 30
 dense_hid: 64

 d_a: 32
 r: 10
 n_chars_smi: 577
+n_chars_seq: 26
 dropout: 0.2
 in_channels: 8
 cnn_channels: 32
 emb_dim: 30
 dense_hid: 64

configs/model/protein_encoder/cnn.yaml ADDED Viewed

	@@ -0,0 +1,7 @@

+_target_: deepscreen.models.components.cnn.CNN
+max_sequence_length: ${data.protein_featurizer.max_sequence_length}
+filters: [32, 64, 96]
+kernels: [4, 8, 12]
+in_channels: ${data.protein_featurizer.in_channels}
+out_channels: 256

configs/model/protein_encoder/cnn_deepdta.yaml ADDED Viewed

	@@ -0,0 +1,7 @@

+_target_: deepscreen.models.components.cnn_deepdta.CNN_DeepDTA
+max_sequence_length: ${data.protein_featurizer.max_sequence_length}
+filters: [32, 64, 96]
+kernels: [4, 8, 12]
+in_channels: ${data.protein_featurizer.in_channels}
+out_channels: 128

configs/model/protein_encoder/lstm.yaml ADDED Viewed

File without changes

configs/model/protein_encoder/tape_bert.yaml ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ _target_: tape.ProteinBertModel.from_pretrained
2	+
3	+ pretrained_model_name_or_path: bert-base

configs/model/protein_encoder/transformer.yaml ADDED Viewed

	@@ -0,0 +1,12 @@

+_target_: deepscreen.models.components.transformer
+input_dim: 8420
+emb_size: 64
+max_position_size: 545 50
+dropout: 0.1
+n_layer: 2
+intermediate_size: 256
+num_attention_heads: 4
+attention_probs_dropout: 0.1
+hidden_dropout: 0.1

configs/preset/bacpi.yaml ADDED Viewed

	@@ -0,0 +1,37 @@

+# @package _global_
+model:
+  predictor:
+    _target_: deepscreen.models.predictors.bacpi.BACPI
+    n_atom: 20480
+    n_amino: 8448
+    comp_dim: 80
+    prot_dim: 80
+    latent_dim: 80
+    gat_dim: 50
+    num_head: 3
+    dropout: 0.1
+    alpha: 0.1
+    window: 5
+    layer_cnn: 3
+  optimizer:
+    lr: 5e-4
+data:
+  batch_size: 16
+  collator:
+    automatic_padding: True
+  drug_featurizer:
+    _target_: deepscreen.models.predictors.bacpi.drug_featurizer
+    _partial_: true
+    radius: 2
+  protein_featurizer:
+    _target_: deepscreen.models.predictors.bacpi.split_sequence
+    _partial_: true
+    ngram: 3
+#  collator:
+#    _target_: deepscreen.models.predictors.transformer_cpi_2.pack
+#    _partial_: true

configs/preset/coa_dti_pro.yaml ADDED Viewed

	@@ -0,0 +1,28 @@

+# @package _global_
+defaults:
+  - override /data/protein_featurizer: none
+model:
+  predictor:
+    _target_: deepscreen.models.predictors.coa_dti_pro.CoaDTIPro
+    n_fingerprint: 20480
+    n_word: 26
+    dim: 512
+    layer_output: 3
+    layer_coa: 1
+    nhead: 8
+    dropout: 0.1
+    co_attention: 'inter'
+    gcn_pooling: False
+    esm_model_and_alphabet:
+      _target_: esm.pretrained.load_model_and_alphabet
+      model_name: resources/models/esm/esm1_t6_43M_UR50S.pt
+data:
+  drug_featurizer:
+    _target_: deepscreen.models.predictors.coa_dti_pro.drug_featurizer
+    _partial_: true
+    radius: 2
+  batch_size: 1

configs/preset/deep_dtaf.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+# @package _global_
+defaults:
+  - override /data/drug_featurizer: label
+  - override /data/protein_featurizer: label
+  - override /model/predictor: deep_dta
+data:
+  drug_featurizer:
+    charset: {'Z', 'Y', 'H', '[', 'O', ']', '5', 'M', 'K', '.', '9', 'e',
+               '(', 'l', 'U', 'V', 'L', 'B', 'y', 'm', 'd', 'h', 'T', 'A',
+               'W', 'b', 'i', 'D', 'R', '8', '/', 's', '#', 'u', '+', '@',
+               'n', '%', 'F', 'r', 't', 'I', 'S', '6', 'P', 'G', 'f', ')',
+               '-', '\\', 'C', 'E', 'o', '3', '2', '1', '=', 'g', 'c', 'N',
+               '7', '4', 'a', '0']
+  batch_size: 512
+model:
+  predictor:
+    smi_charset_len: ${eval:'len(${data.protein_featurizer.charset})+1'}

configs/preset/drug_ban.yaml CHANGED Viewed

@@ -25,4 +25,4 @@ data:
     _partial_: true
     max_drug_nodes: 330
-  batch_size: 512

     _partial_: true
     max_drug_nodes: 330
+  batch_size: 256

configs/preset/m_graph_dta.yaml CHANGED Viewed

@@ -16,4 +16,7 @@ data:
     atom_features:
       _target_: deepscreen.models.predictors.m_graph_dta.atom_features
       _partial_: true
-  batch_size: 512

     atom_features:
       _target_: deepscreen.models.predictors.m_graph_dta.atom_features
       _partial_: true
+  batch_size: 512
+trainer:
+  precision: 'bf16'

configs/preset/mol_trans.yaml CHANGED Viewed

@@ -36,4 +36,4 @@ model:
     #flatten_dim: 293412
   optimizer:
-    lr: 1e-6

     #flatten_dim: 293412
   optimizer:
+    lr: 1e-6

configs/preset/monn.yaml ADDED Viewed

	@@ -0,0 +1,17 @@

+# @package _global_
+defaults:
+  - dti_experiment
+  # TODO MONN featurizers not fully implemented yet
+  - override /data/drug_featurizer: label
+  - override /data/protein_featurizer: label
+  - override /model/predictor: monn
+  - override /task: binary
+  - _self_
+model:
+  loss:
+    _target_: deepscreen.models.loss.multitask_loss.MultitaskWeightedLoss
+    loss_fns:
+      - _target_: ${model.loss}
+      - _target_: deepscreen.models.predictors.monn.MaskedBCELoss
+    weights: [1, 0.1]

configs/preset/transformer_cpi.yaml CHANGED Viewed

@@ -16,6 +16,7 @@ model:
     atom_dim: 34
 data:
-  batch_size: 16
   collator:
     automatic_padding: True

     atom_dim: 34
 data:
+  batch_size: 128
   collator:
     automatic_padding: True

configs/preset/transformer_cpi_2.yaml CHANGED Viewed

@@ -4,7 +4,11 @@ defaults:
   - override /data/protein_featurizer: tokenizer
 model:
   predictor:
     _target_: deepscreen.models.predictors.transformer_cpi_2.TransformerCPI2
     encoder:

   - override /data/protein_featurizer: tokenizer
 model:
+  optimizer:
+    lr: 0.00001
   predictor:
     _target_: deepscreen.models.predictors.transformer_cpi_2.TransformerCPI2
     encoder: