Spaces:

Derify
/

chem-mrl-demo

Running

App Files Files Community

chem-mrl-demo / src /service.py

eacortes

push new db or demo version

2ca94d3 5 months ago

raw

history blame

8.95 kB

	import logging
	import os
	import time
	from typing import TypedDict

	import numpy as np
	import pandas as pd
	import redis
	import torch
	from chem_mrl.molecular_fingerprinter import MorganFingerprinter
	from dotenv import load_dotenv
	from rdkit import Chem, RDLogger
	from redis.commands.search.field import TextField, VectorField
	from redis.commands.search.indexDefinition import IndexDefinition, IndexType
	from redis.commands.search.query import Query
	from sentence_transformers import SentenceTransformer

	from constants import (
	EMBEDDING_DIMENSION,
	HNSW_K,
	HNSW_PARAMETERS,
	MODEL_NAME,
	SUPPORTED_EMBEDDING_DIMENSIONS,
	USE_HALF_PRECISION,
	)
	from data import ISOMER_DESIGN_DATASET


	def setup_logger(clear_handler=False):
	if clear_handler:
	for handler in logging.root.handlers[:]:
	logging.root.removeHandler(handler) # issue with sentence-transformer's logging handler
	RDLogger.DisableLog("rdApp.*") # type: ignore - DisableLog is an exported function
	logging.basicConfig(format="%(asctime)s - %(message)s", datefmt="%Y-%m-%d %H:%M:%S", level=logging.INFO)
	logger = logging.getLogger(__name__)
	return logger


	load_dotenv("../.env")
	logger = setup_logger(clear_handler=True)


	class SimilarMolecule(TypedDict):
	smiles: str
	name: str
	properties: str
	score: float


	class MolecularEmbeddingService:
	def __init__(self):
	self.model_name = MODEL_NAME
	self.index_name = "molecule_embeddings"
	self.model_embed_dim = EMBEDDING_DIMENSION

	self.model = self._initialize_model()
	self.redis_client = self._initialize_redis()
	self._initialize_datastore()

	def _initialize_model(self):
	"""Initialize the Hugging Face transformers model"""
	try:
	model = SentenceTransformer(
	self.model_name,
	model_kwargs={
	"torch_dtype": torch.float16 if USE_HALF_PRECISION else torch.float32,
	},
	)
	model.eval()
	return model
	except Exception as e:
	logger.error(f"Failed to load model: {e}")
	raise

	def _initialize_redis(self):
	"""Initialize Redis connection"""
	try:
	redis_host = os.getenv("REDIS_HOST", "localhost")
	redis_port = int(os.getenv("REDIS_PORT", 6379))
	redis_password = os.getenv("REDIS_PASSWORD", None)
	logger.info(
	f"Connecting to Redis at {redis_host}:{redis_port} with password: {'***' if redis_password else 'None'}"
	)
	redis_client = redis.Redis(
	host=redis_host,
	port=redis_port,
	password=redis_password,
	decode_responses=True,
	)
	except Exception as e:
	logger.error(f"Failed to connect to Redis: {e}")
	raise

	while True:
	try:
	redis_client.ping()
	break
	except redis.exceptions.BusyLoadingError:
	time_out = 5
	logger.warning(f"Redis is loading the dataset in memory. Retrying in {time_out} seconds...")
	time.sleep(time_out)

	return redis_client

	def _initialize_datastore(self):
	self.__create_hnsw_index()
	self.__populate_sample_data(ISOMER_DESIGN_DATASET)

	def __create_hnsw_index(self):
	"""Create HNSW index for molecular embeddings"""
	try:
	self.redis_client.ft(self.index_name).info()
	logger.info(f"Index {self.index_name} already exists")
	return
	except redis.exceptions.ResponseError:
	pass

	try:
	schema: list[TextField \| VectorField] = [
	VectorField(
	self.embedding_field_name(dim),
	"HNSW",
	{
	**HNSW_PARAMETERS,
	"DIM": dim,
	},
	)
	for dim in SUPPORTED_EMBEDDING_DIMENSIONS
	]
	schema.insert(0, TextField("smiles"))

	self.redis_client.ft(self.index_name).create_index(
	schema,
	definition=IndexDefinition(prefix=[self.molecule_index_prefix("")], index_type=IndexType.HASH),
	)

	logger.info(f"Created HNSW index: {self.index_name}")

	except Exception as e:
	logger.error(f"Failed to create HNSW index: {e}")
	raise

	def __populate_sample_data(self, df: pd.DataFrame):
	"""Populate Redis with sample molecular data"""
	logger.info("Populating Redis with sample molecular data...")
	for _, row in df.iterrows():
	try:
	key = self.molecule_index_prefix(row["smiles"])
	if self.redis_client.exists(key):
	continue

	embedding_cache: np.ndarray = self.get_molecular_embedding(row["smiles"], EMBEDDING_DIMENSION)

	mapping: dict[str, bytes \| str] = {
	self.embedding_field_name(embed_dim): self._truncate_and_normalize_embedding(
	embedding_cache.copy(), embed_dim
	).tobytes()
	for embed_dim in SUPPORTED_EMBEDDING_DIMENSIONS
	}
	mapping = {mapping, row.to_dict()}

	self.redis_client.hset(
	key,
	mapping=mapping, # type: ignore
	)

	except Exception as e:
	logger.error(f"Failed to process molecule {row}: {e}")
	continue

	logger.info(f"Populated {len(df)} sample molecules")

	def get_molecular_embedding(self, smiles: str, embed_dim: int) -> np.ndarray:
	"""Generate molecular embedding using ChemMRL"""
	try:
	if embed_dim <= 0:
	raise ValueError("embed_dim must be positive")

	# Preprocess smiles similarly as training data for optimal performance
	smiles = MorganFingerprinter.canonicalize_smiles(smiles) or smiles

	embedding: np.ndarray = self.model.encode(
	[smiles],
	show_progress_bar=False,
	convert_to_numpy=True,
	)[0]

	return self._truncate_and_normalize_embedding(embedding, embed_dim)

	except Exception as e:
	logger.error(f"Failed to generate embedding for {smiles}: {e}")
	raise

	def _truncate_and_normalize_embedding(self, embedding: np.ndarray, embed_dim: int) -> np.ndarray:
	"""Truncate and normalize embedding"""
	if embed_dim < len(embedding):
	embedding = embedding[:embed_dim]
	norms = np.linalg.norm(embedding, ord=2, keepdims=True)
	return embedding / np.where(norms == 0, 1, norms)

	def find_similar_molecules(
	self, query_embedding: np.ndarray, embed_dim: int, k: int = HNSW_K
	) -> list[SimilarMolecule]:
	"""Find k most similar molecules using HNSW"""
	try:
	query_vector = query_embedding.tobytes()
	query = (
	Query(f"*=>[KNN {k} @{self.embedding_field_name(embed_dim)} $vec AS score]")
	.sort_by("score")
	.return_fields("smiles", "name", "properties", "score")
	.dialect(2)
	)

	results = self.redis_client.ft(self.index_name).search(
	query,
	query_params={
	"vec": query_vector, # type: ignore
	},
	)

	neighbors: list[SimilarMolecule] = [
	{"smiles": doc.smiles, "name": doc.name, "properties": doc.properties, "score": float(doc.score)}
	for doc in results.docs
	]

	return neighbors

	except Exception as e:
	logger.error(f"Failed to find similar molecules: {e}")
	return []

	@staticmethod
	def get_canonical_smiles(smiles: str \| None) -> str:
	"""Convert SMILES to canonical SMILES representation"""
	if not smiles or smiles.strip() == "":
	return ""

	canonical = MorganFingerprinter.canonicalize_smiles(smiles.strip())
	if canonical is None:
	return smiles.strip()
	return canonical

	@staticmethod
	def get_smiles_from_mol_file(mol_file: str) -> str:
	"""Convert SMILES to canonical SMILES representation"""
	if not mol_file or mol_file.strip() == "":
	return ""

	mol = Chem.rdmolfiles.MolFromMolBlock(mol_file)
	if mol is None:
	return ""
	return Chem.MolToSmiles(mol, canonical=True)

	@staticmethod
	def embedding_field_name(dim: int) -> str:
	return f"embedding_{dim}"

	@staticmethod
	def molecule_index_prefix(smiles: str) -> str:
	return f"mol:{smiles}"