Spaces:

spacesedan
/

summarizer

Running

App Files Files Community

summarizer / app.py

spacesedan

more updates

750c1cd 5 months ago

raw

history blame

2.04 kB

	from fastapi import FastAPI
	from pydantic import BaseModel
	from transformers import pipeline, AutoTokenizer
	from typing import List

	app = FastAPI()

	# Faster and lighter summarization model
	model_name = "sshleifer/distilbart-cnn-12-6"
	summarizer = pipeline("summarization", model=model_name)
	tokenizer = AutoTokenizer.from_pretrained(model_name)

	class SummarizationItem(BaseModel):
	content_id: str
	text: str

	class BatchSummarizationRequest(BaseModel):
	inputs: List[SummarizationItem]

	class SummarizationResponseItem(BaseModel):
	content_id: str
	summary: str

	class BatchSummarizationResponse(BaseModel):
	summaries: List[SummarizationResponseItem]

	def chunk_text(text, max_tokens=700):
	tokens = tokenizer.encode(text, truncation=False)
	chunks = []

	for i in range(0, len(tokens), max_tokens):
	chunk = tokens[i:i + max_tokens]
	chunks.append(tokenizer.decode(chunk, skip_special_tokens=True))

	return chunks

	@app.post("/summarize", response_model=BatchSummarizationResponse)
	async def summarize_batch(request: BatchSummarizationRequest):
	all_chunks = []
	chunk_map = [] # maps index of chunk to content_id

	for item in request.inputs:
	chunks = chunk_text(item.text)
	all_chunks.extend(chunks)
	chunk_map.extend([item.content_id] * len(chunks))

	summaries = summarizer(
	all_chunks,
	max_length=150,
	min_length=30,
	truncation=True,
	do_sample=False,
	batch_size=4
	)

	# Aggregate summaries back per content_id
	summary_map = {}
	for content_id, result in zip(chunk_map, summaries):
	summary_map.setdefault(content_id, []).append(result["summary_text"])

	response_items = [
	SummarizationResponseItem(
	content_id=cid,
	summary=" ".join(parts)
	)
	for cid, parts in summary_map.items()
	]

	return {"summaries": response_items}

	@app.get("/")
	def greet_json():
	return {"message": "DistilBART Batch Summarizer API is running"}