Spaces:

Adignite
/

OCR

Sleeping

App Files Files Community

OCR / app.py

Adignite

Create app.py

5eab8c7 verified 12 months ago

raw

history blame

3.84 kB

	import streamlit as st
	import cv2
	import numpy as np
	import easyocr
	import re
	from langdetect import detect_langs
	from PIL import Image
	import io

	def load_easyocr_reader():
	return easyocr.Reader(['hi', 'en'], gpu=False)

	def preprocess_image(image):
	img_array = np.array(image.convert('RGB'))
	gray = cv2.cvtColor(img_array, cv2.COLOR_RGB2GRAY)
	denoised = cv2.fastNlMeansDenoising(gray, None, 10, 7, 21)
	thresh = cv2.adaptiveThreshold(denoised, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
	kernel = np.ones((1, 1), np.uint8)
	dilated = cv2.dilate(thresh, kernel, iterations=1)
	return dilated

	def perform_easyocr(image, reader):
	preprocessed_image = preprocess_image(image)
	results = reader.readtext(preprocessed_image, paragraph=True, detail=0,
	contrast_ths=0.2, adjust_contrast=0.5,
	add_margin=0.1, width_ths=0.7, height_ths=0.7)
	extracted_text = ' '.join(results)
	return extracted_text

	def detect_languages(text):
	cleaned_text = re.sub(r'[^a-zA-Z\u0900-\u097F\s]', '', text)
	cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()

	if not cleaned_text:
	return []
	try:
	langs = detect_langs(cleaned_text)
	detected = []
	for lang in langs:
	if lang.lang == 'hi' and lang.prob > 0.1:
	detected.append('Hindi')
	elif lang.lang == 'en' and lang.prob > 0.1:
	detected.append('English')
	return detected
	except:
	return fallback_language_check(cleaned_text)

	def fallback_language_check(text):
	hindi_range = range(0x0900, 0x097F)
	english_range = range(0x0041, 0x007A)

	has_hindi = any(ord(char) in hindi_range for char in text)
	has_english = any(ord(char) in english_range for char in text)

	detected = []
	if has_hindi:
	detected.append('Hindi')
	if has_english:
	detected.append('English')

	return detected

	def highlight_text(text, keywords):
	for keyword in keywords:
	# Highlight the keyword by wrapping it with a span tag
	text = re.sub(f'({re.escape(keyword)})', r'<span style="background-color: yellow;">\1</span>', text, flags=re.IGNORECASE)
	return text

	def main():
	st.title("OCR for Hindi and English")

	easyocr_reader = load_easyocr_reader()

	# Initialize session state variables
	if 'extracted_text' not in st.session_state:
	st.session_state.extracted_text = ""

	uploaded_file = st.file_uploader("Choose an image...", type=["jpg", "jpeg", "png"])
	if uploaded_file is not None:
	image = Image.open(uploaded_file)
	st.image(image, caption='Uploaded Image', use_column_width=True)

	if st.button('Perform OCR'):
	with st.spinner('Processing...'):
	st.session_state.extracted_text = perform_easyocr(image, easyocr_reader)

	st.subheader("Extracted Text:")
	st.write(st.session_state.extracted_text)

	languages_detected = detect_languages(st.session_state.extracted_text)
	if languages_detected:
	st.write("Detected languages:", ', '.join(languages_detected))
	else:
	st.write("No languages detected.")

	if st.session_state.extracted_text: # Check if OCR has been performed
	st.subheader("Search in Extracted Text")
	search_query = st.text_input("Enter keywords to search:", "")
	if search_query:
	keywords = search_query.split()
	highlighted_text = highlight_text(st.session_state.extracted_text, keywords)
	st.markdown(highlighted_text, unsafe_allow_html=True)

	if __name__ == "__main__":
	main()