Spaces:

rmayormartins
/

inclusion-visually-impaired-image2speech

Runtime error

App Files Files Community

inclusion-visually-impaired-image2speech / README.md

rmayormartins

Subindo arquivos

03a7dca over 1 year ago

preview code

raw

history blame contribute delete

2.8 kB

	---
	title: Inclusion Visually Impaired - Image2Speech
	emoji: 👨🏻‍🦯🦮🤖🔊
	colorFrom: purple
	colorTo: pink
	sdk: gradio
	sdk_version: 4.12.0
	app_file: app.py
	pinned: false
	license: ecl-2.0
	---

	# Inclusão para Deficientes Visuais

	Este projeto utiliza um modelo YOLOv5 para detectar objetos em imagens e descrevê-los em português para pessoas com deficiência visual. A descrição é convertida em áudio, proporcionando uma experiência e interação com a imagem.

	## Desenvolvedor

	Desenvolvido por Ramon Mayor Martins (2024)

	- Email: [[email protected]](mailto:[email protected])
	- Homepage: [https://rmayormartins.github.io/](https://rmayormartins.github.io/)
	- Twitter: [@rmayormartins](https://twitter.com/rmayormartins)
	- GitHub: [https://github.com/rmayormartins](https://github.com/rmayormartins)
	- my Radio Callsign (PU4MAY) Brazil

	## Tecnologias Utilizadas

	- YOLOv5: Modelo de detecção de objetos treinado para identificar 80 classes de objetos comuns em tempo real.
	- OpenCV: Biblioteca de processamento de imagens que auxilia na manipulação e análise de imagens.
	- NumPy: Biblioteca fundamental para computação científica em Python.
	- Pillow (PIL): Biblioteca de processamento de imagens que permite abrir, manipular e salvar arquivos de imagem em muitos formatos diferentes.
	- Scikit-Image: Biblioteca para processamento avançado de imagens, utilizada aqui para calcular a GLCM.
	- Transformers (Hugging Face): Biblioteca que fornece modelos de linguagem e visão, incluindo o BLIP para descrição de imagens e o MarianMT para tradução automática.
	- gTTS (Google Text-to-Speech): Biblioteca para conversão de texto para voz, utilizada para gerar arquivos de áudio em português.
	- Gradio: Biblioteca que facilita a criação de interfaces web interativas para modelos de aprendizado de máquina.

	## Fluxo de Trabalho

	1. Carregamento da Imagem: O usuário carrega uma imagem na interface web.
	2. Detecção de Objetos: A imagem é processada pelo YOLOv5 para identificar e descrever objetos presentes.
	3. Análise de Cor e Textura: A temperatura de cor e a textura da imagem são analisadas usando técnicas de média RGB e GLCM, respectivamente.
	4. Descrição Semântica: O modelo BLIP gera uma descrição textual da imagem, que é então traduzida para o português usando MarianMT.
	5. Conversão para Voz: A descrição completa é convertida em áudio usando gTTS.
	6. Feedback ao Usuário: A interface Gradio exibe a descrição textual e fornece o áudio para o usuário.

	## Como Utilizar
	1. Faça upload de uma imagem.
	2. O modelo detectará e descreverá os objetos presentes na imagem.
	3. A saída a descrição textual traduzida e um arquivo de áudio com a descrição.