Spaces:

j-r-b
/

ResumeVideo

Sleeping

App Files Files Community

j-r-b commited on May 30

Commit

7c2ea61

verified ·

1 Parent(s): 162f606

Upload 7 files

Browse files

Files changed (7) hide show

Dockerfile +19 -0
README.md +49 -12
package.json +19 -0
public/index.html +48 -0
public/script.js +234 -0
public/style.css +94 -0
server.js +75 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,19 @@

+FROM node:18-slim
+WORKDIR /app
+# Copy package files
+COPY package.json ./
+# Install dependencies
+RUN npm install
+# Copy application files
+COPY server.js ./
+COPY public ./public
+# Expose the port
+EXPOSE 7860
+# Start the server
+CMD ["node", "server.js"]

README.md CHANGED Viewed

@@ -1,12 +1,49 @@
----
-title: ResumeVideo
-emoji: 🏆
-colorFrom: pink
-colorTo: indigo
-sdk: docker
-pinned: false
-license: apache-2.0
-short_description: Résume des vidéos
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# Résumé Vidéo YouTube
+Cette application web permet de résumer automatiquement le contenu d'une vidéo YouTube à partir de sa transcription.
+## Fonctionnalités
+- Extraction de la transcription de vidéos YouTube
+- Résumé automatique par analyse statistique du texte
+- Interface simple et réactive
+## Comment utiliser
+1. Entrez l'URL d'une vidéo YouTube dans le champ prévu
+2. Sélectionnez le nombre de phrases souhaitées pour le résumé
+3. Cliquez sur "Résumer la Vidéo"
+4. Consultez la transcription complète et le résumé généré
+## Limitations
+- Fonctionne uniquement avec les vidéos YouTube disposant d'une transcription (activée par le créateur ou générée automatiquement par YouTube)
+- L'algorithme de résumé est basique (sélection statistique des phrases importantes)
+- Supporte principalement les textes en français
+## Technique
+- Frontend: HTML, CSS, JavaScript vanilla
+- Backend: Node.js avec Express
+- Conteneurisation: Docker
+- Déployé sur Hugging Face Spaces
+## Local Development
+Pour exécuter l'application localement:
+```bash
+# Cloner le dépôt
+git clone [URL_DU_REPO]
+# Aller dans le répertoire
+cd huggingface
+# Installer les dépendances
+npm install
+# Démarrer le serveur
+npm start
+```
+L'application sera disponible sur http://localhost:7860

package.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "name": "resume-video-youtube",
+  "version": "1.0.0",
+  "description": "Application pour résumer des vidéos YouTube à partir de leur transcription",
+  "main": "server.js",
+  "type": "module",
+  "scripts": {
+    "start": "node server.js"
+  },
+  "dependencies": {
+    "express": "^4.18.2",
+    "youtube-transcript": "^1.0.6"
+  },
+  "engines": {
+    "node": ">=18.0.0"
+  },
+  "author": "",
+  "license": "MIT"
+}

public/index.html ADDED Viewed

	@@ -0,0 +1,48 @@

+<!DOCTYPE html>
+<html lang="fr">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Résumé Vidéo YouTube</title>
+    <link rel="stylesheet" href="style.css">
+</head>
+<body>
+    <div class="container">
+        <h1>Résumé de Vidéo YouTube</h1>
+        <p>
+            Cette application utilise un algorithme JavaScript exécuté dans votre navigateur
+            pour résumer le contenu textuel (transcription) d'une vidéo YouTube.
+        </p>
+        <label for="youtube-url">URL de la vidéo YouTube :</label>
+        <input type="text" id="youtube-url" placeholder="Ex: https://www.youtube.com/watch?v=dQw4w9WgXcQ">
+        <label for="summary-length">Nombre de phrases pour le résumé :</label>
+        <input type="number" id="summary-length" value="5" min="1" max="20">
+        <button id="summarize-btn">Résumer la Vidéo</button>
+        <div id="loading" style="display:none;">Chargement de la transcription et résumé en cours...</div>
+        <div id="error-message" class="error" style="display:none;"></div>
+        <h2>Transcription Complète :</h2>
+        <div id="transcript-output" class="output-box">
+            <p>La transcription apparaîtra ici...</p>
+        </div>
+        <h2>Résumé :</h2>
+        <div id="summary-output" class="output-box">
+            <p>Le résumé apparaîtra ici...</p>
+        </div>
+        <footer>
+            <p>Déployé sur <a href="https://huggingface.co/spaces" target="_blank">Hugging Face Spaces</a></p>
+        </footer>
+    </div>
+    <script src="script.js"></script>
+</body>
+</html>

public/script.js ADDED Viewed

	@@ -0,0 +1,234 @@

+document.addEventListener('DOMContentLoaded', () => {
+	const urlInput = document.getElementById('youtube-url');
+	const summaryLengthInput = document.getElementById('summary-length');
+	const summarizeBtn = document.getElementById('summarize-btn');
+	const transcriptOutput = document.getElementById('transcript-output');
+	const summaryOutput = document.getElementById('summary-output');
+	const loadingDiv = document.getElementById('loading');
+	const errorDiv = document.getElementById('error-message');
+	// Liste de mots vides (français, à étendre)
+	// Source simple, pour une meilleure qualité, utiliser une liste plus complète
+	const STOP_WORDS_FR = new Set([
+		"a", "afin", "ah", "ai", "aie", "aient", "aies", "ailleurs", "ainsi", "ait",
+		"alors", "au", "aucun", "aucune", "aujourd", "aujourd'hui", "auquel", "aura",
+		"aurai", "auraient", "aurais", "aurait", "auras", "aurez", "auriez", "aurions",
+		"aurons", "auront", "aussi", "autre", "autres", "autrui", "aux", "auxquelles",
+		"auxquels", "avaient", "avais", "avait", "avant", "avec", "avez", "aviez",
+		"avions", "avoir", "avons", "ayant", "ayez", "ayons", "b", "bah", "beaucoup",
+		"bien", "bon", "c", "ça", "car", "ce", "ceci", "cela", "celle", "celle-ci",
+		"celle-là", "celles", "celles-ci", "celles-là", "celui", "celui-ci", "celui-là",
+		"cent", "cents", "cependant", "certain", "certaine", "certaines", "certains",
+		"ces", "cet", "cette", "ceux", "ceux-ci", "ceux-là", "chacun", "chacune",
+		"chaque", "cher", "chère", "chères", "chers", "chez", "ci", "cinq", "cinquante",
+		"cinquième", "comme", "comment", "d", "dans", "de", "debout", "dedans", "dehors",
+		"delà", "depuis", "dernier", "dernière", "dernières", "derniers", "des", "dès",
+		"deux", "deuxième", "devant", "devers", "devra", "devrai", "devraient", "devrais",
+		"devrait", "devras", "devrez", "devriez", "devrions", "devrons", "devront", " διαφορετικα ",
+		"dix", "dix-huit", "dix-neuf", "dix-sept", "dixième", "donc", "dont", "douze",
+		"douzième", "du", "dû", "duquel", "durant", "e", "eh", "elle", "elle-même",
+		"elles", "elles-mêmes", "en", "encore", "enfin", "entre", "envers", "environ",
+		"es", "ès", "est", "et", "etant", "étaient", "étais", "était", "étant", "etc",
+		"été", "êtes", "être", "eu", "eue", "eues", "eurent", "eus", "eusse", "eussent",
+		"eusses", "eussiez", "eussions", "eut", "eût", "eûmes", "eûtes", "eux", "eux-mêmes",
+		"f", "faire", "fais", "faisaient", "faisais", "faisait", "faisant", "faisons",
+		"fait", "faites", "faudra", "faudrait", "faut", "fi", "flac", "floc", "fois",
+		"font", "force", "fors", "g", "gens", "h", "ha", "hé", "hein", "hélas", "hem",
+		"hep", "hi", "ho", "holà", "hop", "hormis", "hors", "hou", "houp", "hue", "hui",
+		"huit", "huitième", "hum", "hurrah", "i", "ici", "il", "ils", "j", "j'", "je",
+		"jusqu'", "jusqu'au", "jusqu'aux", "jusqu'à", "jusque", "k", "l", "la", "là",
+		"laquelle", "le", "lequel", "les", "lès", "lesquelles", "lesquels", "leur",
+		"leurs", "lez", "loin", "longtemps", "lors", "lorsque", "lui", "lui-même", "m",
+		"ma", "maint", "maintenant", "mais", "malgré", "me", "même", "mêmes", "merci",
+		"mes", "mien", "mienne", "miennes", "miens", "mille", "mince", "mine", "moi",
+		"moi-même", "moins", "mon", "mot", "moyennant", "n", "na", "ne", "néanmoins",
+		"neuf", "neuvième", "ni", "nombreuses", "nombreux", "non", "nos", "notre",
+		"nôtre", "nôtres", "nous", "nous-mêmes", "nul", "o", "ô", "où", "oui", "on",
+		"ont", "onze", "onzième", "or", "ou", "où", "outre", "p", "par", "parce", "parmi",
+		"partant", "particulièrement", "pas", "passé", "pendant", "personne", "peu",
+		"peut", "peuvent", "peux", "pf", "pff", "pfi", "pfu", "pif", "plein", "plus",
+		"plusieurs", "plutôt", "pour", "pourquoi", "pourra", "pourrai", "pourraient",
+		"pourrais", "pourrait", "pourras", "pourrez", "pourriez", "pourrions", "pourrons",
+		"pourront", "pouvait", "pouvez", " pouvions ", "pouvons", "premier", "première",
+		"premièrement", "près", "presque", "prouf", "psitt", "pu", "puis", "puisque",
+		"q", "qu'", "quand", "quant", "quanta", "quant-à-soi", "quarante", "quatorze",
+		"quatre", "quatre-vingt", "quatre-vingt-dix", "quatre-vingt-onze", "quatre-vingt-un",
+		"quatrième", "quatrièmement", "que", "quel", "quelconque", "quelle", "quelles",
+		"quelqu'un", "quelque", "quelques", "quels", "qui", "quiconque", "quinze",
+		"quoi", "quoique", "r", "revoici", "revoilà", "rien", "s", "sa", "sacrebleu",
+		"sans", "sapristi", "sauf", "se", "seize", "selon", "sept", "septième", "sera",
+		"serai", "seraient", "serais", "serait", "seras", "serez", "seriez", "serions",
+		"serons", "seront", "ses", "seulement", "si", "sien", "sienne", "siennes",
+		"siens", "sinon", "six", "sixième", "soi", "soi-même", "soient", "sois", "soit",
+		"soixante", "sommes", "son", "sont", "sous", "stop", "suis", "suite", "sur",
+		"surtout", "t", "ta", "tac", "tandis", "tant", "tardivement", "te", "tel",
+		"telle", "telles", "tels", "tenant", "tes", "tic", "tien", "tienne", "tiennes",
+		"tiens", "toc", "toi", "toi-même", "ton", "tos", "tôt", "toute", "toutefois",
+		"toutes", "tous", "tout", "treize", "trente", "très", "trois", "troisième",
+		"troisièmement", "trop", "tu", "u", "un", "une", "unes", "uns", "v", "va", "vais",
+		"valeur", "vas", "vé", "vers", "via", "vif", "vifs", "vingt", "vivat", "vive",
+		"vives", "voici", "voilà", "vont", "vos", "votre", "vôtre", "vôtres", "vous",
+		"vous-mêmes", "vs", "vu", "w", "x", "y", "z", "zut", "alors", "au", "aucuns", "aussi",
+		"autre", "avant", "avec", "avoir", "bon", "car", "ce", "cela", "ces", "ceux",
+		"chaque", "ci", "comme", "comment", "dans", "des", "du", "dedans", "dehors",
+		"depuis", "deux", "devrait", "doit", "donc", "dos", "droite", "début", "elle",
+		"elles", "en", "encore", "essai", "est", "et", "eu", "fait", "faites", "fois",
+		"font", "force", "haut", "hors", "ici", "il", "ils", "je", "juste", "la", "le",
+		"les", "leur", "là", "ma", "maintenant", "mais", "mes", "mine", "moins", "mon",
+		"mot", "même", "ni", "nommés", "notre", "nous", "nouveaux", "ou", "où", "par",
+		"parce", "parole", "pas", "personnes", "peut", "peu", "pièce", "plupart", "pour",
+		"pourquoi", "quand", "que", "quel", "quelle", "quelles", "quels", "qui", "sa",
+		"sans", "ses", "seulement", "si", "sien", "son", "sont", "sous", "soyez", "sujet",
+		"sur", "ta", "tandis", "tellement", "tels", "tes", "ton", "tous", "tout", "trop",
+		"très", "tu", "valeur", "voie", "voient", "vont", "vos", "votre", "vous", "vu",
+		"ça", "étaient", "état", "étions", "été", "être", "pour", "que", "qui", "il", "elle", "on", "y"
+	]);
+	summarizeBtn.addEventListener('click', async () => {
+		const url = urlInput.value.trim();
+		const numSentences = parseInt(summaryLengthInput.value, 10);
+		if (!url) {
+			showError("Veuillez entrer une URL YouTube.");
+			return;
+		}
+		if (isNaN(numSentences) || numSentences < 1) {
+			showError("Veuillez entrer un nombre de phrases valide pour le résumé.");
+			return;
+		}
+		showLoading(true);
+		hideError();
+		transcriptOutput.innerHTML = "<p>Récupération de la transcription...</p>";
+		summaryOutput.innerHTML = "<p>En attente de la transcription...</p>";
+		try {
+			const response = await fetch(`/get-transcript?url=${encodeURIComponent(url)}`);
+			const data = await response.json();
+			if (!response.ok) {
+				throw new Error(data.error || `Erreur HTTP: ${response.status}`);
+			}
+			const fullTranscript = data.transcript;
+			if (!fullTranscript || fullTranscript.trim() === "") {
+				showError("La transcription est vide ou n'a pas pu être récupérée.");
+				transcriptOutput.innerHTML = "<p>Aucune transcription reçue.</p>";
+				summaryOutput.innerHTML = "<p>Impossible de résumer sans transcription.</p>";
+				showLoading(false);
+				return;
+			}
+			transcriptOutput.textContent = fullTranscript;
+			// "IA" locale : résumé
+			const summary = await summarizeText(fullTranscript, numSentences);
+			summaryOutput.textContent = summary;
+		} catch (err) {
+			console.error("Erreur dans le processus :", err);
+			showError(`Erreur: ${err.message}`);
+			transcriptOutput.innerHTML = "<p>Échec de la récupération.</p>";
+			summaryOutput.innerHTML = "<p>Échec du résumé.</p>";
+		} finally {
+			showLoading(false);
+		}
+	});
+	function showLoading(isLoading) {
+		loadingDiv.style.display = isLoading ? 'block' : 'none';
+	}
+	function showError(message) {
+		errorDiv.textContent = message;
+		errorDiv.style.display = 'block';
+	}
+	function hideError() {
+		errorDiv.style.display = 'none';
+	}
+	// --- Fonctions de résumé (l'"IA" locale) ---
+	function tokenize(text) {
+		// Simpliste : enlève la ponctuation basique et met en minuscule
+		return text.toLowerCase().replace(/[^\w\s'-]|_/g, "").replace(/\s+/g, " ").trim().split(' ');
+	}
+	function getSentences(text) {
+		// Segmentation basique par point, point d'interrogation, point d'exclamation.
+		// Peut être amélioré avec des expressions régulières plus complexes.
+		// Nettoie les timestamps typiques comme [00:00:00] ou (00:00:00)
+		const cleanedText = text.replace(/\[\d{2}:\d{2}:\d{2}\]/g, '')
+			.replace(/\(\d{2}:\d{2}:\d{2}\)/g, '');
+		return cleanedText.split(/[.!?]+\s*/).filter(s => s.trim().length > 0).map(s => s.trim());
+	}
+	function calculateWordFrequencies(words) {
+		const freq = {};
+		words.forEach(word => {
+			if (!STOP_WORDS_FR.has(word) && word.length > 2) { // Ignore les mots vides et très courts
+				freq[word] = (freq[word] || 0) + 1;
+			}
+		});
+		return freq;
+	}
+	function scoreSentences(sentences, wordFrequencies) {
+		const sentenceScores = [];
+		sentences.forEach((sentence, index) => {
+			const wordsInSentence = tokenize(sentence);
+			let score = 0;
+			wordsInSentence.forEach(word => {
+				if (wordFrequencies[word]) {
+					score += wordFrequencies[word];
+				}
+			});
+			// On pourrait ajouter un bonus pour la position (ex: premières phrases)
+			// if (index < 3) score *= 1.2; // Bonus pour les 3 premières phrases
+			sentenceScores.push({ sentence: sentence, score: score, index: index });
+		});
+		return sentenceScores;
+	}
+	async function summarizeText(text, numSentences) {
+		if (!text || text.trim() === "") return "Le texte fourni est vide.";
+		try {
+			// 1. Découper le texte en phrases
+			const sentences = getSentences(text);
+			if (sentences.length <= numSentences) {
+				return text; // Si le texte est déjà plus court que le résumé demandé, retourner tout
+			}
+			// 2. Tokeniser le texte pour l'analyse des fréquences
+			const words = tokenize(text);
+			// 3. Calculer les fréquences des mots (sauf mots vides)
+			const wordFrequencies = calculateWordFrequencies(words);
+			// 4. Calculer un score pour chaque phrase basé sur les mots importants
+			const sentenceScores = scoreSentences(sentences, wordFrequencies);
+			// 5. Trier les phrases par score (importance) décroissant
+			sentenceScores.sort((a, b) => b.score - a.score);
+			// 6. Prendre les N phrases les plus importantes
+			const topSentences = sentenceScores.slice(0, numSentences);
+			// 7. Retrier les phrases selon leur position originale dans le texte
+			topSentences.sort((a, b) => a.index - b.index);
+			// 8. Former le résumé final
+			const summary = topSentences.map(item => item.sentence).join('. ');
+			return summary + '.';
+		} catch (error) {
+			console.error("Erreur lors de la création du résumé:", error);
+			return "Une erreur s'est produite lors de la création du résumé.";
+		}
+	}
+});

public/style.css ADDED Viewed

	@@ -0,0 +1,94 @@

+body {
+    font-family: sans-serif;
+    line-height: 1.6;
+    margin: 0;
+    padding: 20px;
+    background-color: #f4f4f4;
+    color: #333;
+}
+.container {
+    max-width: 800px;
+    margin: auto;
+    background: #fff;
+    padding: 20px;
+    border-radius: 8px;
+    box-shadow: 0 0 10px rgba(0,0,0,0.1);
+}
+h1, h2 {
+    color: #333;
+    text-align: center;
+}
+label {
+    display: block;
+    margin-bottom: 5px;
+    font-weight: bold;
+}
+input[type="text"], input[type="number"] {
+    width: calc(100% - 22px);
+    padding: 10px;
+    margin-bottom: 15px;
+    border: 1px solid #ddd;
+    border-radius: 4px;
+}
+button {
+    display: block;
+    width: 100%;
+    padding: 10px;
+    background-color: #5cb85c;
+    color: white;
+    border: none;
+    border-radius: 4px;
+    cursor: pointer;
+    font-size: 16px;
+}
+button:hover {
+    background-color: #4cae4c;
+}
+.output-box {
+    margin-top: 20px;
+    padding: 15px;
+    background-color: #e9e9e9;
+    border: 1px solid #ccc;
+    border-radius: 4px;
+    min-height: 100px;
+    white-space: pre-wrap; /* Conserve les sauts de ligne et espaces */
+    word-wrap: break-word;
+}
+.error {
+    color: red;
+    background-color: #ffe0e0;
+    border: 1px solid red;
+    padding: 10px;
+    margin-top: 15px;
+    border-radius: 4px;
+}
+#loading {
+    text-align: center;
+    padding: 10px;
+    color: #555;
+}
+footer {
+    margin-top: 20px;
+    text-align: center;
+    font-size: 0.9em;
+    color: #777;
+}
+footer a {
+    color: #5cb85c;
+    text-decoration: none;
+}
+footer a:hover {
+    text-decoration: underline;
+}

server.js ADDED Viewed

	@@ -0,0 +1,75 @@

+import express from 'express';
+import { YoutubeTranscript } from 'youtube-transcript';
+import path from 'path';
+import { fileURLToPath } from 'url';
+// Configuration pour __dirname avec ES Modules
+const __filename = fileURLToPath(import.meta.url);
+const __dirname = path.dirname(__filename);
+const app = express();
+// Hugging Face Spaces utilise le port 7860 par défaut
+const port = process.env.PORT || 7860;
+// Servir les fichiers statiques du dossier 'public'
+app.use(express.static(path.join(__dirname, 'public')));
+app.get('/get-transcript', async (req, res) => {
+	const videoUrl = req.query.url;
+	if (!videoUrl) {
+		return res.status(400).json({ error: 'URL de la vidéo manquante' });
+	}
+	try {
+		// Essayer d'extraire l'ID de différentes formes d'URL YouTube
+		let videoId = '';
+		if (videoUrl.includes('v=')) {
+			videoId = videoUrl.split('v=')[1].split('&')[0];
+		} else if (videoUrl.includes('youtu.be/')) {
+			videoId = videoUrl.split('youtu.be/')[1].split('?')[0];
+		} else {
+			// On pourrait ajouter d'autres formats d'URL ici (shorts, etc.)
+			// Pour l'instant, on assume que c'est un ID direct si ce n'est pas une URL connue
+			videoId = videoUrl;
+		}
+		if (!videoId) {
+			return res.status(400).json({ error: "Impossible d'extraire l'ID de la vidéo depuis l'URL." });
+		}
+		console.log(`Fetching transcript for video ID: ${videoId}`);
+		const transcript = await YoutubeTranscript.fetchTranscript(videoId);
+		if (!transcript || transcript.length === 0) {
+			return res.status(404).json({ error: 'Transcription non trouvée ou vide pour cette vidéo.' });
+		}
+		// Concaténer les textes de la transcription
+		const fullText = transcript.map(item => item.text).join(' ');
+		res.json({ transcript: fullText });
+	} catch (error) {
+		console.error('Erreur lors de la récupération de la transcription:', error);
+		if (error.message && error.message.includes('Could not find transcripts')) {
+			return res.status(404).json({ error: "Aucune transcription disponible pour cette vidéo (elles sont peut-être désactivées ou n'existent pas en auto-généré)." });
+		}
+		if (error.message && error.message.includes('is not a valid video ID')) {
+			return res.status(400).json({ error: `L'ID vidéo extrait ('${error.message.split("'")[1]}') n'est pas valide. Vérifiez l'URL.` });
+		}
+		res.status(500).json({ error: 'Erreur interne du serveur lors de la récupération de la transcription.' });
+	}
+});
+// Route pour vérifier l'état du serveur (utile pour Hugging Face)
+app.get('/health', (req, res) => {
+	res.status(200).json({ status: 'ok' });
+});
+// Route par défaut
+app.get('/', (req, res) => {
+	res.sendFile(path.join(__dirname, 'public', 'index.html'));
+});
+app.listen(port, '0.0.0.0', () => {
+	console.log(`Serveur démarré sur http://0.0.0.0:${port}`);
+});