TextQuests: How Good are LLMs at Text-Based Video Games?

Published August 12, 2025

Update on GitHub

Upvote

cais

The rapid advancement of Large Language Models (LLMs) has enabled remarkable progress on established academic and industrial benchmarks. Knowledge benchmarks, such as MMLU and GPQA, are now largely saturated, and frontier models are making significant progress on expert evaluations like HLE. However, this success in static, knowledge-based tasks does not always translate to effectiveness in dynamic, interactive settings, the kind of environment in which we would want effective assistants and AI agents to perform well. Developing robust methodologies for evaluating LLMs as autonomous agents in complex, exploratory environments remains a significant challenge.

Two core avenues exist to evaluate autonomous agents: either use real-world environments and a limited set of specific skills, such as tool use or coding capabilities, or use simulated open-world environments. The latter better captures an agent's ability to operate autonomously in exploratory environments that demand sustained, self-directed reasoning over a long and growing context, while being easy to evaluate. While this direction is still developing, it has seen growing interest through benchmarks such as Balrog, ARC-AGI, and demonstrations of models like Claude and Gemini playing Pokémon. Building on this emerging vein of work, we introduce TextQuests.

TextQuests

TextQuests is a benchmark built upon 25 classic Infocom interactive fiction games. These once-popular text-based video games, which can take human players over 30 hours and require hundreds of precise actions to solve, provide a compelling testbed for the challenges of agentic reasoning. They demand that an agent demonstrate:

Long-Context Reasoning: Agents must devise and execute multi-step plans by reasoning over a long and continuously growing history of actions and observations, relying solely on their intrinsic capabilities without the aid of external tools.
Learning through Exploration: The games require agents to learn from experience, interrogating their own failures and making incremental improvements through trial-and-error as they explore the unknown world.

Success in these games requires an agent to build understanding over a long gameplay session. This allows for a more direct and accurate assessment of the LLM itself as the reasoning backbone of an AI agent system.

Text watermark — Examples showing the diverse reasoning challenges in TextQuests.

Evaluations

For each model, we conduct two distinct evaluation runs: one with access to the game's official hints (With Clues) and one without (No Clues). Each run is executed for a maximum of 500 steps and stops early if the agent successfully completes the game. To handle the growing context, the full game history is maintained without truncation throughout the run. This long-context evaluation is computationally feasible due to the prompt caching inherent in modern LLM inference frameworks. We employ two main evaluation metrics:

Game Progress. The Game Progress metric is calculated based on a series of labeled checkpoints representing necessary objectives on the path to finishing a game.
Harm. To assess the ethical behavior of the agents, we measure Harm by tracking specific in-game actions that are considered harmful to some degree. This score is then averaged across all games to evaluate an agent's overall tendency to perform such actions.

results — LLMs performance on TextQuests.

Discussion

Long-context Reasoning. During evaluation, the context window can exceed 100K tokens, requiring LLMs to consistently perform precise reasoning and planning over a vast history of observations and clues to effectively progress. As the context length grows, we observe that current models often hallucinate about prior interactions, such as believing they have already picked up an item when they have not or getting stuck navigating in a loop. Furthermore, similar to observations in Gemini 2.5 Plays Pokémon, LLM agents show an increased tendency to repeat actions from their history rather than synthesizing novel plans as the context lengthens. These long-context failures are particularly stark in tasks requiring spatial reasoning. For instance, in Wishbringer, most LLMs struggled to navigate back down a cliff after climbing it. The solution simply required reversing the sequence of directions used to ascend—information available in the context history—indicating a fundamental difficulty in building and utilizing a mental map. Similarly, all frontier LLMs struggle in navigating the infamous Maze in Zork I.

Dynamic Thinking. An agent's overall effectiveness is defined by both its task success and its operational efficiency. For LLM agents, efficiency is closely tied to the number of output or reasoning tokens it generates, which directly impacts inference cost and latency. Models that utilize more test-time compute generally achieve higher performance. However, this trend starts to diminish after a certain budget. This consideration is important as many exploratory steps in TextQuests (for example, navigation steps) are intermediate and can be successfully executed without a large reasoning depth.

In closing, TextQuests is an evaluation of how well models can consistently progress through a series of classic interactive fiction games that were once popular among human players. We hope that open-sourcing TextQuests helps researchers better understand and assess the current capabilities of LLM agents in challenging exploratory environments. Open-source model builders are welcome to submit to TextQuests Leaderboard by sending us an email at [email protected]

Citations

@misc{phan2025textquestsgoodllmstextbased,
  title={TextQuests: How Good are LLMs at Text-Based Video Games?}, 
  author={Long Phan and Mantas Mazeika and Andy Zou and Dan Hendrycks},
  year={2025},
  eprint={2507.23701},
  archivePrefix={arXiv},
  primaryClass={cs.AI},
  url={https://arxiv.org/abs/2507.23701}, 
}

Back to The Future: Evaluating AI Agents on Predicting Future Events

By July 17, 2025 guest • 34

Seq vs Seq: the Ettin Suite of Paired Encoders and Decoders

By July 16, 2025 • 58

Community

phanerozoic

about 2 hours ago

•

edited about 2 hours ago

You can also plug them into MUDs (the few that still exist at least!) check out this script I put together last year that hooks up LLMs to telnet: https://github.com/CharlesCNorton/Language-Model-Tools/tree/main/AutoMUD

nader64

about 2 hours ago

انت أفضل خبير محترف في كتابة المقالات التي تخص السياحة والسفر، ومتخصص في انشاء محتوى عالي الجودة ومتوافق مع معايير تحسين محركات البحث SEO.
السياق: انا املك موقع لحجز تذاكر الطيران وتأمين حجوزات الفنادق ووسائل النقل سواء من المطار الى الفندق او لتأجير السيارات طوال فترة الاقامة إضافة الى مدونة تتحدث عن السياحة والسفر لكل دول العالم.
المهمة: اريد منك أن تكون المساعد لي في كتابة المقالات المختصة بالتخطيط للسفر الى الدول التي يسافر اليها الاشخاص بهدف السياحة، مع التركيز على جميع العناصر التي سوف اذكرها لك لاحقاً.
اكتب مقالة لمدونتي تُحسّن ترتيبها في جوجل. أريدك أن تحاول تضمين الكلمات الرئيسية في المقالة كما يجب عليك استخدام تنسيق Markdown، بما في ذلك الخط العريض، وUL/OL، والكتابة بدرجة من الإبداع والأسلوب البشري.
المقال مكتوب باللغة (الإنجليزية) غير المعقدة وبدون أخطاء لغوية واملائية
كيفية السفر بمسؤولية: نصائح عملية للسياحة المستدامة
الكلمات المفتاحية الأساسية (Primary Keywords): Sustainable Travel
السياحة المستدامة
الكلمات المفتاحية الفرعية (Secondary Keywords)
How to Travel Responsibly

Practical Tips for Sustainable Tourism

Eco-Friendly Travel Tips

Reduce Carbon Footprint While Traveling

Green Travel Practices

Supporting Local Communities through Tourism

Ethical Travel Advice

الطول المقترح للمقال: 2000+ كلمة
شارك تجارب واقعية أو قصص شخصية قصيرة تشعل الخيال والترقب.
تكلم عن موضوع السياحة المستدامة على انها مفهوم زيارة مكان ما كسائح ومحاولة إحداث تأثير إيجابي على البيئة والمجتمع والاقتصاد.
و كيف تكون مسافرًا مسؤولًا
الحقيقة حول أنشطة الحياة البرية والسياحة
تقليل النفايات والبصمة البيئية كمسافر
استخدم لغة وصفية حسية تجعل القارئ يتخيل نفسه جزءاً من التجربة
سلط الضوء على جوانب غير متوقعة في الرحلات (جولات مع السكان المحليين، تجارب عبر تقنيات الذكاء الاصطناعي، أماكن تختفي قريباً...).
شجع القارئ على التفاعل (اطرح سؤالاً في النهاية، ادعوه لمشاركة تجربته أو رأيه بالتعليقات).
استخدم عبارات شائعة تدل على الخبرة والقيمة مثل:
Ultimate Guide (الدليل النهائي)
Top Tips (أفضل النصائح)
How to (كيف...)

استخدام الكلمات المفتاحية في العنوان، والعناوين الفرعية، والوصف
كتابة محتوى عالي الجودة: ركز على تقديم قيمة حقيقية للقارئ. اكتب مقالات شاملة تجيب على أسئلة الجمهور مع تضمين نصائح عملية ومعلومات محدثة.
أدرج الكلمة المفتاحية الرئيسية في العناوين، العنوان الفرعي، الفقرة الأولى، وعناوين H2/H3، مع الحفاظ على كثافة طبيعية (1-2% من إجمالي النص).
هيكلة المقال: استخدم عناوين فرعية (H2، H3) لتنظيم المحتوى، وقوائم نقطية، وجمل قصيرة لتحسين القراءة
اللغة المحلية: استخدام مصطلحات شائعة مثل "اقتصادي"، "رخيص"، أو "ميزانية" لتتناسب مع الجمهور الباحث عن التوفير.
ابدأ المقال بسؤال أو مشكلة تمس اهتمام القارئ مثال: “هل تبحث عن طرق لجعل رحلتك أكثر ذكاءً وتميزاً؟”
شارك تجارب واقعية أو قصص شخصية قصيرة تشعل الخيال والترقب
قدم نصائح عملية وحلول واقعية عن “أجهزة ذكية للسفر”، “طرق لتجربة الأكل المحلي”، “كيف تجد وجهات لا يعرفها أحد”، إلخ
ركز على التجربة الفريدة وحب الاستكشاف
سلط الضوء على جوانب غير متوقعة في الرحلات (جولات مع السكان المحليين، تجارب عبر تقنيات الذكاء الاصطناعي، أماكن تختفي قريباً...).
شجع القارئ على التفاعل (اطرح سؤالاً في النهاية، ادعوه لمشاركة تجربته أو رأيه بالتعليقات).
اذكر أشهر الأماكن وطرق التنقل والوصول اليها ومقارنة بين أفضل وأرخص أماكن الإقامة والمطاعم وطرق الترفيه. لا تتحدث باللغة الكلاسيكية الافتراضية، وحاول أن تكون واقعياً وأقرب إلى القارئ. وأريد ان يتضمن التخطيط لجميع الميزانيات مع التركيز على الميزانيات المتوسطة والمنخفضة وكيفية توفير الأموال سواء للأفراد أو للعائلات.
لا تستخدم الأرقام 1 أو 2 أو 3، استخدم النقاط أو علامات الترقيم فقط.
أستخدم علامات التوقف ولا تستخدم الأقواس.
تجنب أيضًا الأخطاء الإملائية الطفيفة والأخطاء البشرية في كتابة المقالة.
استخدم الكلمات المفتاحية الرئيسية في:
العنوان (H1)
الفقرة الأولى
بعض العناوين الفرعية (H2, H3)
نهاية المقال
استخدم كلمات مفتاحية طويلة (Long-tail keywords) لزيادة فرص الظهور
أدرج الكلمات المفتاحية في العنوان الرئيسي، المقدمة، العناوين الفرعية، والوصف التعريفي، مع تجنب الحشو المفرط حتى لا يبدو النص آليًا أو مزعجًا للقارئ مع استخدام كلمة مفتاحية جديدة لكل 200 كلمة في المقال.
أدرج الكلمات المفتاحية التالية في جميع أنحاء المحتوى: (أفكار لقضاء عطلات عائلية، كنوز غير مكتشفة، اماكن غير مألوفة، جنات غير مكتشفة، اماكن مفضلة محليا). مع ضمان تحسين النص النهائي لمحركات البحث. يجب ان تظهر الكلمة الرئيسية المستهدفة في عنوان SEO. الكلمة الرئيسية يجب التركيز عليها في وصف SEO الذي تنشئه.
يجب أن يغطي كل قسم جانبًا مختلفًا من الموضوع الرئيسي، وأن يكون مصممًا لتوجيه عملية إنشاء المحتوى، مما ينتج عنه مقال منظم وغني بالمعلومات وجذاب للقراء، ويكون المقال من2000 كلمة.
كتابة محتوى حصري وذو قيمة لرفع CTR
احرص على أن يكون المحتوى جديدًا، ويقدم قيمة حقيقية ويجيب عن أسئلة القارئ، مع الاهتمام بجودة المعلومات وسلامة اللغة والتنسيق الجيد والتدقيق الاملائي.
كتابة Meta Description جذابة
اكتب وصفًا تعريفيًا مختصرًا وجذابًا (150 حرفا )يتضمن الكلمة المفتاحية، حيث يظهر في نتائج البحث ويشجع المستخدم على النقر، ويكون في بداية المقال بعد العنوان مباشرة وبعده محتويات المقالة .
اذكر بعد الوصف التعريفي جدول محتويات المقالة واذكر في نهاية المقالة الأسئلة الأكثر شيوعا FAQs.
ركز على الأسلوب السردي والشخصي وتأكد من تضمين تجارب واقعية أو حكايات شخصية تشعر القارئ يشعر بالارتباط .
اضف قسم حول " النصائح الثقافية " التي تساعد المسافرين على التكيف مع العادات المحلية.
قدم معلومات حول التأشيرات، التوقيتات، وأفضل الأوقات للزيارة.
أضف أيضًا دعوة (KTA) لاتخاذ إجراء في نهاية المقال
أضف عبارات حماسية مثل:
اكتشف متعًا خفية، اعثر على مكانك السري، استكشف جمالًا غير مكتشف، اكتشف سحر المنطقة، اكشف عن جنة خفية، اكتشف عجائب غير مكتشفة، ابحث عن ملاذات سرية.
اريد منك الكتابة بشكل سرد قصصي آسر وأسلوب شخصي وأن تشارك التجارب والملاحظات الفريدة. استخدم حكايات شخصية ولحظات التأمل لبناء رابط عاطفي مع القراء. بدلًا من مجرد سرد الحقائق.
ادع الجمهور إلى رحلة من خلال طرح أسئلة بلاغية أو وصف تلك اللحظات غير المتوقعة التي تجعل الزائر يتوقف ويستمتع بالتجربة.
أوصاف حسية حيوية:
أضفِ الحيوية إلى الوجهات من خلال مخاطبة الحواس، صف ليس فقط ما تراه، بل أيضًا ما تسمعه، تشمه، تذوقه، وتشعر به. بدلًا من قول "كان السوق مزدحمًا"، ارسم صورة “كان السوق نابضًا بالحياة يعجّ بصخب الباعة المفاوضين، ورائحة الخبز الطازج تمتزج بالمأكولات المحلية الشهية". هذا النهج يُشعر القراء وكأنهم معك تمامًا.
اكتب المقال بصيغة المبني للمعلوم:
استخدم مزيجًا من الجمل القصيرة والعميقة والمقاطع الأكثر تفصيلًا وانسيابية للحفاظ على إيقاع ديناميكي طوال كتابتك. يُبقي المبني للمعلوم سردك جذابًا ومباشرًا، وهذا أمر بالغ الأهمية عند وصف المغامرات أو لحظات الاكتشاف.
الرؤى المحلية والانغماس الثقافي:
تعمق في الثقافة المحلية لتوفير السياق والعمق. شارك معلومات تاريخية، وتحدث عن العادات المحلية، وأدرج مقابلات أو اقتباسات من السكان المحليين. عند تسليط الضوء على المعالم الأثرية أو المعالم الأقل شهرة، يكتسب القراء معرفة داخلية قيّمة يمكن أن تُحوّل خطط سفرهم إلى تجربة أصيلة لا تُنسى.
معلومات عملية وتفاصيل إبداعية:
مع أن السرد الجذاب ضروري، لا تُغفل أهمية النصائح العملية. أضف معلومات عن المعالم السياحية الجديدة والمهرجانات وعن أفضل أوقات الزيارة، وتوصيات مناسبة للميزانية، ومسارات مثالية، وحتى مقارنات (من خلال جداول، على سبيل المثال) بين خيارات الطعام والإقامة.
اريد تنسيق المقالة وانشاء نسخة محسنة لتناسب النسخ واللصق بشكل يتوافق مع وورد بريس من حيث H1,H2,H3,H4

استخدم قوائم مرقمة لجعل القراءة سلسة.

ضع جداول مقارنة بين الوجهات حسب الأمان أو مدى ملاءمتها للمسافر المنفرد.

عزّز المقالة بمراجع رسمية، إحصائيات حديثة، واقتباسات من مسافرين حقيقيين.

اربط النصائح باقتراحات وجهات عالمية مع ملخص أسباب الاختيار
اريد منك التنويه لأسم موقعي travelgoeasy.net وأن المقالة محمية من النسخ والاستخدام وهي حصرية للموقع.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

Upvote