ByteDance

company

https://www.bytedance.com/

ByteDanceOSS

ByteDance

AI & ML interests

None defined yet.

Recent Activity

zengjun925 updated a dataset 2 days ago

ByteDance/PatchEval

jwliu-cc submitted a paper 3 days ago

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

taesiri submitted a paper 5 days ago

StoryMem: Multi-shot Long Video Storytelling with Memory

View all activity

Papers

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

StoryMem: Multi-shot Long Video Storytelling with Memory

View all Papers

ByteDance 's Papers 21

Submitted by

Jiawei Liu

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

ByteDance

2

Submitted by

taesiri

StoryMem: Multi-shot Long Video Storytelling with Memory

ByteDance

Submitted by

Ling Yang

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

ByteDance

Submitted by

Qizhe Zhang

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

ByteDance

Submitted by

zjn

PairUni: Pairwise Training for Unified Multimodal Language Models

ByteDance

Submitted by

taesiri

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

ByteDance

Submitted by

Yuxuan BIAN

Video-As-Prompt: Unified Semantic Control for Video Generation

ByteDance

Submitted by

taesiri

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

ByteDance

Submitted by

taesiri

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

ByteDance

Submitted by

taesiri

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

ByteDance

Submitted by

taesiri

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

ByteDance

Submitted by

taesiri

Lynx: Towards High-Fidelity Personalized Video Generation

ByteDance

4

Submitted by

Minghao Li

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

ByteDance

Submitted by

HaochenWang

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

ByteDance

Submitted by

Jiahao Meng

CyberV: Cybernetics for Test-time Scaling in Video Understanding

ByteDance

Submitted by

Wei Chow

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

ByteDance

Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models

ByteDance

Submitted by

YSH

MAGREF: Masked Guidance for Any-Reference Video Generation

ByteDance

Submitted by

Xiangtai Li

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

ByteDance

3

Submitted by

Xiangtai Li

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

ByteDance

Submitted by

Xiangtai Li

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

ByteDance