Author Image

Hi, I am Hongjin

I am a researcher at BAAI.
My research focuses on LLM, Agent and more.

Hongjin Qian

Researcher @ BAAI

My current research focuses on autonomous agents dedicated to auto-research: AI systems that can actively formulate research questions, decompose complex tasks, search for evidence, reason over heterogeneous knowledge, and synthesize grounded findings.

This direction grows out of my work on memory-augmented retrieval and long-context understanding, such as MemoRAG, and extends toward agents that can conduct open-ended web investigation (WebThinker), maintain executive memory for reasoning (MemoBrain), and interact with scientific literature through agentic data interfaces (DeepXiv-SDK).

I am also enthusiastic about building systems that turn research into practical tools, including general agent platforms and domain-specific demos for scientific discovery, AI talent mining, and education planning. Please contact me if you would like invitation codes for demo access.

Research Interests

Information Retrieval Retrieval-Augmented Generation Autonomous Agents Auto-Research Search & Reasoning Knowledge-Intensive NLP

Background

Researcher @ BAAI
Postdoc @ Peking University (until Oct 2026)
PhD, Renmin University of China, 2024 · advised by Prof. Zhicheng Dou & Prof. Ji-Rong Wen
M.S. University of Sydney · B.S. Nankai University
Internships at Huawei & WeChat Group

News

Apr 2026 6 papers accepted to ACL 2026 (2 main + 4 findings): InfoFlow, FinSight, MemoBrain, AWARE, Web Sitemap, LiveLongBench.
Apr 2026 1 paper accepted to SIGIR 2026: Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning.
Jan 2026 1 paper accepted to ICLR 2026: Open Data Synthesis For Deep Research.

Research

		Agent 2025-Present 20 AI Agents represent the next evolution of LLMs, moving from passive conversation to active task execution. Publications Long-Horizon Agent Preprints 2026 Towards Long-Horizon Agents: A Survey. Guanting Dong, Xiaoshuai Song, Yuyang Hu, Jiajie Jin, Chenghao Zhang, Yifei Chen, Xiaoxi Li, Huaying Yuan, Xinyu Yang, Tongyu Wen, Jiejun Tan, Hongjin Qian, Shijue Huang, Junting Lu, Zhenyu Li, Wanjun Zhong, Yutao Zhu, Tat-Seng Chua, Zhicheng Dou, Ji-Rong Wen. Auto-Research arXiv Toward Generalist Autonomous Research via Hypothesis-Tree Refinement. Wenbo Zhang, Kun Luo, Lei Xiong, Chaofan Li, Ziyi Xia, Juncheng Wan, Hongjin Qian, Qian Yu, Chao Liu, Xiaoguang Li, Mengdi Wang, Min Zhang, Zhicheng Dou, Zheng Liu. Long-Horizon Agent arXiv AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning. Yuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Tong Zhao, Xiaoxi Li, Zheng Liu, Zhicheng Dou. Agent Memory arXiv SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent. Yuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Ziliang Zhao, Jiejun Tan, Zheng Liu, Zhicheng Dou. Planning arXiv PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models. Ziliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou. Auto-Research arXiv AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery. Lei Xiong, Kun Luo, Ziyi Xia, Wenbo Zhang, Jin-Ge Yao, Zheng Liu, Jingying Shao, Jianlyu Chen, Hongjin Qian, Xi Yang, Qian Yu, Hao Li, Chen Yue, Xiaan Du, Yuyang Wang, Yesheng Liu, Haiyu Xu, Zhicheng Dou. Self-Evolving Agent ACL 2026 Demo AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse. Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu. Scientific Literature arXiv DeepXiv-SDK: An Agentic Data Interface for Scientific Papers. Hongjin Qian, Ziyi Xia, Ze Liu, Jianlv Chen, Kun Luo, Minghao Qin, Chaofan Li, Lei Xiong, Sen Wang, Zhengyang Liang, Zheng Liu. Agent Memory arXiv General Agentic Memory Via Deep Research. BY Yan, Chaofan Li, Hongjin Qian, Shuqi Lu, Zheng Liu. Agent Memory ACL 2026 Findings MemoBrain: Executive Memory as an Agentic Brain for Reasoning. Hongjin Qian, Zhao Cao, Zheng Liu. Agent Memory ACL 2026 Findings AWARE: Agentic Knowledge Warehousing for Contextual Intelligence. Hongjin Qian, Siqi Bao, Zhao Cao, Zheng Liu. Autonomous Browsing ACL 2026 Findings Web Sitemap Knowledge Can Enhance Autonomous Browsing. Yuyao Zhang, Hongyu Lu, Jiajie Jin, Hongjin Qian, Shiyu Li, Zhao Yang, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou. Search Agent ACL 2026 InfoFlow: Reinforcing Search Agent Via Reward Density Optimization. Kun Luo, Hongjin Qian, Zheng Liu, Ziyi Xia, Shitao Xiao, Siqi Bao, Jun Zhao, Kang Liu. CCF-A Deep Research ACL 2026 FinSight: Towards Real-World Financial Deep Research. Jiajie Jin, Yuyao Zhang, Yimeng Xu, Hongjin Qian, Yutao Zhu, Zhicheng Dou. CCF-A SAC Spotlight Data Synthesis ICLR 2026 Open Data Synthesis For Deep Research. Ziyi Xia, Kun Luo, Hongjin Qian*, Zheng Liu. CCF-A Self-Evolving Agent arXiv MetaAgent: Toward Self-Evolving Agent via Tool Meta-Learning. Hongjin Qian, Zheng Liu. Video Agent KDD 26 VideoExplorer: Think With Videos For Agentic Long-Video Understanding. Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Yan Shu, Ji-Rong Wen, Nicu Sebe, Zhicheng Dou. Tool Agent SIGIR 2026 Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning. Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen. CCF-A Search-Enhanced Reasoning Neurips 25 Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging. Hongjin Qian, Zheng Liu. CCF-A Splotlight Deep Research Neurips 25 WebThinker: Empowering Large Reasoning Models with Deep Research Capability. Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou. CCF-A
		Retrieval-Augmentation Generation 2022-Present 12 Retrieval-Augmented Generation (RAG) is a method that first retrieves relevant information from an external knowledge source and then combines it with the model’s input to generate more accurate and informative responses. Publications AAAI 26 Does RAG Really Perform Bad For Long-Context Processing? Kun Luo, Zheng Liu, Shitao Xiao, Jiabei Chen, Hongjin Qian, Peitian Zhang, Shanshan Jiang, Bin Dong, Jun Zhao, Kang Liu. CCF-A Neurips 25 HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks. Hongjin Qian, Zheng Liu, Chao Gao, Yankai Wang, Defu Lian, Zhicheng Dou. CCF-A Splotlight EMNLP 25 Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization. Yutao Zhu, Jiajie Jin, Hongjin Qian, Zheng Liu, Zhicheng Dou, Ji-Rong Wen. CCF-B arXiv Memory-enhanced Retrieval Augmentation for Long Video Understanding. Huaying Yuan, Zheng Liu, Minghao Qin, Hongjin Qian, Yan Shu, Zhicheng Dou, Ji-Rong Wen, Nicu Sebe. ACL 25 Boosting Long-Context Information Seeking via Query-Guided Activation Refilling. Hongjin Qian, Zheng Liu, Peitian Zhang, Zhicheng Dou, Defu Lian. CCF-A theWebConf 25 MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation. Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Defu Lian, Zhicheng Dou, Tiejun Huang. CCF-A 2nd Most Influential WWW25 KDD 25 Tackling the Length Barrier: Dynamic Context Browsing for Knowledge-Intensive Task. Hongjin Qian, Zheng Liu, Peitian Zahng, Kelong Mao, Yujia Zhou, Xu Chen, Zhicheng Dou. CCF-A arXiv Trustworthiness in Retrieval-Augmented Generation Systems: A Survey. Yujia Zhou, Yan Liu, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Zheng Liu, Chaozhuo Li, Zhicheng Dou, Tsung-Yi Ho, Philip S. Yu. EMNLP 24 Findings RAG-Studio: Towards In-Domain Adaptation Of Retrieval Augmented Generation Through Self Alignment. Kelong Mao, Zheng Liu, Hongjin Qian, Fengran Mo, Chenlong Deng, Zhicheng Dou. ACL 24 Grounding Language Model with Chunking-Free In-Context Retrieval. Hongjin Qian, Zheng Liu, Kelong Mao, Yujia Zhou, Zhicheng Dou. CCF-A arXiv Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge Selection. Hongjin Qian, Zhicheng Dou, Jiejun Tan, Haonan Chen, Haoqi Gu, Ruofei Lai, Xinyu Zhang, Zhao Cao, Ji-Rong Wen. arXiv Webbrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus. Hongjin Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie, Ji-Rong Wen.
		Conversational Search 2021-Present 9 Conversational search is an interactive search paradigm where users and systems engage in a dialogue, allowing queries, clarifications, and refinements across multiple turns to iteratively reach more accurate and context-aware results. Publications CIKM 25 Evolving Graph-Based Context Modeling for Multi-Turn Conversational Retrieval-Augmented Generation. Yiruo Cheng, Hongjin Qian, Fengran Mo, Yongkang Wu, Zhonghua Li, Qi Ye, Ji-Rong Wen, Zhicheng Dou. CCF-B TOIS 25 A Survey of Conversational Search. Fengran Mo, Kelong Mao, Ziliang Zhao, Hongjin Qian, Haonan Chen, Yiruo Cheng, Xiaoxi Li, Yutao Zhu, Zhicheng Dou, Jian-Yun Nie. CCF-A NAACL 24 Findings CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation. Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou. ACL 23 Findings Search-oriented Conversational Query Editing. Kelong Mao, Zhicheng Dou, Bang Liu, Hongjin Qian, Fengran Mo, Xiangli Wu, Xiaohua Cheng, Zhao Cao. EMNLP 23 Findings Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search. Kelong Mao, Zhicheng Dou, Fengran Mo, Jiewen Hou, Haonan Chen, Hongjin Qian. theWebConf 23 Learning Denoised and Interpretable Session Representation for Conversational Search. Kelong Mao, Hongjin Qian, Fengran Mo, Zhicheng Dou, Bang Liu, Xiaohua Cheng, Zhao Cao. CCF-A Splotlight EMNLP 22 Explicit Query Rewriting for Conversational Dense Retrieval. Hongjin Qian, Zhicheng Dou. CCF-B EMNLP 22 ConvTrans: Transforming Web Search Sessions for Conversational Dense Retrieval. Kelong Mao, Zhicheng Dou, Hongjin Qian, Fengran Mo, Xiaohua Cheng, Zhao Cao. CCF-B SIGIR 22 Curriculum Contrastive Context Denoising for Few-shot Conversational Dense Retrieval. Kelong Mao, Zhicheng Dou, Hongjin Qian. CCF-A
		Others 2020-Present 10 Dialogue System, QA System, Ranking, Retrieval, Theory, etc. Publications ACL 2026 Findings LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams Yongxuan Wu, Runyu Chen, Peiyu Liu, Hongjin Qian. IJCAI 25 Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization. Xinhao Yao, Hongjin Qian, Xiaolin Hu, Gengze Xu, Wei Liu, Jian Luan, Bin Wang, Yong Liu. CCF-A arXiv Extending Llama-3’s Context Ten-Fold Overnight. Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou. CCL 23 Learning on Structured Documents for Conditional Question Answering. Zihan Wang, Hongjin Qian, Zhicheng Dou. ECIR 23 Topic-Enhanced Personalized Retrieval-Based Chatbot. Hongjin Qian, Zhicheng Dou. NAACL 22 Less is More: Learning to Refine Dialogue History for Personalized Dialogue Generation. Hanxun Zhong, Zhicheng Dou, Yutao Zhu, Hongjin Qian, Ji-Rong Wen. CCF-B SIGIR 22 Webformer: Pre-training with Web Pages for Information Retrieval. Yu Guo, Zhengyi Ma, Jiaxin Mao, Hongjin Qian, Xinyu Zhang, Hao Jiang, Zhao Cao, Zhicheng Dou. CCF-A CIKM 21 Learning Implicit User Profile for Personalized Retrieval-Based Chatbot. Hongjin Qian, Zhicheng Dou, Yutao Zhu, Yueyuan Ma, Ji-Rong Wen. CCF-B SIGIR 21 Pchatbot: A Large-Scale Dataset for Personalized Chatbot. Hongjin Qian, Xiaohe Li, Hanxun Zhong, Yu Guo, Yueyuan Ma, Yutao Zhu, Zhanliang Liu, Zhicheng Dou, Ji-Rong Wen. CCF-A EMNLP 20 Findings Speaker or Listener? The Role of a Dialog Agent. Yafei Liu, Hongjin Qian, Hengpeng Xu, Jinmao Wei.

Experiences

1

Assistant Research Fellow

Peking University

Aug 2025 - Present, Beijing, China

Responsibilities:

Memory-Enhanced Agent
Agentic Search

Postdoctoral Researcher

Peking University

Oct 2024 - Present, Beijing, China

Responsibilities:

Memory-Enhanced LLMs
Efficiency KV cache techniques

2

System Demos

I enjoy building systems that turn research ideas into practical tools. Demo access may require an invitation code; please contact me if you would like to try them.

General Agent Platform

AREX

A general agent platform for auto-research workflows, connecting autonomous search, reading, reasoning, and synthesis.

Auto-Research Agent Platform

AI Talent Mining

Find 1stAuthor

A talent discovery demo for exploring researchers, research trajectories, and expertise signals in the AI community.

Talent Discovery AI Research

Gaokao Planning Demo

Shang985

An education-planning demo for Gaokao college applications, using agentic search and structured reasoning to support school and major selection.

Education Planning Agentic Search

Patents Statistics

20 Patents in Total
18 Granted Patents
6 First-Inventor Patents

Academic Service

Reviewer / PC Member:
Neurips, ICLR, ICML, ACL, EMNLP, MM
EACL, ACL ARR, SIGKDD, theWebConf, TOIS

Projects & Grants

Hierarchical Memory-Enhanced Knowledge Reasoning for Large Language Models Jan 2026 - Dec 2028

This project focuses on exploring techniques to expand the knowledge scale and memory scale at the input stage. The goal is to overcome the limitations of current LLMs in complex knowledge reasoning, knowledge memorization, and global knowledge understanding. This will be achieved by constructing a hierarchical memory mechanism that enables the scaling, memorization, and dynamic, coordinated retrieval of multi-source, heterogeneous knowledge.

NSFC Young Scientists Fund (C Class)

Optimization Methods for Information Agents Oriented Toward Deep Search May 2026 - Sep 2026

Supported by the Beijing Postdoctoral Research Foundation, this project studies adaptive information agents for deep search in complex scenarios. It explores self-evolution without parameter updates, reinforcement learning with rewards for correctness, information gain, and efficiency, and reasoning-tree-based data synthesis for verifiable agent training and evaluation.

Beijing Postdoctoral Research Foundation Information Agent Deep Search

MemoRAG Aug 2024 - Present

MemoRAG is a next-generation retrieval-augmented generation system with long-term memory, enabling superior context-aware information retrieval and enhanced performance on complex tasks where traditional RAG systems struggle.

RAG LLM GitHub

Infomatica Aug 2025 - Present

Informatica is a comprehensive collection of systematic research projects focused on deep research systems. Our mission is to provide open-source, scalable frameworks, datasets, data synthesis methods, models, and demonstrations.

Deep Research LLM GitHub

DeepXiv-SDK Mar 2026 - Present

DeepXiv-SDK is an agent-first interface for scientific papers, supporting paper search, progressive reading, and research workflows through CLI, Python SDK, MCP, and agent integrations. It is designed to help AI agents discover, inspect, and reason over scientific literature more effectively.

Scientific Literature Agent SDK GitHub

Patents 8

CN111881264A A Method for Long Text Retrieval in Open-Domain Question Answering Tasks First Inventor
CN111738251A Optical Character Recognition Method Incorporating Pretrained Language Model First Inventor
CN111814433A A Method for Uyghur Language Named Entity Recognition First Inventor
CN112347793A A Semantic Parsing Method Based on Rules and Learning First Inventor
CN112988952A A Multi-Level Long Text Dense Retrieval Method First Inventor
CN111428509A A Latin-Alphabet-Based Uyghur Language Processing Method and System First Inventor
CN110162789A A Method for Pinyin-Based Chinese Language Representation Primary Inventor
CN111488423A A Natural Language Processing Method and System Based on Index Data Primary Inventor