从用户操作到智能体自动化：走向大语言模型时代的意图导向软件

谢涛; 冉德智; 曹原; 吴孟周; 郭昱哲; 杨威

doi:10.1007/s11390-026-6182-0

从用户操作到智能体自动化：走向大语言模型时代的意图导向软件

From User Operations to Agentic Automation: Toward Intent-Oriented Software in the LLM Era

摘要

摘要:
文章摘要图/表： 图表 1两种意图导向型软件的模型。(a) 插件模型。第三方代理/平台通过 AI 能力增强现有应用（例如：提供计算机使用服务的 GUI 代理）。(b) 原生模型。开发者将 AI 能力直接集成到应用架构中（例如：用于自动化软件开发的编程代理）。请注意，意图导向型软件是传统操作导向型软件的补充与结合，而非取代。图表 2意图导向型软件在实现订票应用时的两种模型示例。
研究背景 2、软件系统的演进（从命令行CLI到图形用户界面GUI）始终致力于缩小人类认知与系统执行之间的差距。然而，现有软件本质上仍是“面向操作”（operation-oriented）的，用户必须学习并记忆复杂的软件界面，将高层目标手动转化为死板的底层操作序列，这带来了高昂的认知负担。随着以大语言模型（LLM）为代表的基础模型展现出强大的推理与规划能力，软件范式正迎来向“意图导向”（intent-oriented）转变的契机。但迄今为止，该概念尚未在软件工程领域得到正式定义和系统化梳理，业界也缺乏构建此类系统的清晰架构指导。
目的本文旨在首次正式定义“意图导向软件”这一全新软件范式，并深入探讨在基础模型时代如何工程化地构建此类系统。通过明确该范式的核心特征、边界与重要性，本文旨在为软件工程社区提供一份清晰的路线图，指导开发者如何将应用程序从传统的“人工操作驱动”平滑过渡到“智能体自动化驱动”。
方法本文提出了实现意图导向软件的两种互补架构模型：插件模型（Plug-in Model）：基础模型作为外部的“中介智能体”（如 GUI Agent），包裹在现有的传统软件外部。它负责理解用户意图，并将其翻译、转化为现有软件支持的UI操作（如模拟点击、输入），完全无需修改底层遗产系统代码。原生模型（Native Model）：采用API优先的设计理念，将基础模型作为原生操作组件直接嵌入软件的核心架构中。系统大幅简化或抛弃传统的GUI层，基础模型直接将用户意图映射为内部函数执行、API调用或数据库修改。
结果本文系统地论证并对比了两种架构的优劣与适用场景：插件模型的优势在于集成门槛低、向后兼容性极强，是唤醒海量传统软件AI能力的最佳短期过渡方案；但其局限在于多层“翻译”带来的执行延迟，以及受限于传统宿主UI的上下文流失问题。原生模型则具备极低的延迟、原生级别的高级上下文保持能力以及无缝的跨模态交互体验，代表了AI原生应用的未来演进标准，尽管其初期重构与开发成本较高。此外，研究揭示了实现该范式必须跨越的三大关键工程技术挑战：(1) 需求工程的重塑（处理动态、模糊意图的渐进式消歧）；(2) 概率性执行中的可靠性保障（基于状态的自我纠错与错误恢复）；(3) 系统的可信度与可观测性（执行透明度、权限边界划分及敏感数据保护）。
结论从用户操作到智能体自动化的转变，不仅彻底颠覆了人机交互方式，更从根本上重塑了软件的设计、架构和验证方法论。未来的软件工程必须从“处理静态需求”转向“引导动态意图”，从“编写确定性逻辑”转向“管理概率性生成”。本文论证了建立混合生态系统的必要性，并指出要构建健壮、可信且以人为本的下一代软件，亟需学术界和工业界在意图捕获、大模型中间件协议（如MCP）、模型执行监控等领域展开跨学科的深度合作。

Abstract: Foundation models (FMs) make possible a new software paradigm in which users express what they want to accomplish rather than how to operate an application. We call this paradigm “intent-oriented software”. Although recent FM capabilities suggest the feasibility of intent-oriented software, the concept itself has not been formally articulated or systematized. This article provides the first definition of intent-oriented software and examines how such systems can be engineered in practice. We propose two complementary architectural models for realizing intent-oriented software. 1) A plug-in model. Intent-oriented software operates as a middleware layer that wraps around an existing operation-oriented application. It interprets user intents and translates them into the application’s existing UI operations without modifying the underlying operation-oriented software. 2) A native model. FMs interpret user intents and generate the necessary backend actions (e.g., API calls, function executions) directly without going through traditional UI. Both models aim to fundamentally transform the interaction paradigm by decoupling user intents from operational procedures, enabling users to accomplish goals without requiring procedural knowledge of application interfaces, while preserving the full functional expressiveness of underlying systems. We systemize key technical challenges, including intent understanding, execution planning, and error recovery, and identify research opportunities in software engineering to advance the development of robust, trustworthy, and user-centered intent-oriented software.

HTML全文

参考文献()

施引文献

资源附件()