什麼是 AI Agent?
AI Agent 可說是自大型語言模型問世後,「生成式 AI」發展的現在進行式。如果真要下一個明確的定義,AI Agent 是指能夠自主執行任務、分析數據並與人類協作的智慧系統,基於現有 LLM 的「創意和靈活安排」,透過增加代理定義、記憶、工具存取和流程控制等元素,不僅具備記憶能力,可以同時跨越不同工作需求,還能依照需求,調用最適合的多組 AI 模型,並在必要時訪問內部、外部系統,實現最小化人類干預的決策與行動。
在執行面上,AI Agent 有一個重點就是不像傳統軟體,是依照既定規則、演算法處理問題,AI Agent 現在有推理、制定目標的能力,讓它會有「主動性」去找相對應適合的工具、甚至可能跟其他的 agent 互相對話,最後直到找到滿意的答案才算是真正解決問題。
聽起來很饒口,對吧?但說白了,AI Agent 並不是什麼「超越人類智慧」的系統,那是 AGI 的目標;而是達到跟人類你我一樣的「多工能力」,看到問題,很快就能知道什麼問題分別要用什麼工具解決,然後把這些成果串在一起。
多虧 LLM 水到渠成
技術來看,AI Agent 能在 2025 此時面臨爆發點,還是多虧了過去一年來,LLM 在三個層面上的大進步:
首先是「多模態能力」。到目前為止,幾乎所有的領先級大語言模型,如 OpenAI 的 GPT、Goolge Gemini、Anthropic Claude 都獲得了可以整合文字、聲音和圖像的多模態能力,讓 AI Agent 可以一口氣處理多樣化的資料。
再來則是拆解與推理能力,例如 GPT-4 早在 2023 年就可以考過像律師資格考試、SAT 等多項人類高等專業考試,晚近的模型更具備能夠多步驟拆解、分析、解決問題,進一步制定實現目標分步驟計劃的能力。
更重要,也是更基礎的是在刻意訓練下,LLM 處理「單篇視窗文字量」的能力有大幅提升,你可以把這個能力視為人類的短期記憶能力,進一步讓 AI Agent 可以把長時間、多來源的資訊餵給 LLM,讓它處理更複雜的工作。
...詳細內文請參考網址