发布日期:2024-12-02 04:26 点击次数:110
#itup01
玩LLM和agent有一段期间了,面前认为AI agent落地是一个很凄凉的阶段。学术上是一个富矿,有点当年大众系统火起来的嗅觉了。
agent work吗,他work,好多bert无法作念好的任务,LLM能有可以的恶果,在agent框架加捏下,针对特定任务恶果会好,不得不承认,岂论是LLM如故agent在恶果上齐是实打实的跳跃。
那agent弥散work吗,这个谜底昭彰是否的。若是说已往深度学习大众是真金不怕火丹师,那当今作念agent诈欺是真实木工时代东谈主了。不同的追忆库,不同的prompt要津,用不同的LLM 拼起来恶果辩认齐蛮大的。
那这些局限性是若何产生的呢,有一个很核心的问题我称之为shallow reasoning,也等于说那怕是年头的GPT4,他的推理齐是比拟浅层的。GPT5可以惩处吗,也许。然而这也有可能是decoder-only transformer架构的固有颓势。是以面前看来agent的神经核心如故很原始的阶段。
其实agent四大模块除了tool use齐存在肖似的问题。
追忆模块,面前的RAG也卓越原始。只是通过文本相似性来搜索是不是也太省略着急了?比如说,我的目的是从A地到C地,然而我必须加油,中间唯有B地有加油站,那么昭彰我需要完成A-B-C的旅途。那若是我当今是A我思意志C,有中间东谈主B。那我全齐可以回思之前加油的例子,来完成我的目的。之前加油的例子天然和现时任务是共通的,然而文本相似性很低。是以个东谈主见解是咱们需要更高档的追忆模块。
逻辑推理模块当今有好多比如,COT, TOT,GOT,类比相似的例子等等。这些模块一定进度上惩处了浅层推理的问题,然而依然,面前agent的推理深度是不够。是以大部分论文如故在省略的数据集上测试(这里的省略数据集相干于之前的NLP要津也很难了)。那随之而来的问题是,关于不同的任务,我要遴荐哪种要津去推理呢,我需要花些许算力去推理是合乎的呢?面前即使是最高档的prompt手段,也需要好多手工治愈。是以推理模块也依然是卓越原始的。
若是不说那么远,若是基于面前agent还是有的才略去落地呢?依然还有好多问题。
从需求上,譬如说当今agent可以帮你订个外卖,旅店,机票。问题是他真实比用APP顺遂吗?我思咱们不要小看了十多年来挪动互联网发展中,对APP的优化进度。再比如说像characterAI这么,真实比刷抖音和看短剧故好奇羡慕好奇羡慕吗?
面前认为几个比拟好的诈欺宗旨是,医疗多模态大模子+agent,若是医疗影像可以关于新任务可以径直few-shot,并且恶果大致商用,会是一个很好的冲破。还有作念游戏亦然很好的宗旨,agent可以产生好多很真理的游戏实质,我思这类游戏还是在路上了。还有玩忽范围,天然这里不是真东谈主玩忽,是杜撰伴侣,杜撰偶像,这些需求细目是存在的,然而产物配置也需要摸着石头过河。
至于软件配置,当今用GPT4的才略,全齐是扯蛋的。
终末是算力的问题,serving cost真实太高了。当今能作念agent的LLM,唯有GPT4,3.5水平雷同的模子作念agent很免强。一个用户单次交互,也许要花好几毛东谈主民币。什么样的产物,知足什么样的需求才能卖得起这个价格呢?
是以说面前落地是个凄凉的阶段,要么等算力,推理框架,蒸馏技术发展,让行状老本弥散低廉。要么等agent这套框架发展处更好的追忆,和推理才略
❤(itup01)赌钱最火的手机app