上个月,我参加了Google AI Live大会。由于我一直在用Google构建一些令人兴奋的AI代理项目,这是一个很好的机会来看看他们生态系统中的新内容,以及更广泛的AI领域是如何演变的。

Google AI展望中的关键趋势

Google发布了一份全面的AI趋势报告,突出了行业的几个转变。其中两个趋势特别突出:

1. 多模态AI:解锁上下文理解

大语言模型正在超越文本,整合图像、视频和其他模态。这开辟了新的机会,特别是在媒体、广告和创意行业。分享的一个例子是电信公司使用AI实时视频聊天来解决家庭互联网问题——将上下文、视觉和语言融合成更直观的支持体验。

2. AI代理:从聊天机器人到协作系统

我们看到从单一用途的机器人转向可以访问工具、使用专业数据并协调任务的多代理系统。这一演变正在将AI推向自主工作流程,由管理代理之间编排的框架提供支持。

客户小组:Optus和Heidi Health的真实用例

小组汇集了两家Google Cloud客户——Optus(一家企业)和Heidi Health(一家初创公司)——分享他们如何在生产中使用AI。

Optus在经典的客户服务用例中应用AI。有数百万个支持工单,AI通过FAQ知识支持的更智能自助服务流程。在内部,他们还使用AI通过搜索更有效地索引和展示公司知识。

Heidi Health是一家构建AI医疗抄写员的初创公司。他们的系统监听医患咨询并生成摘要、账单信息、后续行动,甚至语言翻译。他们严重依赖Gemini,主要是因为其成本效益、质量和低延迟。

真正引起我共鸣的一个见解来自Heidi Health的CEO Thomas。他强调他们不是在”为了AI而构建AI”——他们正在解决医疗保健中真正的工作流程低效问题。AI是工具,而不是产品。这种清晰度令人耳目一新。

技术见解:使用Gemini

这里事情变得更加技术性——通过与Google团队的侧面讨论,我学到了一些有效使用Gemini的有用技巧。

弥合最后的10%

使用第三方模型的一个常见挑战是你不能直接微调它们。如果模型在90%的时间内表现良好,如何弥合这个差距?

一种方法是通过提示工程——提供高质量的示例来引导模型。但是当对话过于开放以至于无法枚举所有情况时,Gemini的大上下文窗口(超过一百万个token)变得至关重要。

为了避免来自太多上下文的模型混淆,检索增强生成(RAG)模式有所帮助——从存储的库中动态获取相关示例。

混合专家以实现输出多样性

另一种方法是使用不同的模型”专家”变体生成多个响应。然后你应用思维链或甚至另一个LLM来评估和选择最佳的一个。这种类似集成的策略反映了人类协作——多样性通常会带来更强的结果。

实践:使用Agent Development Kit (ADK)构建

一天的其余时间是使用Google的Agent Development Kit (ADK)进行实践。自发布以来,我一直在用它构建代理AI系统,对于任何认真对待AI自动化的人来说,这是一个令人印象深刻的工具包。如果你正在探索多代理工作流程或智能任务编排,绝对值得一看。