谷歌Gemini 1.5 Pro震撼发布:多模态能力超越GPT-4o、Claude-3.5 Sonnet

时间:2024-09-20 13:16:03
编辑:

近日消息,谷歌揭晓了其人工智能研究的最新成果——Gemini1.5Pro,并通过Google AI Studio搭配Gemini API,发布了实验性质的“版本0801”,旨在邀请开发者和研究人员参与早期测试,收集宝贵意见与反馈,共同推进AI技术的边界。

谷歌Gemini 1.5 Pro震撼发布:多模态能力超越GPT-4o、Claude-3.5 Sonnet

新模型迅速在著名的 LMSYS Chatbot Arena 排行榜(由 Gradio 构建)上占据榜首,其令人瞩目的 ELO 分数高达1300。这一成就使 Gemini1.5Pro 领先于像 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5Sonnet(ELO:1271)这样强大的竞争对手。

Gemini 团队的关键人物西蒙·托库明在 X.com 上的一篇帖子中庆祝了这一发布,称其为“我们所打造的最强、最智能的 Gemini”。早期用户的反馈也支持了这一说法,一位 Redditor 称该模型“好得令人疯狂”,并希望其能力不会被削减。

Gemini1.5Pro 的新功能

Gemini1.5Pro 在众多任务中展现出强大实力,该模型在多语言任务方面表现出色,在数学、复杂提示和编码等技术领域也有强劲表现。它还在 LMSYS 的视觉排行榜上位居榜首,突显了其多模态能力。

这次发布建立在谷歌于2月推出的 Gemini1.5的基础上,1.5系列的一个突出特点是其广阔的上下文窗口,多达200万个标记,远远超过许多竞争模型。这使得 Gemini1.5Pro 能够处理和推理大量信息,包括冗长的文档、广泛的代码库以及扩展的音频或视频内容。

Gemini1.5Pro 增强的能力可能会改变企业在数据分析、软件开发和客户互动方面的运营。该模型能够高精度处理复杂的多模态输入,为各行业的自动化和决策支持开辟了新的可能性。

谷歌决定让 Gemini1.5Pro进行早期测试,反映了 AI 行业日益增长的开放开发和社区参与的趋势。通过征求开发者和用户的反馈,谷歌旨在进一步完善该模型,并在更广泛推广之前解决潜在问题。

Gemini1.5Pro 的发布代表了正在进行的 AI 竞赛中的重大举措,科技巨头和初创公司都在争夺霸主地位。其在各种任务中的表现表明,谷歌在开发更通用和强大的 AI 系统方面正在取得实质性进展。

谷歌Nest8月新品曝光:第4代恒温器与第2代温度传感器将至

7月25日消息,即将于8月13日举行的谷歌Made by Google活动上,除了万众期待的Pixel 9系列智能手机发布外,谷歌还将带来两款智能家居新品:第四代Nest智能恒温器以及第二代Nest温度传感器。这表明谷歌持续扩大其智能家居生态布局,为用户带来更多智能化生活选择。

谷歌Nest8月新品曝光:第4代恒温器与第2代温度传感器将至

Nest 第 4 代恒温器(Nest Learning Thermostat)

谷歌公司于 2015 年推出第 3 代 Nest Learning Thermostat,距今已有近 10 年时间。

本次曝光的宣传海报并未透露太多细节内容,该产品兼容现有第 3 代 Nest Learning Thermostat 以及 Thermostat E。

第 2 代温度传感器(Nest Temperature Sensor)。

本次曝光的渲染图主要为第 2 代温度传感器,预估售价为 39 美元(当前约 284 元人民币),三个套装售价为 99 美元(当前约 720 元人民币)。

第 2 代温度传感器抹除了“G”字样,表面非常光滑,看起来就像是一块肥皂 / 馒头,宣传图显示第 2 代温度传感器的电池寿命为 3 年。

谷歌AI新纪元:Gemini 1.5 Pro赋能机器人“智慧之眼”,实现记忆导航能力

近日消息,谷歌的创新步伐再次引领科技潮流,其麾下的Google DeepMind团队成功将先进的AI模型Gemini 1.5 Pro集成到机器人系统中,为机器人赋予了前所未有的记忆导航能力,如同开启了“智慧之眼”。

谷歌AI新纪元:Gemini 1.5 Pro赋能机器人“智慧之眼”,实现记忆导航能力

想象一下,这个机器人在将近9000平方英尺的地盘上,能执行57种不同的任务,而且成功率达到了90%。这不是简单的任务,比如找到画画的地方,机器人不仅听懂了,还带你找到了一块大白板。这操作,简直比真人还靠谱。

这个系统的厉害之处在于,它能够处理多模态的长上下文窗口,这意味着机器人不仅能记住关键位置,还能理解人类的指令、视频导览,甚至用常识来推理。就像那个Google员工的例子,机器人不仅听懂了“画画的地方”,还知道要找个有大白板的地方。

而且,这些机器人在之前的项目中已经熟悉了办公室环境,它们通过“多模态指令导航演示”了解了空间布局。DeepMind的团队还用了一种分层视觉-语言-动作(VLA)技术,让机器人能够理解书面、绘图命令和手势指令。

这个系统的核心,是它能够让机器人在复杂的空间中自由行动,而且不需要人类时时刻刻的指导。它们能够记住环境,理解指令,然后用自己的方式来完成任务。这种能力,让机器人在实际应用中变得更加灵活和有用。

总之,Google DeepMind的这项技术,不仅仅是让机器人变得更聪明,更是让它们能够在真实世界中更好地服务于人类。这就像是给机器人打开了一扇新的大门,让它们能够走进我们的生活,成为我们工作和探索世界的伙伴。未来的机器人,或许就不再是冷冰冰的机器,而是我们生活中的智能伙伴。

相关攻略
相关推荐