Claude、ChatGPT国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

Gemini 1.5:最高支持100万tokens,超长上下文有什么用?

几天前,谷歌发布了其最新最强的大语言模型Gemini 1.5版本,将能处理的上下文长度提高到100万toke
几天前,谷歌发布了其最新最强的大语言模型Gemini 1.5版本,将能处理的上下文长度提高到100万tokens(词元)。
这是一个相当亮眼的升级,可惜被Sora抢走了风头,但Gemini作为谷歌AI当前最重要的大语言模型,值得我们花点时间了解一下。
超长上下文
Gemini 1.5:最高支持100万tokens,超长上下文有什么用?第1张
如上图所示,Gemini 1.5 Pro版支持的上下文长度是GPT-4 Turbo的近8倍,是Claude 2.1的5倍。
更形象地说,单次可以处理超过70万单词,或3万行代码,或11小时音频,或1小时视频。
更长的上下文带来了更大的技术挑战,和更多的资源消耗,因为模型的每次响应都要考虑最多100万tokens的内容。
补充一点,Gemini 1.5 Pro标准版配备的是128K的上下文,100万上下文仅对少数开发者和企业客户开放,而在内部研究中谷歌甚至测试了1000万上下文。
很明显,谷歌认为这很可能是大模型发展的一个重要方向。
那么这么长的上下文到底有什么用呢?
谷歌团队举了几个例子,可以帮助我们更好地理解。
对大量信息进行复杂推理
Gemini可以理解、推理和识别阿波罗11号登月任务中的具体细节。
上传402页有关这次登月的记录(约32万tokens),然后提问:“这是什么时刻?”并附了一张简笔画。
Gemini可以非常准确地回答:这是阿姆斯特朗迈出“个人的一小步,人类的一大步”。(如下图)
请注意,在对话中并未对背景信息及简笔画内容进行解释,Gemini是完全基于提供的文档内容自行推理出来的。
Gemini 1.5:最高支持100万tokens,超长上下文有什么用?第2张
更好地理解和推理跨模态内容
开发团队上传了一部44分钟的无声电影(约70万tokens),Gemini可以准确地分析电影中的具体情节,甚至包括一些小细节。
如下图,问:找到从某人口袋中掏出一张纸这个情节的具体时间,并说明纸上的关键信息,模型可以非常准确地找到具体画面并理解画面细节。
Gemini 1.5:最高支持100万tokens,超长上下文有什么用?第3张
使用更长的代码块来解决相关问题
开发团队上传了包含几百个三维动画演示的js代码(约80万tokens),Gemini可以按照要求辅助开发工作。
让模型找到指定的动画,并对动画代码进行修改,以增加滑块来控制动画速度,模型最终实现的效果很不错(如下图)。
Gemini 1.5:最高支持100万tokens,超长上下文有什么用?第4张
有了更长的上下文,就相当于有了更强大的解决问题的能力;
如果长下文长度很有限,模型将很难对具体问题进行推理,而只能给出较为笼统的答案。
RAG
对于大模型来说,越来越长的上下文带来越来越强的解答能力。
但对于用户市场来说,这个问题还有其他解法。
让我们拿电脑做个类比:大模型可以理解为是CPU,上下文窗口就是内存。
也许我们不必须无限扩容内存,更多时候可以搭配使用硬盘,从硬盘上检索信息。
用技术语言来说,这叫RAG(Retrieval Augmented Generation,检索增强生成),也是目前很重要的一个研究方向。
通过这篇文章,是否对Gemini 1.5的长上下文有了更多了解呢?欢迎转发分享你的看法。

参考资料:

https://deepmind.google/gemini

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

给TA打赏
共{{data.count}}人
人已打赏
AI资源采购

谷歌放出大招,大模型Gemini Ultra免费试用(附安卓PC进入教程)

2024-2-21 18:01:44

AI资源采购

AI 进化和发展的速度已经超出了大众对它的预期

2024-2-21 18:09:23

Claude、ChatGPT国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

立即体验