Claude、ChatGPT国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

4个GPT-4 Vision的开源替代方案

这篇文章《Discover 4 Open Source Alternatives to GPT-4 Vision》介绍了 4 个 GPT-4 Vision 的开源替代方案:

1. LLaVa(大型语言和视觉助手)

网页链接

LLaVA 代表了一种创新的、从头到尾训练的大型多模态(multimodal)模型。它融合了视觉编码器和 Vicuna,旨在实现通用的视觉和语言理解。LLaVa 在模仿多模态 GPT-4 的功能方面表现出色,并在科学问答(Science QA)方面达到了新的最高精准度。

LLaVA 是一款仅限非商业用途的研究预览版产品。使用该产品需遵守 LLaMA 的模型许可、OpenAI 生成数据的使用条款以及 ShareGPT 的隐私政策。用户在使用本服务时,需同意其为研究预览版,仅限非商业用途。该服务只提供有限的安全保护,可能产生冒犯性内容。不得将其用于任何非法、有害、暴力、种族主义或性相关目的。此外,服务可能会收集用户对话数据,用于未来的研究。

2. CogAgent

网页链接

CogAgent 是一个基于 CogVLM 进行改进的开源视觉语言模型(Visual Language Model)。CogAgent-18B 模型包含了 110 亿视觉参数和 70 亿语言参数。

CogAgent-18B 在 9 大经典的跨媒介基准测试中表现卓越,这些测试包括 VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 等。它在处理像 AITW 和 Mind2Web 这样的图形用户界面(GUI)操作数据集时,性能远超现有模型。

3. 通义千问-VL 大型视觉语言模型 (Qwen-VL)

网页链接

Qwen-VL (Qwen 大型视觉语言模型) 是阿里巴巴云推出的大型模型系列 Qwen(简称 Tongyi Qianwen)的多模态版本。Qwen-VL 能够处理图像、文本和边界框这些不同类型的输入,并输出文本和边界框。Qwen-VL 的主要特点有:

* 卓越的性能:在包括零样本 (Zero-shot) 图像描述、视觉问答 (VQA)、文档视觉问答 (DocVQA) 和图像定位 (Grounding) 等多个英语评估指标上,Qwen-VL 显著优于其他相似规模的开源大型视觉语言模型。
* 支持多语言文本识别的视觉语言模型:Qwen-VL 不仅支持英语和中文,还能处理多种语言的对话。特别在图像中的中英双语文本识别方面,实现了端到端的高效处理。
* 多图交织对话功能:这项功能使得 Qwen-VL 能够处理多张图像的输入和比较,用户可以针对这些图像提出相关问题,甚至进行多图像串联的故事叙述。
* 第一个支持中文图像定位的通用模型:Qwen-VL 能够通过开放领域的语言表达,在中文和英文中识别和标记图像中的边界框。
* 细腻的识别和理解能力:相较于其他开源视觉语言模型目前使用的 224*224 分辨率,Qwen-VL 的 448*448 分辨率更有助于精细化的文本识别、文档问答和边界框标注。

4. BakLLaVA

网页链接

BakLLaVA 1 是一种新型 AI 模型,它基于原有的 Mistral 7B 模型,并融合了最新的 LLaVA 1.5 架构技术。在这个初始版本中,开发者们展示了这一模型在多个性能测试中相较于 Llama 2 13B 模型有更出色的表现。你可以在他们的GitHub 仓库中找到并试用 BakLLaVA-1。目前,他们正努力更新这一模型,使用户能更容易地对它进行个性化调整和数据分析。

BakLLaVA-1 是完全开放源代码的,但它的训练过程中使用了特定的数据集,包括 LLaVA 的语料库,这些数据并不适合商业用途。目前,BakLLaVA 2 正在研发中,它将使用一个更大的、适合商业应用的数据集,并采用一种创新的架构设计,以超越现有的 LLaVA 方法。BakLLaVA-2 的出现预计将消除 BakLLaVA-1 目前面临的一些使用限制。

原文:网页链接

给TA打赏
共{{data.count}}人
人已打赏
ChatGPT

ChatGPT添加“我愿意支付 $xxx 的小费以获得更好的方案!”

2023-12-28 18:36:00

ChatGPT

ChatGPT辅助论文文献综述,再加这个AI工具找论据(亲测有效)

2024-1-6 20:20:47

Claude、ChatGPT国内镜像版

支持 o1-preview & GPT-4o Claude 3.5 Sonnet
无需魔法 价格便宜 无降智版本 官网UI隐私聊天

为什么还要每月支付20美元?现在就来体验更便宜、更方便的AI助手!

立即体验