当前位置: 首页 > news >正文

平板网站开发常用的营销方法和手段

平板网站开发,常用的营销方法和手段,WordPress的cookie,企业网站托管排版设计制作目录 实验设置 评估对象 评估方法 结果与分析 针对学科的细粒度分析 GPT-4o vs. Claude-3.5-Sonnet GPT-4V vs. Gemini-1.5-Pro 结论 AI技术日新月异,Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新…

目录

实验设置

评估对象

评估方法

结果与分析

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

GPT-4V vs. Gemini-1.5-Pro

结论


AI技术日新月异,Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:

Claude-3.5-Sonnet是否已经取代OpenAI的GPT-4o成为世界上“最聪明的AI”?

回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准,使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室(GAIR Lab)推出的OlympicArena(奥林匹克竞技场)满足了这个需求。

奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。

OlympicArena是一个真正意义上的AI奥运竞技场。在这里,AI不仅要展示其在传统学科知识上的深度(数学、物理、生物、化学、地理等顶级竞赛),还要在模型间的认知推理能力上展开较量。

近日,研究团队首次提出使用“奥林匹克竞赛奖牌榜”的方法,根据各AI模型在奥林匹克竞技场(各学科)的综合表现进行排名,选出迄今为止智力最高的AI。

在此次竞技场中,研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(如GPT-4o)。

 没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Tubo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

通过这种方式,研究团队希望能够更有效地评估和推动AI技术的发展。

实验结果表明:

  • Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。

     
  • Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。

     
  • 来自开源社区的AI模型性能明显落后于这些专有模型。

     
  • 这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开,有助于防止数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of Thought)提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LMMs,选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型,此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。

对于LLMs,主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外,研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并将它们与强大的GPT-4o和GPT-4V进行比较,以反映最新的模型性能表现。

评估方法

衡量标准 鉴于所有问题都可以通过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下:

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o,同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

根据表格的总体结果,可以观察到:

  • 新发布的Claude-3.5-Sonnet性能强大,达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。

  • 新发布的Gemini-1.5-Pro也展现出了相当的实力,在大多数学科中的表现超过了GPT-4V(OpenAI当前第二强大的模型)。

  • 值得注意的是,在撰写本报告时,这三个模型中最早的发布时间仅为一个月前,反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

尽管GPT-4o和Claude-3.5-Sonnet在整体表现上相似,但两个模型在不同学科上展现了各自的优势。GPT-4o在传统的演绎和归纳推理任务上表现更为出色,特别是在数学和计算机科学方面。相对而言,Claude-3.5-Sonnet在物理、化学和生物学等学科表现优异,尤其在生物学上,它超过了GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro

在Gemini-1.5-Pro与GPT-4V的比较中,也可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而,在数学和计算机科学方面,Gemini-1.5-Pro的优势不明显,甚至不如GPT-4V。

结论

从这两组比较中可以看出:

  • OpenAI的GPT系列:在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练,以处理需要大量演绎推理和算法思维的任务。
     
  • Claude-3.5-Sonnet和Gemini-1.5-Pro:在涉及需要将知识与推理结合的学科(如物理、化学和生物学)时,展现出了更具竞争力的表现。这体现了不同模型在专业领域的优势以及潜在的训练重点,表明在推理密集型任务和知识整合型任务之间可能存在的权衡。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

CVPR‘24 最佳学生论文,从灵感到成稿仅用一个月,源自业余创意!

http://www.hkea.cn/news/80715/

相关文章:

  • wordpress 回收站在哪个文件夹营销方式和手段
  • 垂直型电商网站如何做快速排名软件哪个好
  • 做产品推广有网站比较好的免费自助建站平台
  • 番禺网站建设公司排名百度推广页面投放
  • 沈阳做微网站百度收录刷排名
  • 网站建设与管理技术发展seo是什么意思如何实现
  • 手机游戏开发制作公司最新seo视频教程
  • 网站优化过度被k长春seo排名公司
  • wordpress移除谷歌字体seo网站推广与优化方案
  • 十大景观设计公司排名seo权重查询
  • 水友做的yyf网站十大免费引流平台
  • 东莞公司网站制作百度识图网页版 在线
  • 企业级网站内容管理解决方案网站关键词快速排名服务
  • 影视采集网站怎么做收录关键词是网站seo的核心工作
  • 开发一个网站需要多少时间百度账号免费注册
  • 化妆品网站主页设计长沙关键词优化方法
  • 南阳建网站企业百度推广优化工具
  • 怎样把自己做的网页放在网站里如何做宣传推广营销
  • 七谷网络工作室重庆优化seo
  • 东莞网站建设规范软文内容
  • 项目网站建设业务分析搜索优化的培训免费咨询
  • linux做网站服务器吗关键词上首页软件
  • 西安网站建设行业动态手机营销软件
  • 做推送的网站推荐今日新闻摘抄50字
  • 想在自己的网站做支付优化公司治理结构
  • 国内一家做国外酒店团购的网站网络推广优化是干啥的
  • 手机3d动画制作软件重庆网络seo公司
  • 青海和城乡建设厅网站石家庄自动seo
  • 建站网址是多少深圳市seo上词多少钱
  • 应用网站开发创建网站花钱吗