​阿里云发布通义千问2.5,赶超GPT-4,千问110B成为全球最强开源大模型

阿里云发布通义千问2.5,赶超GPT-4,千问110B成为全球最强开源大模型

5 月 9 日,通义大模型发布一周年之际,阿里云正式发布通义千问 2.5,模型性能全面赶超 GPT-4 Turbo,成为地表最强中文大模型。同时,通义千问 1100 亿参数开源模型在多个基准测评收获最佳成绩,超越 Llama-3-70B,成为全球开源领域最强大模型。

Open LLM LeaderBoard 截图

技术依然是阿里云在 AI 时代保持领先的最强武器

大模型技术爆发一年多,行业竞争态势激烈而又多变。通义千问走了一条最 " 卷 " 的路,2023 年 4 月问世以来,始终专注于基础模型的技术研发,从初代模型升级至 2.5 版本。相比此前的通义千问 2.1 版,通义千问 2.5 的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%,中文能力更是持续领先业界。

官方提供

同时,通义还发布了 1100 亿参数开源模型 Qwen1.5-110B,该模型在 MMLU、TheoremQA、GPQA 等基准测评中超越 Meta 的 Llama-3-70B,在 HuggingFace 开源大模型排行榜 Open LLM Leaderboard 上进入榜首,再度证明通义开源系列业界最强的竞争力。

通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中,通义千问视觉理解模型 Qwen-VL-Max 得分超越 Gemini Ultra 和 GPT-4V,这款模型已在多家企业落地;代码大模型 CodeQwen1.5-7B 则是 HuggingFace 代码模型榜单 Big Code 的榜首模型,也是国内用户规模第一的智能编码助手通义灵码的底座。

Big Code 截图

一年间,通义还发展出了业界领先的文生图、智能编码、文档解析、音视频理解等能力,企业客户和开发者可以通过 API 调用、模型下载等方式接入通义,个人用户可从 APP、官网和小程序免费使用通义。大会当日,原通义千问 APP 宣布更名为 " 通义 APP",将通义大模型全套能力集于一身,致力于成为 " 通情达义 " 的全能 AI 助手。

坚定开源路线,成为全球最强开源大模型

去年 8 月,通义宣布加入开源行列,随之启动马不停蹄的开源狂飙,沿着 " 全模态、全尺寸 " 开源路线陆续推出十多款模型。目前,通义开源模型下载量已经超过 700 万。

大模型的训练和迭代成本极高,绝大部分的 AI 开发者和中小企业都无法负担。Meta、阿里云等推动的大模型开源风潮,让开发者不必从头训练模型,还把模型选型的主动权交给了开发者,大大加速了大模型的应用落地进程。

为顺应不同场景用户需求,通义推出参数规模横跨 5 亿到 1100 亿的八款大语言模型,小尺寸模型如 0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC 等端侧设备部署;大尺寸模型如 72B、110B 能支持企业级和科研级的应用;中等尺寸如 32B 试图在性能、效率和内存占用之间找到最具性价比的平衡点。此外,通义还开源了视觉理解模型 Qwen-VL、音频理解模型 Qwen-Audio、代码模型 CodeQwen1.5-7B、混合专家模型 Qwen1.5-MoE。

通义 72B、110B 开源模型都曾登顶 Open LLM Leaderboard 榜首。在开放研究机构 LMSYS Org 推出的基准测试平台 Chatbot Arena 上,通义 72B 模型多次进入 " 盲测 " 结果全球 Top 10,创造了国产大模型的先例。

Hugging Face 截图

长期沉淀的良好口碑为通义开源模型赢得一众铁粉,每有开源动作都会早早被开发者 " 蹲守 ",也总能获得生态伙伴第一时间支持。" 开发者的反馈和开源社区的生态支持,是通义大模型技术进步的重要助力。" 阿里云 CTO 周靖人透露,未来通义大模型还会持续开源。

百炼平台 2.0 全面升级,提供大模型最强外挂

百炼平台从模型开发、应用开发到算力底座全面升级,更加易用、更加开放,引入更多模型,还率先兼容 LlamaIndex 等开源框架,企业可自由替换能力组件来适配自身系统。针对当下企业最关注的 RAG 链路,百炼提供灵活开放的企业级检索增强服务,5 到 10 行代码即可搭建 RAG 应用,让大模型拥有 " 最强外挂 "。

2023 年 10 月,阿里云发布了百炼大模型平台,开发者可通过 " 拖拉拽 "5 分钟开发一款大模型应用,几小时 " 炼 " 出一个专属模型,把精力专注于应用创新。本次大会上,百炼升级成为阿里云承载云 +AI 能力的重要平台,提供一站式、全托管的大模型定制与应用服务。升级后,百炼可以更好地支持大型企业和成熟开发者的需求。

" 当下企业应用大模型存在三种范式:一是对大模型开箱即用,二是对大模型进行微调和持续训练,三是基于模型开发应用,其中最典型的需求是 RAG,以企业数据对大模型进行知识增强。围绕这些需求,百炼打造了模型中心和应用中心,提供最丰富的模型和最易用的工具箱。" 周靖人介绍。

对希望直接调用模型进行推理的企业,百炼集成了上百款大模型 api,除了通义、Llama、ChatGLM 等系列,还首家托管百川等系列三方模型,覆盖国内外主流厂商,联动魔搭开源社区,同时支持企业上架通用或行业模型,给开发者提供足够多的模型选择。同时,百炼依托阿里云 AI 基础设施,支持千亿级模型的万级并发推理,充分满足企业需求。

针对需要进一步训练模型的用户,百炼提供了从数据管理、模型调优、评测到部署的全链路模型服务,用户可按需弹性调用算力,无需担心底层架构。训练过程可视化,还可自动评测模型质量,并与其他模型进行对比。

对希望打造 RAG 应用的企业,百炼支持 Assistant API 开发模式,可在百炼上轻松创建知识库,并一键开启知识检索增强(RAG),通过 Assistant API 联合输出。同时,百炼支持 agent 智能体开发,并能实现多智能体协作、对话记忆等高级功能。

据介绍,阿里云百炼的一大重要优势,在于最大程度的开放性和自由度。当下一些大模型应用平台采用封闭链路,不支持替换原子能力,导致企业开发应用时无法引入自研插件,和业务场景充分融合。

百炼率先兼容并优化了 LlamaIndex 等开源架构,拥抱社区生态,支持从本地或不同云端导入 SQL、pdf、excel、ppt 等各种类型数据源,还支持根据需求自由替换精细的能力组件,让 AI 应用丝滑嵌入企业原有业务系统。

周靖人表示,接下来,百炼将继续做对开发者最友好、最开放的大模型平台。阿里云欢迎更多大模型上架,百炼将进一步支持三方模型的微调训练和云上专属部署,帮助大模型生态中的企业提供商业化服务。

开源开放,打造最受中国企业欢迎的大模型

通义正在成为最受中国企业欢迎的大模型。根据最新数据,通义通过阿里云服务企业超过 9 万、通过钉钉服务企业超过 220 万,现已落地 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域。

5 月 9 日,小米旗下的人工智能助手 " 小爱同学 " 与阿里云通义大模型达成合作,强化其在图片生成、图片理解等方面的多模态 AI 生成能力,并在小米汽车、手机等多类设备落地;微博、众安保险、完美世界游戏等企业也宣布接入通义大模型,将大模型应用于社交媒体、保险、游戏等领域。

此前,通义大模型还曾 " 上天入地 " 服务客户,中国科学院国家天文台人工智能组基于通义千问开发了新一代天文大模型 " 星语 3.0",这是大模型首次应用于天文观测领域;陕煤建新煤矿等十余座矿山推出由通义支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。

一直以来,阿里云都强调要成为 "AI 时代最开放的云 ",通过开放的算力平台、开源的自研模型、优质的模型服务,帮助客户抓住大模型时代的机遇。如今,开源开放战略正为阿里云带来新的商业增长。

相关推荐

​AI接近成为神?谷歌AlphaFold 3直接预测生命过程

​AI接近成为神?谷歌AlphaFold 3直接预测生命过程

99

AI接近成为神?谷歌AlphaFold 3直接预测生命过程 当人们还在呼唤 GPT-5、辗转于各种聊天机器人争夺战时,Google 已经把人工智能模型与现实世界的距离又拉近了一大步。 Google DeepMind 负责...

​资本不相信燃油车了

190

资本不相信燃油车了 文 | 价值星球,作者 | 悦芹,编辑 | 唐飞 疫情后首年,汽车行业迎来巨大挑战。 上游,电池原材料磷酸铁锂产能过剩,智能座驾、电池、自动驾驶等新技术亟待突...

​一场短剧引发的全面战争

90

一场短剧引发的全面战争 文 | 正见 TrueView,内容 | 七月,编辑 | TV 短剧的风吹到 2024 年依然强劲。 咪蒙一个寒假靠 2 部短剧收入过亿 、 一周杀青、三个月回款 、8 天狂卷 8 亿 ……在...

​AI创业一年,连电费都没赚回来

​AI创业一年,连电费都没赚回来

108

AI创业一年,连电费都没赚回来 本文来自微信公众号:豹变(ID:baobiannews),作者:宋子豪,编辑:刘杨,题图来自:视觉中国 作为近两年最热的风口,AI 行业的造富神话从未停止。...

​失控的辛巴,出走的徒弟,还有前途未卜的辛选

​失控的辛巴,出走的徒弟,还有前途未卜的辛选

79

失控的辛巴,出走的徒弟,还有前途未卜的辛选 文 | 源媒汇,作者 | 陈庆红,编辑 | 苏淮 再次因不当言论被快手(01024.HK)封号后, 快手一哥 辛巴还会回来吗? 今年 5 月 7 日凌晨 2...

​a16z 合伙人:AI原生应用提高留存的七种方法

​a16z 合伙人:AI原生应用提高留存的七种方法

177

a16z 合伙人:AI原生应用提高留存的七种方法 文 | 乌鸦智能说 对于消费品而言,留存是至关重要,不仅是应用程序的生命线,也是最难推动的指标。正如我在 Snap 增长团队任职期间深刻...

​大厂AI人,奔向香港

​大厂AI人,奔向香港

150

大厂AI人,奔向香港 本文来自微信公众号:字母榜(ID:wujicaijing),作者:马舒叶,编辑:尹磊,题图来自:视觉中国 现在在香港,遍地都是 AI 创业的前大厂人,百万融资不难拿到。...

​取消公办中小学教师编制可不可行?

​取消公办中小学教师编制可不可行?

170

取消公办中小学教师编制可不可行? 日前,一则关于教师招聘采用聘用制导致少人报考,从而不得不取消及减少部分岗位的消息引发大众热议。 事情起因是,4 月份,厦门市翔安区公开...

​你的MBTI,多久变一次?

​你的MBTI,多久变一次?

142

你的MBTI,多久变一次? 青年人的心理健康,是当下最热门的社会话题之一。当困惑普遍流行的时候,追问和思考也正由此萌芽。 在年轻人聚集的 B 站上,学者于悦一共发布了 98 条视频...

​谁正在取代谷爱凌?

​谁正在取代谷爱凌?

142

谁正在取代谷爱凌? 作者 | 不空 万众瞩目的巴黎奥运会越来越近。 酣畅淋漓的体育赛事一向都是街头巷尾不衰的焦点议题,同样也是品牌造势的最佳跳板。 2022 年北京冬奥会上的完美...

​巨头的焦虑:耐克告别「冬眠」

​巨头的焦虑:耐克告别「冬眠」

142

巨头的焦虑:耐克告别「冬眠」 文|潘心怡 编辑|郑怀舟 四月的巴黎,奥运氛围已经到位。 布隆尼亚尔宫前的六尊橙色雕像,定格了运动员竞技时的画面。 这座古老的巴黎建筑,一...