专注【中高档】餐饮家具定制
当前位置: 主页 > 企业动态 > 常见问题
史上最卷12月:全球15家Top级AI公司疯狂上新
来源: 网络 / 发布时间:2024-12-19 09:34:35 / 浏览次数:

  首先智谱在11月29日发布了Auto-GLM的手机版和电脑版。半个月之后的12月12日,Auto-GLM又更新了一个版本。

  在大公司里,字节和腾讯是12月最卷的大厂(通义千问在11月28日发布了QWQ模型)。

  这次的I2V-01-Live更新了二维插画的动态呈现方式,让动画稳定性和细腻表现力有了增强★。一张图+一句线D插画转化为动态视频。

  Aurora已经直接集成到了Grok中★★★,这是一个自回归混合专家模型(MoE),在混合文本和图像数据集上完成了训练。除了图片生成★,Grok还有编辑能力,用户可以直接在生成的图像上进行修改★★,这一功能也将上线X★★。

  多模态/视觉类的API都非常贵,号称视觉能力对标GPT-4o mini模型的GLM-4V-FlashAPI免费,也称得上是真卷★。

  Meta也在12月7日发布了Llama 3.3,在性能上开卷。据说现在70B的版本就能实现以前405B的性能★★★。

  Day4:发布生产力工具Canvas★,该功能允许用户与ChatGPT合作写作和编码★★。

  官方将Llama 3★.3的进步归功于新的对齐过程和在线强化学习技术的进步。

  相比海外★,国内厂商们的“卷”势更早出现★★。各家的方向从模型卷到产品,离不开视觉和生产力两个话题★★★。

  Day3:Sora登场,接入了新模型Sora Turbo的Sora,最高上限支持生成1080p★★、20秒视频★★,支持横屏竖屏各种常见尺寸★。

  六小虎中的MiniMax、阶跃星辰★★、智谱AI,有的卷模型,有的卷Agent应用。Deepseek和腾讯直接上新并开源了模型。

  再往前的12月5日,豆包增加了AI生成文字图功能★。也就是说★,用户现在可以在提示词中加入文本要求,生成带有指定文字的图片,做海报、做表情包都能用。

  Day7★:推出了Projects In ChatGPT功能,可以将ChatGPT的各种功能整合至一处★★,便于用户创建并管理各类项目。

  视频生成一定是MiniMax今年的亮点之一。之前,MiniMax的亮点几乎全部集中于Talkie★★,但海螺视频的上线打破了这一印象。

  Runway则在前一天★★★,也就是12月6日更新了自己的act-one功能★。这个新功能允许用户将自己拍摄的表演动作或声音直接“套用”到已有的视频角色上(包括AI角色)。

  最新开源的DeepSeek-VL2(12月13日发布)是一个专家混合(MoE)语言模型。

  大厂之外★★,大模型六小虎中的三虎——智谱AI、MiniMax和阶跃星辰也在本月上新。

  DeepSeek-VL2比一代DeepSeek-VL多一倍优质训练数据★★★,引入梗图理解、视觉定位★★★、视觉故事生成等新能力★。视觉部分使用切图策略支持动态分辨率图像★★,语言部分采用MoE架构低成本高性能。

  12月2日晚,即梦上新2.1模型。这次的模型突破体现在中文文字可以稳定生成★★,当然也支持英文★★。

  获得内测资格的账号每日可免费生成十支视频。内测申请通过后,选择“视频生成”功能,上传一张图片,输入提示词,并添加运镜★★★、分镜信息,就能生成短视频。

  腾讯混元这个月最大的动作★★,就是正式上线日,腾讯不仅上线亿参数的模型,还把它开源了★★。

  12月的智谱在模型和应用两端发力。首先是多模态模型——GLM-4V-Flash上线了智谱的开放平台,可以免费调用。

  从场景上看★★★,它支持包括新闻播报、聊天陪伴、有声读物★★★、在线教育、智能硬件★★★、汽车等语音交互技术需求★★。

  GLM-4V-Flash模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等图像处理功能。

  但这次的Patchwork让MJ在玩法上有了大不同,从一个只能一个人用的图片生成工具★★★,变成了一个可以让大家一起玩起来的AI艺术创作产品。

  12月12日凌晨,谷歌发布了Gemini2.0,声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”

  从官方介绍来看★★,Step-1o 支持语音、文本等混合形式的输入和输出,能理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。它还能够通过自学和模仿不断提升回复质量★★,提供解决问题的专业建议。

  NBA球队最新市值排名★★★:勇士91★.4亿领跑湖人第3 篮网57亿飙升至第4

  刺杀俄三防部队司令嫌疑人被捕★★★!是乌兹别克斯坦公民★★★,受乌克兰情报部门招募★★,被许诺10万美元和赴外国生活

  几乎在官宣之后不到半小时,Gemini 2.0词条的热度在Twitter上就已经掉到了第8。在不断下降的过程中,网友们还在分享Sora的鬼畜视频,以及Hunyuan、Hailuo★★★、Kling与Sora的能力对比★。

  不同于某些AI公司只强调功能或者模型的偏好,这次DeepSeekV2.5-1210模型更新后,它的Chat窗口呈现出两个Tag——“深度思考”和★“联网搜索”★。

  这是一个允许多人在线共同创建出一个世界的实验性功能★★,所有参与者将在一块白板画布上共同创作(有点像Canva和Figma的共同编辑)。

  目前★★★,模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,API同步开放内测申请。

  周五(12月13日)阶跃星辰发布了端到端语音大模型——Step-1o 。

  这一模型可以支持图片、视频和音频等多模态的输入和输出,速度也是1★★★.5Pro的两倍,还能直接调用Google Search、代码执行等工具。

  本内容为作者独立观点,不代表虎嗅立场★★。未经允许不得转载★★,授权事宜请联系

  Day2★:介绍强化微调(Reinforcement Finetuning)功能,即通过少量数据让模型在专业领域到达专家水平。

  据“四木相对论★★★”统计★,这场年末上新的★“战局★★★”★★,至少有15家全球Top级AI公司参与★,上新了20+个功能。

  之前Midjourney的更新基本都围绕着图片生成的能力,比如支持AI修图、支持新画风的模型等等。

  用户打开AutoGLM后,可以通过语音发指令★,让智能体接管自己的手机★,并在可操作的App上自动执行购买外卖,订高铁票、目的地导航等任务。

  在海外,最受关注的无疑是OpenAI开启12天大放送,期货Sora终于兑现。

  根据DeepSeek提供的评测对比,DeepSeek-VL2在相似或更少的激活参数下实现了最先进的性能。

  这些3D场景都能在浏览器中实时渲染★,还能实现可控的相机效果★,可调节的模拟景深。

  11月初★★★,它宣布最新的MoE模型“混元Large★★★”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源★★。12月又上新文生视频能力,正式加入了卷视频模型的队列。

  国内AI圈另一无法忽视的角色——DeepSeek★★,在短短半月内进行了两次上新★。

  经过★“四木相对论”测试,更新之后,Auto-GLM支持的应用更稳定★★。同时它还增加了自定义高频短口令,快速触发常用任务等功能。

  在这个12月,前者在豆包和即梦上先后更新功能,后者一下子开源了视频生成模型。

  12月3日,李飞飞创立的World Labs首次官宣了“空间智能★★★”模型,利用一张图就能生成一个3D世界★★。

  据官网介绍,这次更新通过Post-Training全面提升了模型各方面能力表现,包括数学、代码、写作、角色扮演等。同时,新版模型优化了文件上传功能,并且全新支持了联网搜索★,可以服务各类工作生活场景★★。

  这一功能允许用户自由选择角色★、物品、服装和场景元素,根据需求构建特点镜头。同时, Pika 2.0支持多人在同一画布上协作★★。

  智谱CEO张鹏在发布会现场的AI发红包操作一度刷屏,“四木相对论”也复刻成功了★★★。

  2024年的最后一个月,全球AI圈好像约好了,一起开启年底狂卷模式,批量发布新品★★★。

  这可能也是因为Gemini 2.0的更新虽然好评很多,但从表述上看起来很★★★“常规★★”:更快速的响应、支持联网搜索、新上线的“深度研究”功能支持多轮复杂推理★、代码生成增强、第三方工具调用能力补充。

  线月才刚刚过半,接下来,AI圈的上新还会继续★★★。毕竟,OpenAI的年末发布刚刚走过一半★★★。字节也会在下周举行大会★★,强调豆包、即梦的更新。

  搭载鲲鹏超能混动C-DM 奇瑞风云T11PT车下线PLUS Ultra官图发布 预计12月上市

  它在指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域的水平都超过了七月份发布的Llama 3★★.1 405B★★。在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,它的成绩也和Llama 3.1 405B比较接近。

  另外,DeepSeek V2.5系列的最终版微调模型——DeepSeek-V2.5-1210也在2月10日更新。