发布日期:2024-10-08 21:43 点击次数:75
OpenAI向好意思国专利和商标局请求了“Voice Engine”商标,该商标概述了一套包括软件在内的语音有关本事,包括用于创建数字语音助手、处理语音敕令、从文本指示生成音频以及维持多谈话语音识别和翻译的软件。这些本事成就OpenAI已有的Whisper语音识别模子和文本到语音API基础上插吧插吧网,意味着OpenAI向失掉者提供透澈集成的造谣语音助手迈出了贫寒一步。
情色调教本事破裂 1.【小米推出SDXS花式:单个GPU每秒生成百帧SD图片】
小米发布了旨在大幅增强SD图片生成速率的花式SDXS。该花式给与了学问蒸馏本事来简化U-Net架构和图像解码器。同期,还引入了一种立异的单步考试本事,通过特征匹配和收获蒸馏来考试扩散模子。基于这些优化要领,小米开拓了SDXS-512和SDXS-1024这两款模子,在单个GPU上分裂能达到大要每秒100帧和每秒30帧的处理速率。
2.【FlashFace杀青可控换脸,精准保留东说念主脸特征】
香港大学聚拢阿里巴巴盘问团队发布了最新的AI换脸花式FlashFace。FlashFace能精准地保留参考东说念主脸的特征,包括纹身、疤痕等。不管是简直东说念主物仍是造谣变装,FlashFace都约略准确地捕捉到他们独到的面部特征,同期还具有多变装夹杂的材干,不错将多个参考变装的特征和会在一皆,创造出全新的变装形象。除了保留和夹杂特征外,FlashFace还具备可控换脸的功能。用户不错通过诊治参数,杀青对变装面部特征的替换和修改,进一步舒服个性化需求。
3.【MoneyPrinterTurbo重磅开源,全自动化短视频生成】
短视频生成器具MoneyPrinterTurbo重磅开源,只需提供一个视频主题或要害词,就不错全自动生成视频案牍、视频素材、视频字幕、视频配景音乐,然后合成一个高清的短视频。MoneyPrinterTurbo维持多种视频尺寸,包括竖屏(9:16)和横屏(16:9),而且维持生成中语和英文多语种视频案牍。
4.【Be Yourself:有界详细力破解文生图指示词混浊难题】
特拉维夫大学盘问者提议了Be Yourself这一模式,看成文生图期骗中指示词意见相互混浊这一表象的陆续决策。当指示词中包含多个复杂元素时,传统的处理模式经常难以保握每个元素的独到性,导致生成的图像中各个元素之间的界限变得磨叽,失去了原有的独到性。Be Yourself给与了有界详细力的模式,不错灵验退守元素间不良的信断交叉,从而在处理包含多个复杂元素的情况时,更好地保握每个元素的独到性。
5.【StreamingT2V模子问世:杀青高质地长视频领导生成】
PicsArt AI推出一个文本到视频生成模子StreamingT2V,旨在陆续现存模子仅能生成16帧或24帧的高质地短视频,而当在生成长视频时则会质地下落、场景调遣不一致和视频停滞等的问题。StreamingT2V通过引入条目详细模块(CAM)和外不雅保握模块(APM)以及赶紧夹杂模式,杀青了长视频(最长达1200帧、时长2分钟)的领导生成,确保了时间上的连贯性和与文本姿色的详细对皆。
6.【立异奇智发布奇智孔明工业大模子2.0,参数目级破裂750亿】
立异奇智举办奇智孔明工业大模子升级发布会暨大模子本事期骗研究活动,发布奇智孔明工业大模子2.0版块(AInno-75B)及多款大模子原生期骗。本次升级后的奇智孔明工业大模子达到了750亿以上的参数目级,不仅自如了其在工业学问问答、数据分析、代码生成、任务编排等方面的材干,更进一步增强了海量学问陆续、复杂逻辑推理、长历程任务编排、Agent智能体以及更多工业模态的生成材干。
投融资信息 1.【X Square完成千万元天神轮与天神+轮融资,布局机器东说念主通用大脑】
具身智能大模子初创企业“X Square”近期贯穿完成了由联念念之星投资的数千万元东说念主民币的天神轮融资,和由九合创投领投的数千万元东说念主民币的天神+轮融资,一苇成本担任X Square独家财务照料人。X Square聚焦于“通用具身大模子”的研发,为机器东说念主提供通用大模子底座,想法是为机器东说念主构建一个通用的大脑-小脑系统插吧插吧网,提供从感知到动作的端到端材干。