神思电子取得一种虚拟数字人视线追随交互方法专利,使虚拟数字人与应用软件界面更加自然融合
金融界 2024 年 8 月 4 日消息,天眼查知识产权信息显示,神思电子技术股份有限公司取得一项名为“一种虚拟数字人视线追随交互方法”,授权公告号 CN114265543B,申请日期为 2021 年 12 月。
专利摘要显示,本发明公开一种虚拟数字人视线追随交互方法,本方法通过深度神经网络实时生成具有透明背景的、语音驱动其嘴型和姿态的虚拟数字人,然后应用在后,视频在前,点击透传,边缘融合,最后采用响应状态和跟随状态两种方式实现虚拟数字人与应用及用户的交互,响应状态下,确定用户意图及目标控件后,虚拟数字人响应控件在屏幕中的方位指令从而转动身体部位或生成相关表情,其面部、眼睛、手或身体的作用方向是应用界面中的目标控件;处于跟随状态时,虚拟数字人根据摄像头的人像检测信息,将自己眼睛及头部状态跟踪交互用户进行相应运动。本发明使虚拟数字人与应用软件界面更加自然融合,根据应用内容及用户状态使虚拟数字人与用户之间交互自然。
本文源自金融界
百度推出数字人视频聊天App「文小言」;海螺AI测试「悬浮球」功能……|本周模型与应用
撰文:张司钰、江睿杰
编辑 :吴洋洋
本周模型与应用
OpenAI发布GPT 4o mini,加入小模型竞争;
百度推出数字人视频聊天App「文小言」;
海螺AI测试「悬浮球」功能;
Mistral发发布两款新模型,这次注重数学能力;
Cropin Technology发布解决方案预测农作物的未来产量。
本周模型与应用
OpenAI发布GPT 4o mini,加入小模型竞争
7月19日,OpenAI发布GPT-4o更小参数量的简化版本——GPT-4o mini。即日起,ChatGPT的用户可以免费使用GPT-4o mini而非GPT-3.5 Turbo了,企业用户也将在下周获得GPT-4o mini的权限。
OpenAI称,GPT-4o mini每百万token的输入成本仅为15美分,每百万token的输出成本为60美分,相较于GPT-3.5 Turbo降低了超过60%。
而在性能上,OpenAI称GPT-4o mini在大规模多任务语言理解(MMLU)测试中取得了82%的得分,高于竞品的Gemini Flash(77.9%)和Claude Haiku(73.8%),Gemini Flash和Claude Haiku分别是Gemini和Claude的小模型。尤其在数学能力上,OpenAI声称GPT-4o mini表现更好,在MGSM数学推理能力基准测试中,GPT-4o mini、Gemini Flash、Claude Haiku分别有87.0%、 75.5%和71.7%的正确率。
百度推出数字人视频聊天App「文小言」
百度近日上线了一款名为「文小言」的 AI 数字人社交App,用户在该App中不仅可以文字聊天,还可以直接和虚拟人视频对话。
和其他AI聊天产品相比,该App最大的区别在于其界面中呈现大幅仿真数字人形象,试图塑造真人在线视频聊天的体验。数字人有自己的年龄、地方、性格、职业的特色设置,不仅能呈现面部表情,也支持身体语言等复杂动作。用户能通过手写、语音、发送图片等方式与其互动,数字人则以语音、文字及肢体语言回应。
不过实测体验中,数字人在肢体动作上仍有一定的僵硬感。目前该App也不支持用户创建自己专属的数字人,仅可使用官方预设的数字人。
海螺AI测试「悬浮球」功能
有报道称海螺AI正在测试「悬浮球」功能。该App是由AI独角兽MiniMax研发的智能聊天机器人,支持文本、音频和图像等多模态互动。
此次新推出的「悬浮球」功能允许用户在操作其他应用时,无需切换界面,即可通过悬浮在操作界面最上层的「悬浮球」图标随时与海螺AI交互。例如在阅读长篇文章时,用户可直接通过悬浮球让海螺AI总结要点;遇到不认识的物品,拍照后通过悬浮球也能快速了解相关信息;此外,用户还可以直接利用悬浮球与海螺AI语音对话。
「悬浮球」功能相当于一种插件,某种程度上提供了类似于操作系统级的AI体验,这一赛道是微软、苹果等巨头正在争夺的阵地。MiniMax成立于2021年,今年4月时其估值已超过25亿美元。
Mistral发发布两款新模型,这次注重数学能力
7月16日,法国AI初创公司Mistral AI发布了两款7B级别的AI模型,分别是代码生成模型Codestral-Mamba-7B和专注于数学推理的Mathstral-7B模型。
Codestral Mamba 7B模型是面向程序员和开发人员的代码生成工具,具有更快的推理速度和更长的上下文处理能力。该模型能够处理高达25.6万个token的输入,是OpenAI GPT-4o模型的两倍。
Mathstral 7B模型则是专为数学相关推理和科学发现而设计,拥有32K的上下文窗口。Mistral AI声称,该模型在数学推理方面的表现超越了所有同类模型,尤其是在需要更多推理时间的计算基准上,能够获得更好的结果。
目前,这两款新模型均在其la Plateforme API上免费使用,并通过GitHub和HuggingFace提供源代码,以便开发人员可以修改和部署。
一个月前,这家成立于2023年的公司刚刚完成了约合6.4亿美元的B轮融资,估值达到64亿美元。此前,Mistral AI已经获得了累计超过5亿美元的三轮融资,投资者包括英伟达、微软、Salesforce等科技公司,以及Lightspeed和Andreessen Horowitz等硅谷风投。
Cropin Technology发布解决方案预测农作物的未来产量
7月17日,农业科技公司Cropin Technology Solutions推出了一款名为Sage的实时智能解决方案,该方案能够预测13种关键作物的未来产量。据Cropin提供的数据,全球农业土地面积达到48亿公顷,该公司的技术将生成式AI与40年的气候数据、地球数据和知识图谱相结合,逐国解码每种作物,从而能够预测特定作物在本季、明年或未来5年的表现。
Cropin成立于2010年,总部位于印度班加罗尔。该公司开发了全球首个农业行业的云平台Cropin Cloud,通过AI、遥感、数据分析等技术,帮助客户从农场到餐桌的各个环节实现数字化运营。
Cropin的Sage解决方案是与Google的Gemini模型合作开发的。Cropin的创始人兼首席执行官Krishna Kumar表示,随着世界人口激增和食品安全问题增加,生成式AI和LLM有潜力在受气候影响的世界中转变现代农业,从而帮助从消费品制造商、种子制造商到金融机构和政府等一系列客户规划作物生产。
-END-
夸克推出「超级搜索框」,知乎也发布了AI搜索「知乎直答」……|智能周报
6问世界人工智能大会|WAIC现场
萝卜快跑接单量赶上人类司机了,但它只是Robotaxi市场10多个玩家之一|新皮层
相关问答
有哪些手机 电子 书阅读 软件的 阅读速度比较快?这类的软件其实很多,现在基本上的大平台都有数字阅读,电子书整体来说阅读虽然方便,但是也是很伤眼睛的,我平时阅读电子书也很多,就推荐那么几个吧!第一款...这...
大数据可视化 软件 和工具有哪些?说实话前面高赞的答案,推荐的大多数都是国外的数据可视化应用平台或者是需要编程基础的工具,你们让普通的用户咋用呀?日常工作当中根本没法快速上手,或者个人...
【 数字 信号和模拟信号有什么特点和区别】作业帮[最佳回答]信号数据可用于表示任何信息,如符号、文字、语音、图像等,从表现形式上可归结为两类:模拟信号和数字信号.模拟信号与数字信号的区别可根据幅度取什...
工商银行的密码器怎么用?-其他问题知识问答-我爱卡[回答]工商银行的密码器使用方法是:1、网银转账时,在输入动态密码的页面,用户可以长按密码器上的红色按钮开机,输入6位开机密码后,输入收款账号后6位和转...
动漫制作 软件 手机版的有哪些?电脑版的有哪些?二维动画:1、SimpleSVGSimpleSVG是由中国人自主开发的一款矢量动画创作功能软件,基于目前最新的矢量图形标准――SVG(可扩展矢量图形),提供了一个真正所见即...
南昌大学 软件学院 怎么样?设有哪些专业? 申请方[回答]~接下来我为大家简单介绍一下我们南昌大学的软件学院开设的专业以及研究情况专业设置:信息安全-本科、软件工程-本科、计算机网络技术-专科、软件技...
东华理工大学 软件学院 怎么样?设有哪些专业? 申请方[回答]~接下来我为大家简单介绍一下我们东华理工大学的软件学院开设的专业以及研究情况专业设置:软件工程、网络工程、数字媒体技术、物联网工程软件学院...
数字电路 数字量 字母是什么意思_作业帮[最佳回答]数字量的字母代表数字变量,其值只有三种状态,而不像模拟量有可能是任何值:1,代表逻辑1,即高电平;0,代表逻辑0,即低电平;Z,代表开路,即高阻态.初...
长安大学 电子 信息工程怎样?首先给你说一下什么是电子信息工程,电子信息工程包括电子和信息两方面。他是第三次工业革命开创的信息时代的技术基础。我们每天都要与手机电视和互联网打交道,...
有什么听歌 软件 值得推荐?很多人看到这个问题,一般都会想到“QQ音乐”、“网易云音乐”、“虾米音乐”、“酷狗音乐”、“酷狗音乐”等等这些耳熟能详能音乐软件,诚然它们曾经给我们带来...