如果你也对语音交互感兴趣,这里有份书单可以参考
在完成 《2018,语音交互何去何从》一文的过程中,出于兴趣收集了一些语音交互设计相关的文档及书籍资料。
其中有专门针对对话式交互设计的,有交互设计与机器学习结合的,还有一些与 VUI 设计相关的拓展阅读内容。
如果你对语音交互同样感兴趣,希望这份资料单能为你提供帮助。
两份文档
1、Google 对话式交互规范文档
以「为什么机器人无法像人类一样对话」作为引导,文档大致分为三部分:
对话式 UI(Conversational UI)基础概念,包括轮次、原则、表达方式、语义语境的定义等等;对话式 UI 的设计方法,包括具体的设计步骤、遵循的原则、走查清单、设计工具包等等;实践案例及问题的解决方法,包括如何适应不同用户的说话风格、口语化表达的修复、获取用户信任等等。Google 还专门制作了一个关于对话交互的小短片
地址:https://developers.google.com/actions/design/
2、Amazon 语音交互设计规范文档
与 Google 的文档相比,Amazon 的文档相对「务实」,没有太多抽象的定义(类似「格里斯原则」这类只看名字完全不知道内容的原则),以目的引导执行,从最直接的确定对话目标、撰写脚本开始。
Alexa 的特点之一是超过 1.5 万种「技能」(Skill),出于帮助设计者更好的为 Alexa 开发的目的,文档内容会倾向于技能的构建。同时由于 Amazon Echo Show 系列带有屏幕的产品上线,文档中也会涉及一些与文字视觉相关的交互原则。
去年 5 月上市的 Echo Show
Amazon 的设计规范分为五部分:设计流程、用户表达、Alexa 的回应、走查清单以及词汇表。
设计流程包括开发前的设计工作,如确定对话目标及用户、撰写脚本、制定流程、准备开发等等;用户表达部分则是让 Alexa 了解用户的意图的一些方法和原则,如在构建前完成设计、如何处理用户的过度回答等等;Alexa 的回应部分是 Alexa 回应用户的方法和原则,共有 14 项,包括保持对话简洁、使用会话标记等等,并包括一部分与文字视觉相关的交互原则;走查清单共 5 项,包括确保用户从技能中受益、确保用户可依找到技能、使用自然语言交流等等;词汇表则为文档中的名词定义。地址:https://developer.amazon.com/designing-for-voice
三本设计类书籍
3、《Designing Voice User Interfaces : Principles of Conversational Experiences》
作者 Cathy Pearl 是 Sensely 的用户体验总监,拥有 17 年语音交互设计经验,在 Nuance 和微软任职期间设计过多款 VUI 系统。
书籍的内容包括语音界面的基本设计原则、虚拟角色的构建、语音识别技术、用户测试,以及设备实例等等。偏向于实践,图文丰富,出版于 2016 年 12 月,美亚评分 4.3。
中文版已于上个月出版,译名为《语音用户界面设计:对话式体验设计原则》,译者为阿里设计师,各大电商均有售。
4、《Machine Learning for Designers》
作者 Patrick Hebron 是纽约大学信息交互项目(Interactive Telecommunication Program,偏向艺术、科技媒体融合的传播类项目)的客座科学家及兼职教授,曾为 Google、Oracle、BMW 服务。
与上一本《Designing Voice User Interfaces》同样都是 O’Reilly 出品,不过是数字出版物。发布于 2016 年 6 月,是一本 71 页的小册子。
从机器学习是什么、为其进行设计的不同之处讲起,包括为机器学习系统进行设计会遇到的挑战,以及如何与机器学习平台协作。
从 34 页开始为「Creating Dialogue」(创建对话),包括如何开始对话、话术设计原则等等。整本的内容相对简单,很适合初心者。
这本小册子的最后提供了不少资源链接,比如 arXiv、Reddit、Hacker News 等,以及一些机器学习、数学线上课程推荐,机器学习平台和开源工具等等。
Patrick Hebron 的个人网站上还有不少与机器学习设计相关的内容,地址:http://www.patrickhebron.com/。
5、《Sonic Boom》
作者 Joel Beckerman 是声音解决方案公司 Man Made Music 的创始人,曾为迪士尼、AT&T 等服务。同时也是一名作曲家,曾与 John Legend, will.i.am, Moby 等音乐人合作。
从声音的意向、影响,声音与品牌的关联、实际案例到如何创造声音体验,《Sonic boom》的内容偏向产品音效设计及声音品牌化。对于构建 VUI 的个性、如何与产品契合等有不错的借鉴意义。
中文版《音爆》已于 2016 年出版,各大电商平台有售。
两本技术类书籍
6、《解析深度学习:语音识别实践》
理解语音识别技术的中文必读书之一,作者是前微软研究院首席研究员、语音识别及深度学习资深专家俞栋,以及人工智能、机器学习、语音语言信号处理专家邓力。
内容相对偏理论,覆盖了大部分语音识别知识,如果对语音识别底层技术感兴趣可以参考学习。
7、《统计自然语言处理》
理解 NLP(Natural Language Processing, 自然语言处理)的中文必读书之一。语音识别是将语音转换为文字,NLP 则是让机器理解理解文字背后的意义。能不能利用 NLP 技术理解用户语言?这项技术现在能做到什么程度?
技术类书籍的作用就是在进行语音交互开发、设计前,帮助把握技术的边界。
内容完备(且非常厚),从基础概念、预备知识到底层技术,以及机器翻译、篇章分析等应用方向的具体解决办法都包含其中,对 NLP 技术感兴趣可以深入阅读。
(一些好玩的)其他内容
1、《Best Practices in Designing Speech User Interfaces》
微软平台 2004 年发布的语音交互设计文档,充满年代感,比如第一课是「你永远都别想拿到足够的数据」(笑)
左侧的《Heuristics: Lessons in the Art of Automated Conversation》中有一些设计自动对话基础原则可以借鉴,如制造真实、让用户有良好体验等等,后面大多是使用微软语音识别平台的方法,总之颇具考古价值。
地址:https://msdn.microsoft.com/en-us/library/ms994646.aspx
2、《Voice User Interface Design》&《Voice Interaction Design:Crafting the New Conversational Speech Systems》
这两本都是 2004 年附近出版的 VUI 方向书籍,针对的是早期 IVR(Interactive Voice System,交互式语音系统),不过里面的一些设计原则在今天依旧适用,前文提到的《Designing Voice User Interfaces:Principles of Conversational Experiences》就引述了不少这两本书的内容。
3、网络课程
虽然直面语音交互设计的课程几乎没有,但还是有一些与语音识别相关的课程,可以帮助技术入门。英文无障碍可以选听爱丁堡大学的 ASR 课程,科大讯飞的 AI 大学有语音方向的中文课程。
爱丁堡 ASR 课程地址:http://data.cstr.ed.ac.uk/asr/2017-18/asr-lec01.html
讯飞 AI 大学地址:http://ai.xfyun.cn/college/index
4、arXiv
26种口音带感情,比iPhone还轻,深度体验讯飞有声书
智东西(公众号:zhidxcom)作者 | 程茜编辑 | 漠影
电子书的出现解放了人们的双手,可以将大部头图书装进小小的手机或电子阅读器中,但很多场景下,嘈杂的外部环境或者无法腾出的双手,使得人们的阅读体验并不好,如今,讯飞有声书正在改写快节奏时代下的电子阅读器,让其从“阅”延伸到“读”。
2022年年底,讯飞有声书腾空出世,将人工智能技术与墨水屏相结合,通过语音合成技术让AI主播与电子书相结合,再加上台历功能和翻译助手,让电子阅读器的适用场景不断外延。
生活方式的改变正使得人们采用数字化方式阅读的频率增加。中国新闻出版研究院发布的第十九次全国国民阅读调查成果显示,2021年成年国民数字化阅读方式的接触率为79.6%,包含网络在线阅读、手机阅读、电子阅读器阅读、Pad阅读等。
然而,与这一现象相反的是,电子阅读器曾一度沦为压泡面神器,其“阅读”属性并没有被完全利用起来。
那么,同为电子阅读器,讯飞有声书的优势是什么?它将如何颠覆电子阅读器这一品类?在此背景下,智东西深度体验了讯飞有声书并与科大讯飞产品总监郭晓天进行了深入交流,试图找到这些问题的答案。
一、26位AI主播:支持方言和外语,锁屏合盖也能无缝衔接
不同于常见的电子阅读器,讯飞有声书采用的是上下翻盖设计,屏幕大小为6英寸,与iPhone 14大小相当,不过其重量为155g,比约170克的iPhone 14更轻,小巧轻便的设计使得女生单手握持也并不费力。
从屏幕面积来看,讯飞有声书为154mm x 107mm,大小约为iPhone 14的1.5倍,iPhone 14的面积是146.7mm x 71.5mm。
郭晓天谈道,这与他们关注的用户需求相契合。讯飞电子墨水屏设备的屏幕大小除6英寸的有声书外,还有7.8英寸、10.3英寸和13.3英寸的办公本,其中大屏适合记录,而6英寸更适合以阅读需求为主的屏幕大小。
讯飞有声书最突出的特点就在于“有声”,这也使其区别于此前其他电子阅读器。
我打开一本书后,轻按页面中部就会出现“听”的功能按钮,点击后即可进入AI听书页面,还能够调节听书进度、倍速播放等。
讯飞有声书内置了26位AI主播,根据音色、方言、童声、外语不同种类进行了区分。
例如,当我阅读历史相关书籍时,可以选择成熟稳重的“关山”主播,他的音色沉稳与历史书籍的契合度更高,其他诸如人文类、小说等用户也可以找到相应的主播声音。
并且在听书的过程中,与其他电子书朗读不同,在阅读完整的一句话时,讯飞有声书的主播还能识别出明显的重音。
特色方言主播中包含粤语、上海、四川等11种方言,当你想学习粤语时,单看文字介绍可能很难熟悉它的真正发音,而粤语AI主播就可以在看书的过程中读出来加深你的记忆。
除此以外,童书、外文书也有相对应的AI主播,当我选择童声主播时,会发现同样一句话的说话方式、重音位置都更符合小朋友的习惯。
视频加载中...
郭晓天谈道,讯飞TTS 4.0语音合成技术,在声音的合成效果、流畅度、情感饱和度上都有非常明显的提升,这都离不开讯飞此前在训练引擎上的优化,让AI主播在读一些名著时听起来可以调动情绪,让用户感到更加亲切和真实。
并且当我锁屏或者合盖将其放到包里时,它的朗读过程也不会间断,使得阅读的体验感更好。
有声书顾名思义就是“有声音的书”,不过“有声音”这一件事并不容易,像机器人一样机械、僵硬的听书工具有很多,但如何让“声音”更加真实才是门槛所在,讯飞有声书就打破了普通墨水屏阅读器固守的常规。
总的来看,加了朗读功能的讯飞有声书为电子阅读器注入了新鲜的血液,能让读者的听书体验更加具有沉浸感。
二、断舍离党的台历新选项,还能实时互译6门外语
听读是讯飞有声书的灵魂功能,但讯飞有声书的独特之处还在于其更多具有巧思的功能,也在阅读之外为用户提供了更多的使用价值。
每年年底很多人必囤的一件东西就是新年台历,与此同时,上一年的台历会被收集起来用作收藏,不过,这有时也会让一些钟爱断舍离的用户头痛不已,既舍不得扔掉又占地方。就像我一样,每年精挑细选的台历最后都只能被藏到柜子的最里侧。而讯飞有声书的单向历功能就为这一部分用户提供了新的选择。
还是先看它的外观,上下翻折的设计正好与桌面台历相似,当我放大声音专注听书时可以将其随手支在一旁,同时不用时还能当做桌面台历摆放。
讯飞有声书和单向空间联名推出了墨水屏设备版单向历,这一设备的锁屏页面就可以选择“日历锁屏”。日历界面上还可以看到不同的宜忌指引以及作家、诗人、艺术家的名言金句。我与纸质版单向历进行了对比,发现除了不能随手书写记录,几乎与纸质版台历体验感一致。
有趣的是,日历界面上一些特定的名言金句还会与当下的时间点或事件相对应,让这一设备除阅读外,也能在无形中与我们的日常生活产生联系。
春节假期刚过,我就收到了单向历的“满血开工”鼓励,为返工增添了乐趣。日历之中的激励文字能在一定程度上消解我的负面情绪,如“宜不服输”、“宜放飞自我”等有时能够与我们繁忙的工作、学习产生共鸣。
郭晓天谈道,这个功能看起来很简单,但台历对于长续航时间的要求以及日期每天自动更新等,都需要他们平衡丰富功能和电子阅读器本身轻量化定位之间的关系。
此外,讯飞有声书的“更多”界面中,除了围绕着听读功能的应用市场,还出现了翻译助手工具。
当我打开这一界面后发现,它的相应设计简洁明了,点击开始翻译就可以创建相应文档进行实时翻译,并导出音频和文档。其中翻译语种包含6种外语互译,以及汉语与四种民族语言互译。
实际上,电子阅读器的使用人群有相当一部分的学生群体,郭晓天称,他们日常中有很多需要翻译的场景,这也是为了让这一设备能够真正融入到用户的工作、学习中。
从这些功能来看,讯飞有声书的功能属性并没有被限制住,而是围绕着“听读”的用户不断延伸,提供了更加丰富的选择。
值得一提的是,讯飞有声书在完善听读主要功能的同时,恰到好处的将台历、翻译工具融入其中,很好的平衡了相应比重,让我在使用过程中既能满足基本的听读需求,又会在一些场合中获取到即时的工具。
三、墨水屏逆袭:冷暖光阅读灯、自调节页面格式、新闻网文阅读
说完功能,我们来看看讯飞有声书的硬件。
一眼望去,如果没有工整的印刷字体和黑色边框,很容易将讯飞有声书看作一本纸质台历,这要归功于其墨水屏。
沉浸式的阅读体验需要我们长时间盯着屏幕看,当我使用讯飞有声书阅读超过1小时,眼睛并没有出现不适,而紧盯电脑或手机屏幕时经常会出现眼睛干涩等现象。
并且,在阅读界面,讯飞有声书还有文字内容的对比度调整、冷光和暖光双色调整,能够适应我们阅读时不同光线下的外部环境。
不仅如此,阅读过程中,我还可以选择楷体、宋体、黑体等不同字体,还能调整大小、行间距、页边距等,调节至适应个人阅读习惯的方式。
在不同光线下,页面的清晰度也保持在较高水准,一些图片较多的图书也没有变得模糊。
不过,讯飞有声书在点击返回、设置等按钮时,相比于手机等的实时响应速度较慢。郭晓天透露,这和电子墨水屏的刷新原理有关,因此为了实现用户阅读场景下墨水屏的刷新速度和显示质量能够高效配合,他们将刷新频率调整至20帧左右。
除了图书外,讯飞有声书还有新闻、网文等阅读功能,因其适用场景的丰富,使得我在日常使用讯飞有声书的频率不断变高,包括通勤路上、学习过程和工作间隙。
可以看出,讯飞有声书重新定义了“电子阅读器”,从被人吐槽的泡面神器变成了更加实用的读书神器。
结语:AI为电子阅读器打开想象空间
墨水屏诞生起,就凭借其护眼、类纸等属性与电子阅读等场景密不可分,然而从2004年索尼墨水屏电子阅读器Sony Librie EBR 1000开创这一品类先河,到Kindle问世让这一品类声名大噪至今,这一品类后续的设备类别和使用场景都没有突破“阅读”这一核心功能,且都聚焦于简单的将纸质书搬到电子阅读器上。
后来只有电子书这一单一功能的电子阅读器,就陷入了增长乏力的困局。如今,随着AI与墨水屏的结合,科大讯飞使得电子阅读器的重心从“阅”延伸至“读”,语音合成技术、长续航时间再加上其独特的台历、翻译、新闻阅读等功能,让这一设备在日常生活中扮演的角色更加丰富,在满足阅读基本需求的基础上,成为人们生活中的工具。
以墨水屏天然属性为核心,结合用户实际使用需求,科大讯飞让AI技术的普及落地进展不断加快。我们可以预见的是,AI技术的快速发展将为智能硬件设备带来无限的想象空间。
相关问答
txt 电子书 怎么有声阅读?首先必须确定你的手机是真的支持有声电子图书的查看使用百阅软件查看图书就很方便主要功能为:支持最流行的BRM、UMD及TXT手机电子书格式BRM——手机多媒体...
大家有什么可以推荐看文学类小说的app么?小说app比较全面的软件有墨知阅读,天翼阅读,咪咕阅读,书旗小说和起点读书。这些app的小说不仅量多,而且免费的也不少,并且功能齐全,下面就介绍一下这些app...书...
哪个听书软件比较好?个人推荐的听书软件有:喜马拉雅FM、懒人听书、酷听听书、天籁听书、氧气听书。1、喜马拉雅FM喜马拉雅fm可以听有声小说、相声评书、新闻、音乐、脱口秀、段子...
kindle 电子 阅读器有 语音 吗?可以很明确的告诉题主,kindle电子阅读器没有语音功能。电纸书,是一种基于E-Ink(电子墨水)技术的类纸阅读器。其墨水屏幕类似于传统纸书的显示,白纸黑字,...可以...
孩子听 电子 设备讲故事的好处和坏处是什么?现在父母给孩子读书讲故事的不多了,亲子阅读变成了孩子在手机,平板上的独自观看。孩子听电子设备讲故事有利也有弊,先说利的方面。电子设备给忙碌的家长带来...
笔趣阁的听书功能为什么用不起来?如果是语音朗读用不了的一个情况下,那就是这个文件包已经破损,重新下载一个语音的朗读,或者是重新打开一下呗。如果是语音朗读用不了的一个情况下,那就是这个...
怎样使用《书虫》最好?《书虫》共6个级别,30本以上,记得是从800词开始,3000词结束,个人读完了Lv5和Lv6的部分,老实说,没多大用,对于英文能力好点的人来说,3000词,不过是高中...《...
英语发音规则什么书比较好希望大家给我推荐一本最好是越详细...[回答]我们英语专业用语音学这本书的,对你也许有用
求推荐比较全的网络小说读书软件?1、微信读书爱读书的人都在用的App!新手免费领取30天无限卡,全场书籍免费读!看书时长可兑换书币,日常福利活动赠送无限会员卡让你任意读全场!《牧神记》《...
小时候我们看的《故事会》,现在为什么感觉销声匿迹了?很高兴回答这个问题!关于这个问题,我觉得主要有一下几个原因:(1)网络的发展,什么故事都可以网络上看。以前的人们更多都是通过书籍获取想要的东西,无论是...网...