广东会

儿童类语音产品设计与制作_儿童类语音产品设计与制作专业

发布时间:2023-02-27 11:51:00 作者:定制工业设计网 1

       大家好!今天让小编来大家介绍下关于儿童类语音产品设计与制作_儿童类语音产品设计与制作专业的问题,以下是小编对此问题的归纳整理,来看看吧。

文章目录列表:

  • (转)设计一个语音交互界面(Voice User Interface)
  • 一段声音的旅程(八)语音的唤醒与识别
  • 深圳唯创知音电子有限公司怎么样?
  • 开发个语音交友类app多少钱

儿童类语音产品设计与制作_儿童类语音产品设计与制作专业

(转)设计一个语音交互界面(Voice User Interface)

此文为Medium上的一篇文章,搬运过来供自己和大家学习下。原文链接

//medium.com/@xuuuwj/%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E7%95%8C%E9%9D%A2-voice-user-interface-1-6364d4529a28

去年11月第一次接触VUI Design以来,已有三个多月,期间凭着网上的资料(主要是google designguideline\dueros.com\设计师手记\论文)以及自己的UX知识,我尝试设计了三个项目: 一个买书的skill 、一款智能音箱语音交互游戏、 一个关于中国电信100M宽带业务的微信咨 询机器人 ,前两个项目做到原型为止,最后一个已经在微信公众号后台实现。但这三个项目的重点都被放在conversation design上,并不能算完整意义上的VUI。

本月刚刚读完  Cathy Pearl 的《语音用户界面设计》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh),书中完整地讨论了VUI设计的基本原则、重要的技术模块以及用户测试等问题,帮助勾画出了一张比较完整的VUI Design全景图。

在接下来的文章中,我会尝试用一个happy path串连起由0到1设计一个语音交互界面的过程,希望能定义好每个小框架中的设计问题,然后把它们变作一种肌肉记忆。

By the way, 因为说话这件事情太本能了,所以我觉得设计VUI困难的一点在于怎样从用户思维中跳出来,让自己重新回到设计师的角色上:)

语音界面的优势主要体现在三个方面:一是速度,包括输入更方便、入口更浅、学习负担更小等;二是共时,比如允许多任务同时进行;三是探索性,更能激发用户的好奇心,提升用户体验。不过同时,也不要忘记语音交流是非常受场景、技术及用户习惯限制的一件事。

可以参考 Google-fit-quiz 里的问题,来验证VUI究竟是不是你的最佳选择。
在回答之前,我们需要先了解:1.用户进行语音交互的方式有哪些,2.VUI系统内部是如何运作的。

The Nielson Norman Group 将语音交互总结为以下屏幕优先、纯语音和语音优先三种模式:

📱 Screen-first Interaction(屏幕优先):  Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.(设计一个以屏幕显示为主的App, 为了提升用户体验,会加一些语音元素)

🗣  Voice-only Interaction(只有语音交互):  Here there is no screen at all, and input and output is based on sound, such as a smart speaker.(VUI设备没有屏幕,输入和输出都要声音,比如智能扬声器)

💬 Voice-first Interaction(语音优先):  This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.(以语音为主要交互方式的App,输出信息在屏幕上显示,通过这种方式提升App体验)

屏幕优先 的情况下,最典型的代表就是手机语音助手,用户不仅可以通过语音,还可以通过键入、手势来进行操作,系统回复的内容也包含了语音、文本、图片、列表、链接等等。
纯语音交互 的代表之一是智能音箱,用户通过“唤醒”词,比如“ Alexa”,来开启VUI交互;另一个代表是电话客服,也就是交互式语音应答(Interactive Voice Response, IVR),它可以通过电话线路理解人们的请求并指引用户完成相应的任务,比如预定机票、查询话费等。
可以把对话系统看作人机翻译机,接收人类的自然语言并把它翻译成计算机能懂的结构化语言,以便进行信息匹配与加工,最终再以自然语言的形式反馈给说话者,完成一次“沟通”。“沟通”的本质是通过对最优解的一步步预测,以生成一个匹配概率尽可能高的反馈,需要计算能力、算法与数据的背后支持。

具体情况如下图所示:
当用户对系统讲话(utterance),系统会首先通过 语音识别(ASR) ①接收并解析语音,识别器可以提供多个可能的结果,即N-best list,从中为接收到的语音匹配最相似的词串文本(recognition hypothesis),然后反馈给下一个自然 语言理解(NLU) ②模块。

理解自然语言,即系统通过对词法、句法、语义的分析,识别(identify)用户的意图(intent)或者用户言语所涉及的领域(domain)、实体(entities),生成一个结构化的 语义表示*, 包括语言类型(陈述需求,询问属性,否定,选择疑问,等等)和条件信息(有什么条件、值是多少)。比如,“帮我查深圳的天气”这句话对应的语义表示为“inform(occasion=天气,location=深圳)”,其中“inform”代表“陈述需求”,括号里面的内容我们称之为slot-value pair。关于计算机是如何理解自然语言的,可以点击 这里 详细了解。

语义表示生成之后被转交给 对话管理器(DM) ③,由对话管理器来决定答复给用户什么以及怎样答复。

对话管理器是对话系统中很关键的一个模块,连结着一个或多个 知识库(Knowledge Base, KB) ④。通常包括:a.对话状态跟踪(dialogue state tracking),比如追踪执行用户意图所需的信息是否完整;b.对话策略(dialogue policy),即根据当前的状态 决策 下一步应该采取的最优动作,比如,是直接调用知识库(knowledge base)内容提供结果、询问特定限制条件、澄清或确认需求、还是开启相关的某个软件呢。

不同的对话系统,goal-driven system(比如任务型、问答型)和open-domain system(比如闲聊型),对话管理器的任务、知识库内容也不同。
任务型对话的场景相对复杂,通常会与用户进行多伦对话,需要参数化请求并通过slots filling的形式持续跟踪对话,直到识别出用户意图、特征词、slot-value pairs,即系系统要执行的动作的类型和操作参数。

问答型则不需要考虑复杂的对话逻辑,通常一轮对话就可以解决,重点在于语义解析与实体匹配。

闲聊型包括检索模式和生成模式,检索式是利用网络中已有的大量对话语料来构建索引,从索引中查找可能的候选回复,而生成式则直接从大量的人人的对话中学习对话模型,然后利用对话模型“创作”回复。

对话管理器会根据当前的对话状态生成一个预期回复(intended response),然后进入 自然语言生成(NLG) ⑤- 文本转语音(TTS) ⑥环节,把结构化的预期回复改造成自然语言,最终呈现给用户。

常见的说法是“系统形象(system persona)”,相当于产品的前端,即系统通过的①语音特征,语气、语调、音色、节奏等。你可以选择使用合成(synthesized)声音,也可以选择录制的(recorded)声音;

②话术,编写问候语、特殊应答、提示语等时的用词、长短句这些,来展现与品牌相符的性格特质,比如亲切or正式,主动or顺从。

一个好的system persona能够很自然地成为你编写对话时的参考条件:“在这种情况下,这个persona会说什么或做什么?”

VUI的交互方式与对话内容很难彻底分开讨论,但做这种尝试,有助于跳出用户视角,走进“黑盒子”中。

我倾向于将“交互方式”看作《Voice User Interface Design》中所言的“High-level design”,而将“对话内容”看作“Detailed design”。

“High-level design”关心的是怎样推动对话流畅地进行,让用户知晓系统的状态、任务进度等以便操作,比如系统在聆听、在期待收到指令、已离线等,可以理解为GUI中的弹窗、动效、视觉反馈等。

同时也为系统设计更好的规则,以便它做出更好的决策,比如在什么情况下需要向用户确认请求,可以理解为GUI设计中看不见的菱形判断框。
这些问题主要涉及到以下:

①对话模式设计

A.命令-控制式(command and control),即用户想要说话时必须先唤醒系统,方式可以是使用唤醒词、手势触摸或者按键。一轮对话完毕,用户须再次唤醒系统以开启下一轮对话。

B.对话式,即在一段封闭的对话期间,比如完成某项特定的任务时,用户不必每一回合都唤醒系统,而是自然地进行话轮转换,在轮到用户说话时系统自动开启麦克风。

C.混合式,即命控式与对话式的结合,系统向用户提供明显的状态切换标识,比如使用声音标志(earcon)以表示某个状态的开始与结束。

②对话策略(dialog strategy)设计

包括:

A.对话框架设计,即对话组织策略

《Designing Voice User Interface》一书把对话框架分为:a.定向对话(directed dialog),即系统主导对话,向用户询问非常具体的问题,以期望获得同样具体的答案;b.菜单层级结构(menu hierarchy),即系统向用户提供一系列选择,一旦用户完成了菜单a的选择,系统会继续提供菜单b,直到完成用户的请求;c.混合推动(mixed-initiative),即定向对话与菜单层级相混合,系统询问用户问题,也允许用户通过提供额外的信息来引导对话。
B.对话修补策略

技术并不完美,识别器可能还没有准备好接受呼叫者的话语,或者没有接收到说话者的语音,也可能响应时间太长 。用户也常常会突然扭转话题,或者提供太多信息。因此在正向推动对话之外,系统也必须配备处理这些情况的策略,以减少前功尽弃的概率。

a.错误恢复

可能出现的错误有以下四种:

·未检测到语音

·检测到语音,但没有识别

·正确识别语音,但无法处理

·部分语音识别错误

·延迟

一般有两种方法来处理这些情况,明确地说出来,最好能增加更多的细节让用户明白现在的状况,比如“抱歉,我没听懂,请说出您所在的城市和区域名称”,或者什么也不做。如何选择要取决于VUI系统的交互模式与用户场景。

b.万能指令

比如“帮助”、“停止”、“请重复一遍”、“退出”等等。设计时不仅要考虑用户可能的需要,也要考虑用户会怎样表达这些需要。

③条件阈值(threshold)设计

每个应用程序都会定义系统能承受的最大错误,对话系统也不例外,尤其是上文对交互流程的描述也向我们清晰地展示了,从用户、到技术模块、再到数据资源,VUI的运行充满了不确定性。

《Designing Voice User Interface》 一书建议我们考虑设置三种阈值:单个对话状态中的最大连续错误数(特定于状态的错误计数),全局计算的最大错误数,以及最大错误确认数。

牢记这一点便很容易理解Detailed design需要做什么,即深入到单条对话中,详细设计对话流程、辅助提示、以及异常情况处理方案。包括:

①对话设计

设计对话流程很像写剧本,即什么样的角色在什么情况下应该说什么话,不同之处在于对话系统的情节和部分角色是写定的。
各大平台上,Google、Amazon、Microsoft,都有对话设计的相关指导,可以通过 这篇汇总文章 来进一步了解。

②提示列表(prompt lists)

回想一下,人与人之间的沟通也要建立在共同知识的基础上,与机器对话也是一样。让用户了解系统能做什么、不能做什么、怎么做是对的等等,才能够实现高效率的对话。

这一点可以通过设计提示列表(prompt lists)来辅助实现,提示类型包括:

A.初始提示,

B.错误提示,

C.帮助提示,

D.特殊应答等等

提示的形式有多种,语音、文本、图像,甚至声音,都可以。

比如图中Google assistant采用带有文字的按钮来告诉我它能识别屏幕上的内容,而我只需点击或者说出指令即可;右边的两张图里,Google通过[视觉元素变换+“进入对话”“离开对话”的文字提示+音效(earcon)]来隐喻游戏的开始与结束。

Google在designguideline for Google assistant里总结了 他们运用在提示语(prompt)中的不同元素(types of conversational components) ,是一份非常好的参考。

设计过程其实与一般产品并无大异,需要考虑:

1). 用户研究结果。 包括用例、使用场景 、用户语言模式与心理模式等。可以参考博主@Lu的设计手记 《语音理财案例分析》 。

2). 业务场景与目标。 主要是据此确定功能列表、功能优先级、交互方式等。推荐百度AI社区的 《酒店语音助手实例教程》 。

特殊的是,人工智能产品的形态多种多样,设计师必须对于产品所依附的硬件设备、产品背后的数据与技术支持有所了解,以确定产品边界、发现设计机会、持续优化用户体验。因此也需要考虑:

3). 技术与硬件基础。

比如设备联网程度,ASR引擎是否允许你设置N-best列表、自定义语音终止超时的时长,系统的负载量等。

4). 数据资源。

比如当前资源是否能满足该功能,哪些数据会影响系统响应时间等。
人们往往通过语音识别准确度来评估应用程序的运行效果,这也许是最糟糕的度量方式。一个应用程序能达到90%的识别准确度,同时自动实现85%的业务呼叫;另一个应用程序达到97%的识别准确度,且自动实现40%的业务呼叫,前者就一定比后者更差或更好吗?

——《如何构建语音识别应用》( Bruce Balentine, David Morgen)

评估涉及到三个问题:

1.如何定义成功

需要与开发人员、客户共同完成,以方便确定哪些状态是可以衡量的,哪些不可以。尽可能将成功状态具体化、数字化。

以下使一些成功标准的示例:

·60%想要预定酒店的用户最终完成了预定。

·85%的用户在1个月内至少完成了20天的每日健康记录。

·播放歌曲的错误率低于15%。

——《语音用户界面设计》Cathy Pearl

2.可以通过什么来衡量

A.任务完成率

B.用户(在何处)(因为什么)流失率

C.使用时长

D.语音打断情况

E.高频异常情况

……

*如果不思考原因,以上所有衡量结果都不可用

3.如何获得衡量数据

A.在早期建立记录日志

B.转录用户呼叫记录

……

参考资料:

《语音用户界面设计》Cathy Pearl

《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh

百度AI社区

Google Design Guideline

Cortana Dev Center

Nielsen Norman Group

//voiceprinciples.com/

《周耀明:自然语言对话引擎》

机器之心

儿童类语音产品设计与制作_儿童类语音产品设计与制作专业

一段声音的旅程(八)语音的唤醒与识别

童鞋们好,我们花了六篇篇幅聊的信号处理终于告一段落啦~今儿我们要翻篇,讲一讲语音的唤醒与识别。

前几篇讲的信号处理环节,主要是硬件、空间、腔体等的信号落地工作,我们称之为“硬落地”。特点就是,在适配过后的信号处理五大因素中有任何一个发生不可忽略的变化,都建议再适配一遍,我们称这个适配调优的工作为“tuning”。一般来说,tuning过的硬件,直到硬件生命终结,都不需要再做第二次(当然,如果第一次tuning没做得足够好就量产出去了,那纯属自己作,要返工也是很有可能的,未来讲“迭代”的时候再细说这个点。 个人观点:特别不建议在tuning没有做好的情况下就发布产品 )。这之后的ASR、NLP、TTS、DM的落地工作,都属于“软落地”。

这样分类有什么实质性意义吗?自然是有的。硬落地主要针对不同的硬件不同的使用场景,而软落地主要针对不同的人不同的功能需求。两个方向所需要的人才是不一样的,投入产出也是不一样的。这里主要分为三种情况:

如果一个team定位自己只针对一款硬件做语音产品,比如一款品牌音箱,那他们只需要把这款音箱tuning好。除非后面要改ID设计,否则负责硬落地的同学后期基本就没啥事儿可干了。但是音箱从被卖出到它报废之间的整个生命周期,产品都要不断迭代,功能也要不断丰富,运营、商业、服务等等都要接踵而来。所以相比起来负责软落地的同学,可能就要忙到飞起来。

如果一个team定位自己是做硬件语音方案的,需要给那些做品牌音箱的提供整体解决方案,那么他们需要根据每一款客户的ID设计和使用场景去做tuning。这种情况下负责硬落地的同学,嘿嘿,你们的好日子就到头了,准备和老婆孩子热炕头say good bye几个月吧。同时因为team是提供解决方案,软产品的设计和定制往往是客户自己独立完成独立开发的,所以负责软落地的同学此时就可以放飞自我哪儿凉快哪儿玩儿去了。

当然,还有两者皆投入的team,也就是当前比较热门的 toBtoC(2B2C)模式。toB做项目落地,toC做用户体验。语音公司大部分都是2B2C的商业模式;

所以, 企业如果需要做语音产品,自身定位很重要,因为这涉及到整个 team 的人员结构和人才需求。不要盲目去抄袭语音公司的人员结构和人才定位,根据企业自己的定位和规划,按需要求人才,按规模定人数,做好人效供求的管理 ,不然到最后,有些人就会是这样的——

而有的人,又会是这样的——

显然,如果出现上述情况,很容易导致团队里负能量爆棚,事儿也就基本不可能做好。

语音识别是近几年非常火热的词,应该也是大家最熟悉的部分了,语音识别的核心任务,是音频转写成文字,看似简单无奇的这么一个环节,真的要用好是非常不容易的,我们先聊聊这个大环节里的细节吧。

假设一个场景:

哼哼:“唉半仙,几点啦?”,(我听到哼哼在后面喊我,我回过头看着她说)

秋半仙:“咋啦?”,

哼哼:“死鬼,问你现在几点了,我没带手机。”(我看一下手表,告诉她结果)

秋半仙:“哦,下午五点了。”

对话结束。

生活中,如果你要找一个人说事情,一般走过去第一句话应该是先“打招呼”,对方有所回应之后,才开始真正的对话。

这个场景中,在哼哼还没有喊我之前,我在“等待有人唤醒我”,我们称这个状态为“监听”状态。可以形象的理解为,此时,我在监听身边所有的声音,等待有广东会我“打招呼”。当哼哼说出“唉半仙”时,我意识到有人在找我,相当于此时我被激活了。我们把这个行为称为“唤醒”,把“唉秋半仙”称为“唤醒词”。唤醒之后,哼哼说出了自己的诉求,这里开始就是正常的“识别”了。

唤醒与识别

“唤醒”和“识别”是有很大的不同的。”监听“状态时,我们是不知道用户会从哪个地方来”唤醒“语音产品的。而一旦唤醒之后,我们是可以通过很多技术手段,比如前序文章中提到的”定向抑制“,排除掉其他区域的干扰,从而提升用户的语音体验。我们举个车内主副驾的例子,因为使用语音的既可能是主驾,也可能是副驾,所以,“监听”时两边都要监听着。如果副驾的同学此时正在打电话,你在主驾位置上唤起语音,那么副驾同学打电话的声音是会严重干扰你使用语音的。此时,可以抑制副驾声源,从而保障主驾的产品体验。

——“半仙,既然语音设备可以定向抑制,那也一定可以定向拾音吖,为什么不能主副驾都识别,根据具体的意思来决定用哪一个呢?”

——“哎,各位童鞋看看哈,这位童鞋能提出这种问题,说明他已经可以开始能跳出框框来思考产品了。这种思考方式应该保持,其他童鞋也要多向他学习哈~”

上面的这个问题的主因是系统的资源消耗。同时处理多路还要保证语音的实时性体验,对系统带来的消耗太大。另一方面,就是“根据意思来决定”这点很难具体定义“什么意思该使用哪个”,到最后可能会以“唤醒者”的内容优先考虑做为仲裁的核心依据,那牺牲大量的硬件资源的意义就大大减弱了。从产品落地和投入产出比的角度去考量,会退而求其次,这也是为什么今天很多概念demo和落地产品之间会有差异)。

“唤醒”是激活语音的其中一种方式,从产品设计来看,激活语音有七种方式:

1. 主动唤醒。就是前面说的,在”监听“状态,通过唤醒词“唉半仙”来唤醒,唤醒之后,语音会有所反馈,比如“你好吖”、“有什么可以帮你的”,引导用户进入“识别”状态。

2. OneShot。前面的主动唤醒,是在唤醒之后要等待反馈再说指令,oneshot则是将“唤醒”和“识别”组合在一句话里说,比如“秋半仙,现在几点了?”,一句话完成。

3. 快捷唤醒。这个和主动唤醒的逻辑基本是一样的,区别在于:主动唤醒是激活语音等待用户说指令,快捷唤醒是激活语音直接执行指令,唤醒词即指令。比如,在”监听“状态,直接说“下一首”来执行切歌流程,所以快捷唤醒其实是将“唤醒”和“识别”合并在一起了。因为“快捷唤醒”的引入,我们为了区分,会把“主动唤醒”的唤醒词,叫做“主唤醒词”。

4. 被动触发。当满足某些特定条件之后,语音交互会被触。这个从语音角度去说,叫“被动触发”,但从用户角度去说,就应该叫“主动语音”。此时用户没有激活语音,但语音因为某些特定的条件满足被激活,与用户进行语音交互;比如,“堵车”的条件满足时,主动激活语音,询问用户,“前面有点堵,帮您把空调切到内循环吧,确定还是取消?”

5. 流程触发。根据当前语音的交互流程设计,若需要用户继续下达指令,则可以自动激活语音开启新一轮交互,若流程结束,则可以结束语音交互,回到“监听”状态。

6. 混合操作。可以通过触屏、按键、手势、图像等等其他交互方式来激活语音。常见的是按键,比如app里的语音按键、车上方控的语音实体按键等等。( 秋半仙 特别提醒: 现在很多语音产品,在交互上都是很纯粹的以语音为主,按键一般都是启动、关闭、选择等简单的逻辑。以现在的发展趋势,未来语音将会和更多操作方式进行混合,会有更多的广东会和机会。混合操作是一个大趋势,也会让语音交互越来越丰富,同样也会越来越复杂。)

7. 文字触发。文字触发的流程,是一种绕过“识别”直接进入“语义”环节的激活方式。

如果我们把语音交互中有用户感知的“语音录入”过程进行拆解,还可以区分出六个部分:

1. “初始化”。这里的“初始化”也可以叫“准备中”。此时语音在做初始的准备工作。在这个过程中,语音全系功能都还不可用,用户必须等待初始化成功完成,成功完成之后,再进入“监听”状态。

2. “唤醒”。用户通过“主唤醒词”进行唤醒激活。

3. “说话”。用户下达指令的过程。

4. “识别中”。语音识别的处理过程,此时一般是引导用户等待。

5. “识别结果”。识别处理完成,给予“文字”结果,此时根据交互设计决定是否展示结果给用户。

6. “流程处理”。之后就是交互的具体业务流程环节了。

我们将七种语音激活方式,和这六个过程进行结合,得出下面的示意图,便于理解和记忆。

“唤醒”和“识别”虽然都是基于“语音识别”来实现的,但是逻辑还是有很多区别的。

“唤醒”对实时性要求很高,追求“快”。如果主唤醒词话音刚落,立马就有了响应,你是不是觉得被伺候的特爽?这和生活中我们去找别人,希望别人快速响应是一样的心理过程。一般我们是仅在设备上做“唤醒”,不会放到云端处理。这里有几个原因:其一,实效性。由于对响应的实时性要求太高,放云端处理,一个网络延时就凉凉了;其二,安全性,也是隐私问题。你说家里有一个设备,在实时“监听”你家里的声音,并放到“云端”去处理,万一你想干点……(此处省略一万字)对吧,相信每个人都是会有些安全顾虑的。

“识别”则对准确性要求很高,所以会结合本地和云端一起来处理。因为这些产品诉求的种种不同,“唤醒”会更加倾向于“声音”的相似度,不用等文字结果,就能快速响应,所以现在很多语音公司在做“唤醒”和“识别”时,也是分在两个不同的模型和引擎里来实现的。

既然是分成两个引擎来处理,那么两个引擎的调度就需要时间,这个时间会给产品带来什么风险呢?

我们拿“按下语音键后说话”举例。大家回忆一下,你们微信或钉钉发语音,是不是下意识地按下语音键立马就开始说话?然后你再听一听,你会发现,开头有一段声音没录进去。仔细看这些产品的体验,其实是有一些交互细节在引导你不要立马就说话的。这个现象在很多语音产品里都有,主要有两个原因:一个是硬件麦克风要开启,这里就有一个避不掉的系统层激活调度的时间;一个是相关引擎的初始化时间,这也是一个必然存在的时间。两个都是必然时间,那么这个体验是不是就没办法做了呢?当然是有办法的,产品同学需要注意, “ 用户的感知是产品整体对外的表现所产生的。也就是说,我们所谓的体验的极致,指的是用户 感知的极致,它并不等于每个点都必须完美无缺 ” 。

这个地方的解决办法有些偏技术,其实就是将录音抽象到一个独立的模块,且录音不停止。等用户一旦激活语音,录音模块还是将数据保留下来,同时去初始化引擎。等引擎初始化好,再将数据交给引擎处理。从用户表现层来看,就是按下语音键立马就能说话。这个方案貌似解决了问题,但是总不能应用一起来就把麦克风开开吧,这样太耗电了,产品也不太可能会这样定义。不过,有些语音产品是一旦启动就需要具备“语音唤醒”的能力,此时的语音产品就一直处于“监听”状态,麦克风就已经常开了,那么这个方案就适用了。其他情况,就得想其他办法了,但是思路是一样的,“ 要么解决每个关键点的耗时,要么就将他们藏起来让用户无感” 。

好了,今天分享会秋半仙有点儿啰嗦了,我们就讲到这,别忘了点赞打卡哦~

                                                          —THE END—

儿童类语音产品设计与制作_儿童类语音产品设计与制作专业

深圳唯创知音电子有限公司怎么样?

简介:  深圳唯创知音电子有限公司(原广州唯创电子有限公司)――于1999年创立于广州市广东会区,由于公司业务扩展需要,目前已经搬迁到深圳市宝安区福永镇,广东会为一专注于语音技术研究、语音产品方案设计及控制等软、硬件设计的高新技术公司。业务范围涉及电话录音、汽车电子、多媒体、家居防盗、通信、家电、医疗器械、工业自动化控制、玩具及互动消费类产品等领域。团队有着卓越的IC软、硬件开发能力和设计经验,秉持着「积极广东会、勇于开拓、满足顾客、团队合作」的理念,为力争打造“语音业界”的领导品牌。    广东会是一家杰出的语音芯片厂家,从事语音芯片研究及外围电路开发;同时为有特别需求的客户制订语音产品开发方案,并且落实执行该方案,完成产品的研发、测试,声音处理,直至产品的实际应用指导等一系列服务。经过多年的发展,公司形成了一个完善的新品流程体系,能快速研发出新品以及完善产品。       语音芯片系列包含:WT2000、WT2003、WT5001、WT588D、WTH、WTV、WTB、WTN等,每一款语音芯片我们都追求精益求精、广东会细琢不断开发和完善,以求更佳的品质、更好的体现语音IC的实用价值。产品、模块、编辑软件等的人性化设计,使得客户的使用更方便。于2006年成立的北京唯创虹泰分公司主要以销售完整的方案及成熟产品为宗旨,以便于为国内北方客户提供更好的服务。  不仅如此,还推出的多种语音模块,如WT2000录音模块,通过外围电路的扩展,更贴近广大用户的需求。   我们也是MP3生产厂家。随着公司的外围技术扩展,在2004年开始生产MP3芯片,以及提供MP3方案。在同行里面有相当高的知名度,到现在(2015-)为止更新换代一起出了8种MP3解决方案(不断增加中),并且得到市场的广泛认可。其中的WT2000、WT2003芯片以音质表现极其优秀不断被客户所接受并使用。    在语音提示器方面,我们也从事于语音提示器生产厂家:经过多年的技术储备,开始向语音提示器领域拓展,并且得到了可喜的成果,成为语音提示器生产厂家里的一员。根据探头的类别:有超声波语音提示器,红外人体感应语音提示器,光感应语音提示器。同时也针对不同的领域开发了:自助银行语音提示器,欢迎光临迎宾器,语音广告机,语音门铃等等产品。   广东会于2003年广东会叉车超速报警器,研发、成产并于市场上推广,经过不断的升级,现在已经升级为各种特种车均使用的机动车安全管理系统——VSMS,可以有线安装,也可以无线安装,有断油路版本,有刷卡管理系统,有打卡管理系统等等,任君选择,品种多样。   除了语音提示器,叉车报警器之外,广东会也研发生成公交车报站器,电梯报站器,以及蓝牙模块、wifi模块,智能控制技术、智能APP开发等。目前广东会已经服务于超过3000家企业,国内外多家知名企业指定合作厂家,可以肯定将来会有更多的新产品上市,来满足广大的用户的需求。让我们的生活更加智能化,人性化。我们的使命跟愿景:使命:提供更智能的交互体验,让复杂变简单,让生活更美好 愿景:成为语音、智能物联网业界最具影响力的公司 价值观:广东会造,同分享,为客户创造最大价值,成就员工广东会 员工行为准则:我是一切问题的根源,问题到我为止 
法定代表人:李国军
成立时间:2014-11-06
注册资本:1500万人民币
工商注册号:440306111606203
企业类型:有限责任公司
公司地址:深圳市宝安区福永街道大洋开发区福安第二工业城厂房第11栋4楼

开发个语音交友类app多少钱

开发个语音交友类app多少钱

如今,不少企业都想拥有属于自己企业或产品的手机APP,但其中最困扰企业主的问题就是:开发一款手机APP到底需要多少钱?

简单点来说,要视手机APP的需求及质量而言,价位一般在几千到十几万左右,更高端的价格更高。

今天,我们就来详细分析一下这个问题,请继续往下看吧。 

一、APP开发款式分为固定款和定制款,两者的价格均不相同

固定款:是指直接套用已有的、现成的APP固定模板,报价是固定的,所需要的功能也是固定的,缺点就是客户拿不到源代码,也不能根据企业需求进行定制,由于源代码是封装的,如果企业以后想进行功能升级或系统维护的话,也不能够实现,只能重新开发一个新的软件。

固定款的APP开发时间短,约2~3日的时间即可完成,费用大约在几千到几万之间。


定制款:定制款是指APP的功能全部重新开发,过程比较繁琐,需要美工、策划、APP开发(前台/客户端/手机端)、后台程序员等工种协同完成,大型的、功能复杂的APP甚至需要数十人的团队。

由于APP的功能和设计都是定制的,因此价格会高些。定制款的开发时间与开发价格是成正比的,开发时间长,大约在两三个月甚至不定的周期里才能完成,而费用大概在几万甚至十几万左右。

因此,想要知道开发一款手机APP需要花费多少钱,企业主首先必须把APP的详细需求和功能告知APP开发公司,开发公司才能报出一个合理的价格。

二、手机APP平台不同,制作成本也不一样

现在市面上流行的手机APP制作平台主要有两种一般包括两种系统:安卓系统(Android)和苹果系统(IOS)。

一般来说,制作苹果系统的手机APP软件费用要比安卓平台的贵一些,因为苹果公司对苹果平台的封闭性和手机APP开发语言Objective-C的难度,都让APP开发者加大了苹果系统手机APP开发的难度。

三、APP制作成本包含参与人员的工资

通常情况下,开发一款APP需要产品经理、客户端工程师、后端工程师和UI设计师各一名,这已经是制作手机APP应用软件比较精简的配置了,所以这些参与人员的工资也是包含在APP制作成本当中的。这些工作人员的月薪加起来可能都会超过4、5万元。

四、APP开发公司的所在地

需要注意的是,同样实力的APP开发公司,在不同的城市也会导致APP的成本费用高一些

       以上就是小编对于儿童类语音产品设计与制作_儿童类语音产品设计与制作专业问题和相关问题的解答了,儿童类语音产品设计与制作_儿童类语音产品设计与制作专业的问题希望对你有用!

       免责声明: 1、文章部分文字与图片来源网络,如有问题请及时联系我们。 2、因编辑需要,文字和图片之间亦无必然联系,仅供参考。涉及转载的所有文章、图片、音频视频文件 等资料,版权归版权所有人所有。 3、本文章内容如无意中侵犯了媒体或个人的知识产权,请联系我们立即删除,联系方式:请邮件发送至 cnc1698@l63.com