发布网友 发布时间:2022-04-20 03:17
共4个回答
热心网友 时间:2022-04-12 00:19
语音识别开发平台有很多,具体总结如下:(更详细的介绍参见本人的博文:几个常见的语音交互平台的简介和比较)1.商业化的语音交互平台1)微软SpeechAPI微软的SpeechAPI(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),在Windows下应用广泛。目前,微软已发布了多个SAPI版本(最新的是SAPI5.4版),这些版本要么作为于SpeechSDK开发包发布,要么直接被包含在windows操作系统中发布。SAPI支持多种语言的识别和朗读,包括英文、中文、日文等。2).IBMviaVoiceIBM是较早开始语音识别方面的研究的机构之一,早在20世纪50年代末期,IBM就开始了语音识别的研究,计算机被设计用来检测特定的语言模式并得出声音和它对应的文字之间的统计相关性。1999年,IBM发布了VoiceType的一个免费版。2003年,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权,随后ScanSoft与Nuance合并,如今viaVoice早已淡出人们的视线,取而代之的是Nuance。3)NuanceNuance通讯是一家*计算机软件技术公司,总部设在美国马萨诸塞州伯灵顿,主要提供语音和图像方面的解决方案和应用。目前的业务集中在服务器和嵌入式语音识别,电话转向系统,自动电话目录服务等。Nuance语音技术除了语音识别技术外,还包扩语音合成、声纹识别等技术。世界语音技术市场,有超过80%的语音识别是采用Nuance识别引擎技术,其名下有超过1000个专利技术,公司研发的语音产品可以支持超过50种语言,在全球拥有超过20亿用户。苹果的iPhone4S的Siri语音识别中就应用了Nuance的语音识别服务。4)科大讯飞科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上。5)其他其他的影响力较大商用语音交互平台有谷歌的语音搜索(GoogleVoiceSearch),百度和搜狗的语音输入法等等。2.开源的语音交互平台1)CMU-SphinxCMU-Sphinx也简称为Sphinx(狮身人面像),是卡内基-梅隆大学(CarnegieMellonUniversity,CMU)开发的一款开源的语音识别系统,它包括一系列的语音识别器和声学模型训练工具。最早的Sphinx-I由@李开复(Kai-FuLee)于1987年左右开发,使用了固定的HMM模型(含3个大小为256的codebook),它被号称为第一个高性能的连续语音识别系统(在ResourceManagement数据库上准确率达到了90%+)。最新的Sphinx语音识别系统包含如下软件包:Pocketsphinx—recognizerlibrarywritteninC.Sphinxbase—supportlibraryrequiredbyPocketsphinxSphinx4—adjustable,modifiablerecognizerwritteninJavaCMUclmtk—languagemodeltoolsSphinxtrain—acousticmodeltrainingtools这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到。2)HTKHTK是HiddenMarkovModelToolkit(隐马尔科夫模型工具包)的简称,HTK主要用于语音识别研究,最初是由剑桥大学工程学院(CambridgeUniversityEngineeringDepartment,CUED)的机器智能实验室(前语音视觉及机器人组)于1989年开发的,它被用来构建CUED的大词汇量的语音识别系统。HTK的最新版本是09年发布的3.4.1版,关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。3)JuliusJulius是一个高性能、双通道的大词汇量连续语音识别(largevocabularycontinuesspeechrecognition,LVCSR)的开源项目,适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM,在当前的PC机上能够实现实时的语音识别,单词量达到60k个。4)RWTHASR该工具箱包含最新的自动语音识别技术的算法实现,它由RWTHAachen大学的HumanLanguageTechnologyandPatternRecognitionGroup开发。RWTHASR工具箱包括声学模型的构建、解析器等重要部分,还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等。5)其他上面提到的开源工具箱主要都是用于语音识别的,其他的开源语音识别项目还有Kaldi、simon、iATROS-speech、SHoUT、ZanzibarOpenIVR等。热心网友 时间:2022-04-12 01:37
语音识别开发平台有很多,具体总结如下:(更详细的介绍参见本人的博文:几个常见的语音交互平台的简介和比较) 1.商业化的语音交互平台 1)微软Speech API 微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎热心网友 时间:2022-04-12 03:12
下面就给楼主分析一个语音识别的开放化的平台,如下:
第一:打开文字识别软件,关闭提示窗,选择上面的语音识别功能;
第二:通过左上角把需要识别的语音文件添加进去;
第三:点击右边的开始识别按钮,开始进行语音识别。
等一会便会识别成功的,识别成功的语音文字,会显示在右边,然后点击右下角的保存为TXT文档按钮。
希望上面的方法可以帮助到您!
热心网友 时间:2022-04-12 05:03
众所周知,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。换句话说,就是把语音、声音转化为文字。
而关于这样的语音识别平台,市面上其实有很多,接入方式都大同小异,区别在于其响应时长及识别准确率。标贝科技作为一家聚焦智能语音技术研发与应用公司,自然缺不了语音识别平台的开放化。
语音识别产品服务包括:
• 一句话识别,即对时长较短(60秒以内)的语音进行实时转写识别,让机器能够听懂人类的语言;适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等。
• 长语音识别,即对于不限时长的语音输入进行实时转写,能够根据用户预期进行自动断句和标点符号添加;适用于长时间语音输入场景,例如会议记录、客服电话等。
• 录音文件识别,即对用户录制的语音文件进行非实时的转写处理;适用于大量的用户语音离线转写,对实时性要求不高,例如客服电话语音质检,字幕后期制作等。