欢迎关注微信公众号watson_python,及时获取最新的更新。
在Watson中提供了两个关于语音处理的API分别是文本转语音和语音转文本。在第二章的例子中,我们使用了文本转语音的API,在这一章要对这两个API进行展开介绍和例子说明。
Text to Speech
Text toSpeech是将文本转化成语音的API。利用这个API可以应用在Hand Free方面的应用开发,如:自动驾驶的应答,机器人的应答等。IBM提供了多种语言的转换。
这个API使用的时候需要username和password两个参数来访问IBM在bluemix上提供的service。具体的可以参看第二章。
Text to Speech中的synthesize的参数:
Speech to Text
Speech toText可以将一段语音转换成文本,目前也支持多个国家的语音。可以应用于Call Center中,对在电话中讨论的内容进行分析。在这个API中可以识别不同的发言者,并区分出不同发言者的发言。下边通过一个简单的例子来说明一下API的具体使用。
我们使用了Watson SDK在Python中调用Watson API来完成我们的操作。首先我们需要在Bluemix上创建一个SpeechtoText的service,然后在Python引入我们要使用的package。
fromwatson_developer_cloudimportSpeechToTextV1
然后调用SpeechToTextV1. recognize函数来进行语音识别。recongize的常用参数如下:
一段简单的代码,利用Speech to Text,将一段语音转化成文本。