三分钟把声优带回家

落花浮王杯 提交于 2021-02-14 11:58:41

点击▲关注 “爪哇笔记”   给公众号标星置顶

更多精彩 第一时间直达

Java版本

语音合成可将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。适用于手机APP、儿童故事机、智能机器人等多种应用场景。
整合
这里我们使用百度云的人工智能语音合成 API,个人用户拥有一定的免费额度,基本已经够用了,在线语音合成支持丰富的 SDK,基本上主流的语言都可以轻松接入。这里使用世界上最流行的语言 Java
pom.xml引入:

   
   
   
< dependency>
< groupId>com.baidu.aip</ groupId>
< artifactId>java-sdk</ artifactId>
< version>4.12.0</ version>
</ dependency>
application.properties引入:

   
   
   
# ===================================
# 百度人工智能,申请百度云账号并创建应用
# ===================================
bai-du.appId = **********
bai-du.apiKey = **********
bai-du.accessKeySecret = **********
BaiDuProperties.java 配置实体:

   
   
   
@Data
@ConfigurationProperties(prefix = "bai-du")
public class BaiDuProperties {

private String appId;
private String apiKey;
private String accessKeySecret;

}
撸一个工具类:

   
   
   
/**
* 百度智能AI
*/

@Component
@Configuration
@EnableConfigurationProperties({BaiDuProperties.class})
public class BaiDuUtils {

private BaiDuProperties baiDu;

public BaiDuUtils(BaiDuProperties baiDu) {
this.baiDu = baiDu;
}

private AipSpeech instance;

@Value( "${file.path}")
private String filePath;

@PostConstruct
public void init() {
try {
FileUtil.mkdir(filePath+SystemConstant.SF_FILE_SEPARATOR+ "voice");
instance = new AipSpeech(baiDu.getAppId(), baiDu.getApiKey(), baiDu.getAccessKeySecret());
// 可选:设置网络连接参数
instance.setConnectionTimeoutInMillis( 2000);
instance.setSocketTimeoutInMillis( 60000);
} catch (Exception e) {
e.printStackTrace();
}
}

/**
* 语音合成
* 本地测试可能会出现https认证的问题 调用一下 ignoreSsl 方法即可
* @param text 合成的文本,使用UTF-8编码,请注意文本长度必须小于1024字节
*/

public String text2Voice(String text,Boolean per) {
SslUtils.ignoreSsl();
HashMap<String, Object> options = new HashMap<>();
if(per){
options.put( "per", "3");
} else{
options.put( "per", "4");
}
TtsResponse res = instance.synthesis(text, "zh", 1, options);
byte[] data = res.getData();
if (data != null) {
try {
String file = "voice"+SystemConstant.SF_FILE_SEPARATOR+UUID.randomUUID()+ ".mp3";
Util.writeBytesToFileSystem(data, filePath + SystemConstant.SF_FILE_SEPARATOR + file);
return file;
} catch (IOException e) {
e.printStackTrace();
}
}
return null;
}
}

注意

  • 请注意文本长度必须小于1024字节

  • 本地测试可能会出现https认证的问题 调用一下 ignoreSsl 方法即可

截图

Python版本

语音合成技术能将用户输入的文字,转换成流畅自然的语音输出,并且可以支持语速、音调、音量设置,打破传统文字式人机交互的方式,让人机沟通更自然。

应用场景

将游戏场景中的公告、任务或派单信息通过语音播报,让玩家玩游戏或配送员送货的同时,也可接听新任务。
文学小说类软件,可以利用百度语音合成技术将文学小说作品进行高质量的朗读,流畅清晰,解放双眼,畅听世界。

项目架构

Python3.7.2、Django2.1.7、baidu-aip

案例

这里只展示部分代码,有兴趣的同学可以自行下载源码安装调试。
  
  
  
  1. import os

  2. import time

  3. import codecs

  4. from aip importAipSpeech

  5. from django.shortcuts import render

  6. from django.http importHttpResponse



  7. '''

  8. pip install --upgrade pip

  9. pip install django

  10. pip install baidu-aip

  11. '''



  12. def main(request):

  13. return render(request, 'index.html')



  14. def m_main(request):

  15. return render(request, 'm_index.html')



  16. def convert(request):

  17. message = request.POST.get("message")

  18. switch = request.POST.get("switch")

  19. mp3 = du_say(message, switch)

  20. returnHttpResponse(mp3)



  21. def du_say(message, switch):

  22. write_txt(message)

  23. app_id = '*****'

  24. api_key = '*****'

  25. secret_key = '*****'

  26. client = AipSpeech(app_id, api_key, secret_key)

  27. if switch == "true":

  28. switch = 3

  29. else:

  30. switch = 4

  31. result = client.synthesis(message, 'zh', 1, {

  32. 'vol': 5, 'per': switch,

  33. })

  34. t = time.time()

  35. now_time = lambda: int(round(t * 1000))

  36. path = os.getcwd() + os.path.sep + "static"+ os.path.sep + "audio"+os.path.sep

  37. audio = path+str(now_time())+'.mp3'

  38. # 识别正确返回语音二进制 错误则返回dict 参照下面错误码

  39. ifnot isinstance(result, dict):

  40. with open(audio, 'wb') as f:

  41. f.write(result)

  42. return str(now_time())+'.mp3'



  43. def write_txt(message):

  44. t = time.time()

  45. now_time = lambda: int(round(t * 1000))

  46. path = os.getcwd() + os.path.sep + "static"+ os.path.sep + "text"+os.path.sep

  47. text = path+str(now_time())+'.txt'

  48. with codecs.open(text, 'a', encoding='utf8')as f:

  49. f.write(message)

本地部署

从码云拉取项目到本地:
  
  
  
  1. https://gitee.com/52itstyle/baidu-speech.git

配置百度语音API:
  
  
  
  1. # 自行注册申请

  2. https://console.bce.baidu.com/ai/#/ai/speech/app/list

启动项目:
  
  
  
  1. # 切换到项目根目录,执行

  2. manage.py runserver

外网部署
这里以Linux为例,代理使用 openresty。

安装 Python3

  
  
  
  1. wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1.tar.xz

事先安装依赖,否则后期安装会报错:
  
  
  
  1. yum -y install zlib*

  2. yum -y install libffi-devel

下面开始正式安装:
  
  
  
  1. # 解压

  2. tar -xvf Python-3.7.1.tar.xz

  3. # 切换大目录

  4. cd Python-3.7.1

  5. # 配置编译

  6. ./configure

  7. # 编译安装

  8. make && make install

安装 Django

  
  
  
  1. pip install Django

安装成功以后需要重新配置并编译安装 Python3:
  
  
  
  1. # 配置编译

  2. ./configure

  3. # 编译安装

  4. make && make install

安装服务器 uwsgi
  
  
  
  1. pip3 install uwsgi

上传项目到服务器,并切换到 speech 目录:
  
  
  
  1. # 目录下新建文件夹

  2. mkdir script

在 script 下新增 uwsgi.ini (项目中已经配置好,自行修改路径即可):
  
  
  
  1. # uwsig使用配置文件启动

  2. [uwsgi]

  3. # 项目目录

  4. chdir=/www/speech/

  5. # 指定项目的application

  6. module=speech.wsgi:application

  7. # 指定sock的文件路径

  8. socket=/www/speech/script/uwsgi.sock

  9. # 进程个数

  10. workers=5

  11. pidfile=/www/speech/script/uwsgi.pid

  12. # 指定IP端口

  13. http=127.0.0.1:8001

  14. # 指定静态文件

  15. static-map=/static=/www/speech/static

  16. # 启动uwsgi的用户名和用户组

  17. uid=root

  18. gid=root

  19. # 启用主进程

  20. master=true

  21. # 自动移除unix Socket和pid文件当服务停止的时候

  22. vacuum=true

  23. # 序列化接受的内容,如果可能的话

  24. thunder-lock=true

  25. # 启用线程

  26. enable-threads=true

  27. # 设置自中断时间

  28. harakiri=30

  29. # 设置缓冲

  30. post-buffering=4096

  31. # 设置日志目录

  32. daemonize=/www/speech/script/uwsgi.log

然后使用以下命令启动:
  
  
  
  1. uwsgi --ini uwsgi.ini

执行命令,查看是否启动成功:
  
  
  
  1. [root@AY140216131049Z script]# ps -ef|grep uwsgi

  2. root 304010Nov21? 00:00:03 uwsgi --ini uwsgi.ini

  3. root 304130400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  4. root 304230400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  5. root 304330400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  6. root 304430400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  7. root 304530400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  8. root 304630400Nov21? 00:00:00 uwsgi --ini uwsgi.ini

  9. root 66066580018:13 pts/000:00:00 grep --color=auto uwsgi

重启:
  
  
  
  1. uwsgi --reload uwsgi.pid

配置Nginx代理:
  
  
  
  1. server {

  2. listen 80;

  3. server_name speech.52itstyle.vip;

  4. charset utf-8;

  5. location / {

  6. include uwsgi_params; # 导入一个Nginx模块他是用来和uWSGI进行通讯的

  7. uwsgi_connect_timeout 30; # 设置连接uWSGI超时时间

  8. uwsgi_pass unix:/www/speech/script/uwsgi.sock; # 指定uwsgi的sock文件所有动态请求就会直接丢给他

  9. }

  10. # 动静分离 Nginx 处理静态请求

  11. location /static{

  12. root /www/speech/;

  13. }

  14. }

如果启动HTTPS:
  
  
  
  1. server {

  2. listen 80;

  3. listen 443 ssl;

  4. server_name speech.52itstyle.vip;

  5. #ssl on;

  6. #证书路径

  7. ssl_certificate /usr/local/openresty/nginx/cert/1901523_speech.52itstyle.vip.pem;

  8. #私钥路径

  9. ssl_certificate_key /usr/local/openresty/nginx/cert/1901523_speech.52itstyle.vip.key;

  10. #缓存有效期

  11. ssl_session_timeout 5m;

  12. #可选的加密算法,顺序很重要,越靠前的优先级越高.

  13. ssl_ciphers ECDHE-RSA-AES128-GCM-SHA256:ECDHE:ECDH:AES:HIGH:!NULL:!aNULL:!MD5:!ADH:!RC4;

  14. #安全链接可选的加密协议

  15. ssl_protocols TLSv1TLSv1.1TLSv1.2;

  16. ssl_prefer_server_ciphers on;


  17. location / {

  18. include uwsgi_params; # 导入一个Nginx模块他是用来和uWSGI进行通讯的

  19. uwsgi_connect_timeout 30; # 设置连接uWSGI超时时间

  20. uwsgi_pass unix:/www/speech/script/uwsgi.sock; # 指定uwsgi的sock文件所有动态请求就会直接丢给他

  21. }

  22. # 动静分离 Nginx 处理静态请求

  23. location /static{

  24. root /www/speech/;

  25. }

  26. }

项目源码

https://gitee.com/52itstyle/baidu-speech
https://gitee.com/52itstyle/SPTools
▲长按图片识别语音播报

本文分享自微信公众号 - 爪哇笔记(Java_notes)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!