在很多数据处理的时候,我们可能会面临一个问题-多语言的文本数据,比如我最近做的一个评论数据分析,我们发现这个数据有多种语言形式,这个时候我们需要对它进行统一化,方面后面的进行,不然可能会面临多语言分情况分析(比如做情感分析的时候,语言不同,它所使用的模型也不同),所以这篇博客也是为了那个问题解决所介绍的。
下面我主要介绍几种方法:
1.translate
用法很简单,它的功能也就是翻译的功能,下面我看几个实例:
from translate import Translator
translator= Translator(to_lang="chinese")#指定要翻译成的语言
translation = translator.translate("Good night!")
print(translation)
运行结果是:
晚安!
还可以对不同两种语言直接进行切换:
translator= Translator(from_lang="chinese",to_lang="english")
translation = translator.translate("这是一只铅笔!")
print(translation)
运行结果是:
This is a pencil!
我们可以试试稍微复杂点的句子:
translator= Translator(from_lang="chinese",to_lang="english")
translation = translator.translate("哇谢谢您的超赞好评 您提到的问题我们会努力改进 期待再来哟")
print(translation)
运行结果是:
Wow, thank you for your praise, the questions you mentioned, we will work hard to improve and look forward to seeing you again.
个人觉得翻译还是可以的。
translator= Translator(to_lang="chinese")
translation = translator.translate("Niko was very welcoming, and very easy to communicate. I had a cold when I arrived, she cooked porridge for me. The place is close to metro station, a really good value!")
print (translation)
运行结果是:
Niko非常热情,也很容易沟通。我到达时感冒了,她为我煮了粥。这个地方靠近地铁站,非常物有所值!
而且它能够识别英文名字,然后内容也大体翻译的还行。
这里我就介绍到这里,最后补充一点关于那个翻译语言参数可以设为简写,比如中文’zh’,这个大家自己下去查阅就行了。大多数我们也只用到这个功能。
2.Googletrans库(谷歌翻译)
由于谷歌不能直接访问可能还需要代理等,想了解的话可以看这篇博客。但它的功能相对更强大一些。
3.百度翻译
这个首先我们需要去百度翻译平台注册并填写申请,最后得到一个密钥相关,有兴趣的话可以去了解一下。具体用法类似我之前写的一篇博客,可以参考一下。
4.有道翻译
这个和百度类似,都可以对接python实现,具体我也没用过,大家可以自己去了解,
最后可以看看这篇博客关于翻译API的使用。
我们平时选用一种就可以了,看大家选择,后两种效率更高一些,但存在一定的收费功能。但对于大家而言都够用了。
来源:CSDN
作者:张峰π_π
链接:https://blog.csdn.net/qq_42370313/article/details/103235450