NLP常用工具

释放双眼,带上耳机,听听看~!

1、统计类工具:可参见【统计学习常用Python扩展包】

2、linux自带工具:可参见【【整理】Linux常用文本处理命令】

3、简繁转换工具:opencc

Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。(https://code.google.com/p/opencc/wiki/Introduction)

特點

  • 嚴格區分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。

  • 支持異體字轉換,兼容陸港澳臺等不同地區用字差別。

  • 嚴格審校一簡對多繁詞條,原則爲「能分則不合」,用戶可自定義合併。

  • 支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。

  • 詞庫和函數庫完全分離,可以自由修改、導入、擴展。

  • 支持C,C++,Python,PHP等多種語言調用,命令行直接調用,以及圖形界面。

  • 兼容Windows、Linux等多種平臺。

進展

  • 2011年12月,支持地區異體字和習慣用詞轉換。

  • 2011年7月,圖形版本發佈。

  • OpenCC創立於2009年,初期一直在蒐集整理詞庫,2010年6月正式對外發佈。

  • 已經用於ibus-pinyin、fcitx的繁體模式輸入。U

Ubuntu 下安装如下:

NLP常用工具

 

上面的安装只是作为shell的命令调用,如果要在python中import 的话,可以使用下面方法安装:

参考:OpenCC 0.1

使用pip或者easy_install从pip源中下载并安装,如下:以easy_install为例

NLP常用工具

使用如下:


1
2
3
4
5
6
7
8
9
10
11
12
13
1zhs2zhtw_p.ini
2zhs2zhtw_v.ini
3zhs2zhtw_vp.ini
4zht2zhtw_p.ini
5zht2zhtw_v.ini
6zht2zhtw_vp.ini
7zhtw2zhs.ini
8zhtw2zht.ini
9zhtw2zhcn_s.ini
10zhtw2zhcn_t.ini
11zhs2zht.ini:简体转繁体
12zht2zhs.ini:繁体转简体
13

NLP常用工具

给TA打赏
共{{data.count}}人
人已打赏
安全运维

基于spring boot和mongodb打造一套完整的权限架构(三)【抽象实现类和swagger的实现】

2021-12-11 11:36:11

安全运维

Ubuntu上NFS的安装配置

2021-12-19 17:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索