Skip to content

Commit

Permalink
[itn] add whitelist (#263)
Browse files Browse the repository at this point in the history
* [itn] add whitelist

* [itn] add whitelist
  • Loading branch information
xingchensong authored Jul 4, 2024
1 parent 2b04bc3 commit 703433b
Show file tree
Hide file tree
Showing 5 changed files with 22 additions and 3 deletions.
15 changes: 15 additions & 0 deletions itn/chinese/data/default/whitelist.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -61,3 +61,18 @@
五台山 五台山
六盘水 六盘水
八宿 八宿
十二五 十二五
十三五 十三五
十四五 十四五
几十万 几十万
几百万 几百万
几千万 几千万
十几万 十几万
二十几万 二十几万
三十几万 三十几万
四十几万 四十几万
五十几万 五十几万
六十几万 六十几万
七十几万 七十几万
八十几万 八十几万
九十几万 九十几万
1 change: 1 addition & 0 deletions itn/chinese/test/data/normalizer.txt
Original file line number Diff line number Diff line change
Expand Up @@ -30,3 +30,4 @@
可以拨打幺二三零六来咨询 => 可以拨打12306来咨询
二点五平方电线,五,五十五,疑是银河落九天,十二块五 => 2.5平方电线,5,55,疑是银河落9天,12块5
三百九十九三盒 => 3993盒
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资
Original file line number Diff line number Diff line change
Expand Up @@ -38,4 +38,5 @@
这是零百 => 这是零百
这是零千 => 这是零千
这是一百一个,一千两位,一万三天 => 这是100一个,1000两位,10000三天
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资
Original file line number Diff line number Diff line change
Expand Up @@ -7,4 +7,5 @@
这是零百 => 这是零百
这是零千 => 这是零千
这是一百一个,一千两位,一万三天 => 这是100 1个,1000 2位,10000 3天
这是九百九周,九千九月,九万九年 => 这是900 9周,9000 9月,90000 9年
这是九百九周,九千九月,九万九年 => 这是900 9周,9000 9月,90000 9年
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资
Original file line number Diff line number Diff line change
Expand Up @@ -38,4 +38,5 @@
这是零百 => 这是零百
这是零千 => 这是零千
这是一百一个,一千两位,一万三天 => 这是100一个,1000两位,10000三天
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资

0 comments on commit 703433b

Please sign in to comment.