Skip to content

Commit c933a26

Browse files
Hindi 2.0: Quarterly Measures, Fraction Exceptions, Changes to Date (#306)
* Addition of whitelist and word classes Signed-off-by: Tarushi V <tarushiv@nvidia.com> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * Updation of Jenkins date Signed-off-by: Tarushi V <tarushiv@nvidia.com> * Cleanup Signed-off-by: Tarushi V <tarushiv@nvidia.com> * Updation Signed-off-by: Tarushi V <tarushiv@nvidia.com> * Updation Signed-off-by: Tarushi V <tarushiv@nvidia.com> * Hindi 2.0 Signed-off-by: Tarushi V <tarushiv@nvidia.com> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: Tarushi V <tarushiv@nvidia.com> Signed-off-by: tarushi2k2 <tarushiv@nvidia.com> Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
1 parent 10776d8 commit c933a26

34 files changed

+957
-245
lines changed

Jenkinsfile

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,7 @@ pipeline {
2727
HY_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/03-12-24-0'
2828
MR_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/03-12-24-1'
2929
JA_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/10-17-24-1'
30-
HI_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/04-03-25-1'
30+
HI_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/08-01-25-1'
3131
DEFAULT_TN_CACHE='/home/jenkinsci/TestData/text_norm/ci/grammars/06-08-23-0'
3232
}
3333
stages {
Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,3 +1,5 @@
11
ई.पू. ईसा पूर्व
22
ई. ईस्वी
33
ई. ईसवी
4+
वर्ष पूर्व वर्ष पूर्व
5+
शताब्दी शताब्दी

nemo_text_processing/inverse_text_normalization/hi/data/date/date_days.tsv

Lines changed: 0 additions & 34 deletions
This file was deleted.

nemo_text_processing/inverse_text_normalization/hi/data/measure/measurements.tsv

Lines changed: 9 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -263,6 +263,7 @@ yr सालों
263263
yr वर्ष
264264
yr वर्षों
265265
hp हॉर्स पावर
266+
hp हॉर्सपॉवर
266267
hp हॉर्सपावर
267268
hp अश्वशक्ति
268269
hp अश्वशक्त
@@ -284,4 +285,11 @@ mi/s मील प्रति सेकेंड
284285
mi/h मील प्रति घंटा
285286
mi/h मील प्रति घंटे
286287
mi/m मील प्रति मिनट
287-
₹/ac रुपए प्रति एकड़
288+
₹/ac रुपए प्रति एकड़
289+
w हफ़्ते
290+
w हफ़्ता
291+
w सप्ताह
292+
सदियां सदियां
293+
सदियाँ सदियाँ
294+
सदियों सदियों
295+
सदी सदी

nemo_text_processing/inverse_text_normalization/hi/data/money/currency.tsv

Lines changed: 1 addition & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -22,7 +22,6 @@ km बोस्निया और हर्जेगोविना का म
2222
p बोत्सवाना पुला
2323
r$ ब्राजीलियाई रियाल
2424
£ ब्रिटिश पाउंड
25-
£ पाउंड
2625
b$ ब्रुनेई डॉलर
2726
лв बुल्गारियाई लेव
2827
fbu बुरुंडी फ्रैंक
@@ -179,4 +178,4 @@ bs. वेनेजुएलन बोलिवार
179178
लीरा
180179
नाइरा
181180
¢ सेंट्स
182-
¢ सेंट
181+
¢ सेंट
Lines changed: 231 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,231 @@
1+
दो
2+
तीन
3+
चार
4+
पाँच
5+
पांच
6+
छः
7+
छह
8+
छे
9+
सात
10+
आठ
11+
नौ
12+
दस
13+
१० ग्यारह
14+
११ बारह
15+
१२ तेरह
16+
१३ चौदह
17+
१४ पन्द्रह
18+
१४ पंद्रह
19+
१५ सोलह
20+
१६ सत्रह
21+
१६ सतरह
22+
१७ अठारह
23+
१७ अट्ठारह
24+
१८ उन्नीस
25+
१८ उनीस
26+
१९ बीस
27+
२० इक्कीस
28+
२० इकीस
29+
२० ईकीस
30+
२१ बाईस
31+
२१ बाइस
32+
२२ तेईस
33+
२२ तेइस
34+
२३ चौबीस
35+
२४ पच्चीस
36+
२४ पचीस
37+
२५ छब्बीस
38+
२५ छबीस
39+
२६ सत्ताईस
40+
२६ सत्ताइस
41+
२६ सताईस
42+
२६ सताइस
43+
२७ अट्ठाईस
44+
२७ अट्ठाइस
45+
२७ अठाईस
46+
२७ अठाइस
47+
२८ उनतीस
48+
२८ उन्तीस
49+
२९ तीस
50+
३० इकतीस
51+
३० इकतिस
52+
३० इकत्तीस
53+
३० इकत्तिस
54+
३१ बत्तीस
55+
३१ बत्तिस
56+
३१ बतीस
57+
३१ बतिस
58+
३२ तैंतीस
59+
३२ तैंतिस
60+
३२ तैंत्तीस
61+
३२ तैंत्तिस
62+
३२ तेतीस
63+
३२ तेंतीस
64+
३३ चौंतीस
65+
३३ चौंतिस
66+
३३ चौंत्तीस
67+
३३ चौंत्तिस
68+
३४ पैंतीस
69+
३४ पैंतिस
70+
३४ पैंत्तीस
71+
३४ पैंत्तिस
72+
३५ छत्तीस
73+
३५ छत्तिस
74+
३५ छतीस
75+
३५ छतिस
76+
३६ सैंतीस
77+
३६ सैंतिस
78+
३६ सैंत्तीस
79+
३६ सैंत्तिस
80+
३७ अड़तीस
81+
३७ अड़तिस
82+
३७ अड़त्तीस
83+
३७ अड़त्तिस
84+
३८ उनतालीस
85+
३८ उनतालिस
86+
३८ उनत्तालीस
87+
३८ उनत्तालिस
88+
३८ उन्तालीस
89+
३८ उन्तालिस
90+
३९ चालीस
91+
४० इकतालीस
92+
४० इकतालिस
93+
४० इक्तालीस
94+
४१ बयालीस
95+
४१ बयालिस
96+
४१ ब्यालीस
97+
४२ तैंतालीस
98+
४२ तैंतालिस
99+
४३ चौवालीस
100+
४३ चौवालिस
101+
४३ चवालीस
102+
४३ चवालिस
103+
४३ चौंतालीस
104+
४४ पैंतालीस
105+
४४ पैंतालिस
106+
४५ छियालीस
107+
४५ छियालिस
108+
४५ छयालीस
109+
४६ सैंतालीस
110+
४६ सैंतालिस
111+
४६ सैतालिस
112+
४७ अड़तालीस
113+
४७ अड़तालिस
114+
४८ उनचास
115+
४९ पचास
116+
५० इक्यावन
117+
५० इकयावन
118+
५१ बावन
119+
५२ तिरपन
120+
५२ तिरेपन
121+
५३ चौवन
122+
५४ पचपन
123+
५५ छप्पन
124+
५५ छपन
125+
५६ सत्तावन
126+
५६ सतावन
127+
५७ अट्ठावन
128+
५७ अठावन
129+
५८ उनसठ
130+
५८ उनसठ
131+
५९ साठ
132+
६० इकसठ
133+
६१ बासठ
134+
६१ बासट
135+
६२ तिरसठ
136+
६२ तिरेसठ
137+
६३ चौंसठ
138+
६४ पैंसठ
139+
६५ छियासठ
140+
६५ छयासठ
141+
६६ सड़सठ
142+
६७ अड़सठ
143+
६८ उनहत्तर
144+
६८ उनहतर
145+
६९ सत्तर
146+
६९ सतर
147+
७० इकहत्तर
148+
७० इकहतर
149+
७० इक्हत्तर
150+
७० इकत्तर
151+
७१ बहत्तर
152+
७१ बहतर
153+
७२ तिहत्तर
154+
७२ तिहतर
155+
७३ चौहत्तर
156+
७३ चौहतर
157+
७४ पचहत्तर
158+
७४ पचहतर
159+
७४ पिछत्तर
160+
७४ पिछतर
161+
७५ छिहत्तर
162+
७५ छिहतर
163+
७५ छियत्तर
164+
७६ सतहत्तर
165+
७६ सतहतर
166+
७६ सतत्तर
167+
७७ अठहत्तर
168+
७७ अठहतर
169+
७८ उन्यासी
170+
७८ उन्यासि
171+
७८ उनासी
172+
७८ उनासि
173+
७९ अस्सी
174+
७९ अस्सि
175+
८० इक्यासी
176+
८० इक्यासि
177+
८१ बयासी
178+
८१ बयासि
179+
८१ ब्यासी
180+
८१ ब्यासि
181+
८१ बिरासी
182+
८२ तिरासी
183+
८२ तिरासि
184+
८२ तेरासी
185+
८३ चौरासी
186+
८३ चौरासि
187+
८४ पचासी
188+
८४ पचासि
189+
८४ पिचयासी
190+
८४ पिचयासि
191+
८४ पिचासी
192+
८५ छियासी
193+
८५ छियासि
194+
८६ सत्तासी
195+
८६ सत्तासि
196+
८६ सतासी
197+
८६ सतासि
198+
८७ अट्ठासी
199+
८७ अट्ठासि
200+
८७ अठासी
201+
८७ अठासि
202+
८८ नवासी
203+
८८ नवासि
204+
८९ नब्बे
205+
९० इक्यानबे
206+
९० इक्यानवे
207+
९१ बानबे
208+
९१ बानवे
209+
९२ तिरानबे
210+
९२ तिरानवे
211+
९३ चौरानबे
212+
९३ चौरानवे
213+
९४ पंचानबे
214+
९४ पंचानवे
215+
९४ पचानवे
216+
९४ पिचयानवे
217+
९४ पिचयानबे
218+
९४ पिच्यानवे
219+
९४ पिच्यानबे
220+
९५ छियानबे
221+
९५ छियानवे
222+
९६ सत्तानबे
223+
९६ सत्तानवे
224+
९७ अट्ठानबे
225+
९७ अट्ठानवे
226+
९७ अठानवे
227+
९७ अठानबे
228+
९८ निन्यान्बे
229+
९८ निन्यानबे
230+
९८ निन्यानवे
231+
९८ निन्यान्वे

nemo_text_processing/inverse_text_normalization/hi/data/numbers/teens_and_ties.tsv

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -9,6 +9,7 @@
99
१७ सत्रह
1010
१७ सतरह
1111
१८ अठारह
12+
१८ अठाहर
1213
१८ अट्ठारह
1314
१९ उन्नीस
1415
१९ उनीस
@@ -216,4 +217,4 @@
216217
९९ निन्यान्बे
217218
९९ निन्यानबे
218219
९९ निन्यानवे
219-
९९ निन्यान्वे
220+
९९ निन्यान्वे

nemo_text_processing/inverse_text_normalization/hi/data/time/hour.tsv

Lines changed: 0 additions & 27 deletions
This file was deleted.
Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,15 @@
1+
१२ एक
2+
दो
3+
तीन
4+
चार
5+
पाँच
6+
पांच
7+
छः
8+
छह
9+
छे
10+
सात
11+
आठ
12+
नौ
13+
दस
14+
१० ग्यारह
15+
११ बारह

0 commit comments

Comments
 (0)