[Home] [Query] [OO] [KDE] [KDEdoc] [PHP] [EUROPARL] [CVS] [Tools]

KDEdoc

source: http://i18n.kde.org/

24 languages, 226 bitexts
total number of files: 3736
total number of tokens: 3783411
total number of sentence fragments: 302634

Download

Upper-right triangle: sample files (test = sentence alignment samples, language IDs = XML file samples)
Bottom-left triangle: XML-files (ces = sentence alignment files in XCES format, language IDs = gzipped tar-archives of corpus files in XML)

da de en_GB es et fr hu it ja nl nn pt pt_BR ro ru sk sl sr sv tr uk wa xh zh_TW
da da test test test test test test test da
de de test test test test test test test test test test test test test test test test test test test test test test de
en_GB ces en_GB test test test test test test test test test test test test test test test test test test test en_GB
es ces ces es test test test test test test test test test test test test test test test test test test test test es
et ces ces ces et test test test test test test test et
fr ces ces ces ces fr test test test test test test test test test test test test test test test test test test fr
hu ces ces ces ces ces hu test test test test test test test test test test test test test test test test test hu
it ces ces ces ces ces it test test test test test test test test test test test test test test test it
ja ces ces ces ces ces ces ja test test test test test test test test test test test test test ja
nl ces ces ces ces ces ces ces ces nl test test test test test test test test test test test test test nl
nn ces ces ces ces ces nn test test test test test test nn
pt ces ces ces ces ces ces ces ces ces ces pt test test test test test test test test test test test pt
pt_BR ces ces ces ces ces pt_BR test test test test test pt_BR
ro ces ces ces ces ces ces ces ces ces ro test test test test test test test test test test ro
ru ces ces ces ces ces ces ces ces ces ces ces ces ru test test test test test test test test test ru
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk test test test test test test test test sk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl test test test test test test test sl
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr test test test test test sr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv test test test test test sv
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr test test test test tr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk test test uk
wa ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces wa test test wa
xh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces xh test xh
zh_TW ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh_TW zh_TW
da de en_GB es et fr hu it ja nl nn pt pt_BR ro ru sk sl sr sv tr uk wa xh zh_TW

Statistics

Number of files, tokens, and sentence fragments per language
Number of aligned sentences per target language

language files tokens sentencesdadeen_GBesetfrhuitjanlnnptpt_BRroruskslsrsvtrukwaxhzh_TW
da 384 469677 38475 48 37087 132 223 19 5491 204
de 374 471397 39769 3030 25451 259 23909 15234 10135 419 6787 97 14754 612 210 4434 17959 14040 49 35453 150 216 19 4784 205
en_GB 132 41521 3179 3030 3094 47 2403 1214 1818 195 1790 3146 94 688 3097 2242 48 2515 172 216 19 783 104
es 482 511235 36925 25451 3094 251 21915 11868 8860 410 7410 106 14393 595 207 4834 16780 14703 47 33691 171 235 19 4478 198
et 14 175 44 259 47 251 259 40 233 249 60 252 239
fr 340 419241 31534 23909 2403 21915 259 11495 8421 316 5524 90 10376 360 163 3294 13578 10898 27 29378 146 194 17 5795 169
hu 233 131406 12018 15234 1214 11868 40 11495 4675 348 4376 106 5152 458 189 1929 8335 6120 46 15102 119 198 19 1127 188
it 134 142926 12292 10135 1818 8860 8421 4675 302 1007 4711 221 204 2150 6270 4062 48 12013 54 61 19 4094 202
ja 10 6220 189 419 195 410 316 348 302 279 394 185 241 418 367 30 419 43 69 18 325 193
nl 160 94879 6825 6787 1790 7410 233 5524 4376 1007 279 21 6503 186 902 7358 6429 24 4832 172 235 19 991 168
nn 2 1229 111 97 106 90 106 21 21 108 102 102 19 21
pt 213 238307 16898 14754 3146 14393 249 10376 5152 4711 394 6503 21 195 1840 14167 9703 47 14226 173 238 19 2727 189
pt_BR 26 9951 696 612 595 360 458 221 342 443 181 674 42
ro 6 2167 173 210 94 207 163 189 204 185 186 195 155 204 207 26 209 25 18 14 186 152
ru 99 75839 4374 4434 688 4834 60 3294 1929 2150 241 902 1840 342 155 2890 3374 32 5036 49 58 18 1959 188
sk 313 220487 19984 17959 3097 16780 252 13578 8335 6270 418 7358 108 14167 443 204 2890 11600 49 17999 174 237 19 4089 203
sl 201 178447 14019 14040 2242 14703 239 10898 6120 4062 367 6429 102 9703 181 207 3374 11600 49 13329 133 182 19 3849 200
sr 2 206 29 48 49 48 47 27 46 48 30 24 47 26 32 49 49 48 19 19 31 30
sv 479 689943 57452 37087 35453 2515 33691 29378 15102 12013 419 4832 102 14226 674 209 5036 17999 13329 48 138 227 19 5654 202
tr 31 830 134 132 150 172 171 146 119 54 43 172 173 25 49 174 133 19 138 63 18 52 36
uk 33 2841 217 223 216 216 235 194 198 61 69 235 19 238 18 58 237 182 227 63 114 32
wa 1 173 19 19 19 19 19 17 19 19 18 19 19 14 18 19 19 19 19 18 19 18
xh 61 74314 7082 5491 4784 783 4478 5795 1127 4094 325 991 21 2727 42 186 1959 4089 3849 31 5654 52 114 19 198
zh_TW 6 0 196 204 205 104 198 169 188 202 193 168 189 152 188 203 200 30 202 36 32 18 198