[Home] [Query] [EUconst] [OO] [KDE] [KDEdoc] [PHP] [EUROPARL] [CVS] [Tools]

EUconst

21 languages, 210 bitexts
total number of files: 987
total number of tokens: 3099290
total number of sentence fragments: 224919

Download

Complete download: EUconst.tar.gz (67M )

Upper-right triangle: sample files (test = sentence alignment samples, language IDs = XML file samples)
Bottom-left triangle: XML-files (ces = sentence alignment files in XCES format, language IDs = gzipped tar-archives of corpus files in XML)

cs da de el en es et fi fr ga hu it lt lv mt nl pl pt sk sl sv
cs cs test test test test test test test test test test test test test test test test test test test test cs
da ces da test test test test test test test test test test test test test test test test test test test da
de ces ces de test test test test test test test test test test test test test test test test test test de
el ces ces ces el test test test test test test test test test test test test test test test test test el
en ces ces ces ces en test test test test test test test test test test test test test test test test en
es ces ces ces ces ces es test test test test test test test test test test test test test test test es
et ces ces ces ces ces ces et test test test test test test test test test test test test test test et
fi ces ces ces ces ces ces ces fi test test test test test test test test test test test test test fi
fr ces ces ces ces ces ces ces ces fr test test test test test test test test test test test test fr
ga ces ces ces ces ces ces ces ces ces ga test test test test test test test test test test test ga
hu ces ces ces ces ces ces ces ces ces ces hu test test test test test test test test test test hu
it ces ces ces ces ces ces ces ces ces ces ces it test test test test test test test test test it
lt ces ces ces ces ces ces ces ces ces ces ces ces lt test test test test test test test test lt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces lv test test test test test test test lv
mt ces ces ces ces ces ces ces ces ces ces ces ces ces ces mt test test test test test test mt
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl test test test test test nl
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl test test test test pl
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt test test test pt
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk test test sk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl test sl
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv sv
cs da de el en es et fi fr ga hu it lt lv mt nl pl pt sk sl sv

Statistics

Number of files, tokens, and sentence fragments per language
Number of aligned sentences per target language

language files tokens sentencescsdadeelenesetfifrgahuitltlvmtnlplptskslsv
cs 47 127542 11462 10851 9766 9660 10444 10508 10455 10391 10534 10540 9287 10524 10603 10531 10498 10515 10558 11773 10881 9656 10425
da 47 149211 11266 10851 9429 10168 10324 10386 10285 10284 10503 10358 9219 10442 10413 10363 10369 10436 10375 11805 10808 9543 10324
de 47 144908 9483 9766 9429 8875 9082 9246 9078 9171 9284 9247 8885 9280 9247 9145 9143 9259 9376 10770 9308 8992 9076
el 47 162875 10426 9660 10168 8875 9779 9898 9174 9591 9972 9877 8795 9848 9351 9327 9806 9911 9690 10748 9778 8728 9460
en 47 164697 10332 10444 10324 9082 9779 10216 10240 10152 10286 10288 8934 10240 10292 10237 10299 10227 10211 11546 10300 9242 10257
es 47 177322 10481 10508 10386 9246 9898 10216 10209 10005 10434 10242 9083 10339 10181 10282 10305 10324 10272 11669 10388 9325 10229
et 47 114784 10528 10455 10285 9078 9174 10240 10209 10182 10267 10249 9046 10231 10341 10411 10304 10215 10218 11460 10316 9274 10204
fi 47 113698 10297 10391 10284 9171 9591 10152 10005 10182 10250 10023 9026 10218 10141 10192 10187 10210 10214 11459 10133 9212 10204
fr 47 177162 11289 10534 10503 9284 9972 10286 10434 10267 10250 10350 8985 10558 10390 10344 10385 10397 10303 11740 10440 9402 10291
ga 47 170820 10487 10540 10358 9247 9877 10288 10242 10249 10023 10350 9106 10298 10274 10318 10380 10255 10232 11606 10371 9363 10213
hu 47 146007 9121 9287 9219 8885 8795 8934 9083 9046 9026 8985 9106 9045 9091 9086 8948 9061 9007 10685 9190 8980 8895
it 47 162594 10596 10524 10442 9280 9848 10240 10339 10231 10218 10558 10298 9045 10356 10302 10341 10252 10292 11667 10384 9358 10212
lt 47 125859 10668 10603 10413 9247 9351 10292 10181 10341 10141 10390 10274 9091 10356 10392 10405 10319 10268 11546 10329 9364 10249
lv 47 134036 10779 10531 10363 9145 9327 10237 10282 10411 10192 10344 10318 9086 10302 10392 10341 10288 10251 11527 10377 9379 10212
mt 47 146076 10858 10498 10369 9143 9806 10299 10305 10304 10187 10385 10380 8948 10341 10405 10341 10312 10281 11659 10378 9315 10229
nl 47 167945 10438 10515 10436 9259 9911 10227 10324 10215 10210 10397 10255 9061 10252 10319 10288 10312 10265 11611 10383 9327 10254
pl 47 137191 10415 10558 10375 9376 9690 10211 10272 10218 10214 10303 10232 9007 10292 10268 10251 10281 10265 11539 10370 9277 10247
pt 47 165435 14946 11773 11805 10770 10748 11546 11669 11460 11459 11740 11606 10685 11667 11546 11527 11659 11611 11539 11609 10822 11529
sk 47 128428 10987 10881 10808 9308 9778 10300 10388 10316 10133 10440 10371 9190 10384 10329 10377 10378 10383 10370 11609 9435 10327
sl 47 142986 9725 9656 9543 8992 8728 9242 9325 9274 9212 9402 9363 8980 9358 9364 9379 9315 9327 9277 10822 9435 9227
sv 47 139714 10335 10425 10324 9076 9460 10257 10229 10204 10204 10291 10213 8895 10212 10249 10212 10229 10254 10247 11529 10327 9227