parser / udpipe2 /ud-evalatin20 /get_evalatin20.sh
anasampa2's picture
Upload 151 files
ee0ec3d verified
raw
history blame
2.16 kB
#!/bin/sh
# Add EvaLatin tagger-only data
mkdir -p la_evalatin20
git -C la_evalatin20 clone --depth=1 https://github.com/CIRCSE/LT4HALA
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-train.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-dev.conllu
python3 get_evalatin20_split.py la_evalatin20/LT4HALA/data_and_doc/training_data_10-12-2019/*.conllu \
--train=la_evalatin20/la_evalatin20-train.conllu --dev=la_evalatin20/la_evalatin20-dev.conllu
echo "# variant = la_ittb" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_ittb/la_ittb-ud-train.conllu --ratio 0.6 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null
echo "# variant = la_perseus" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_perseus/la_perseus-ud-train.conllu --ratio 1 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null
echo "# variant = la_proiel" >>la_evalatin20/la_evalatin20-train.conllu
python3 get_evalatin20_split.py ../ud-2.6/la_proiel/la_proiel-ud-train.conllu --ratio 1 --train=la_evalatin20/la_evalatin20-train.conllu --dev=/dev/null
sed '
s#^14\tnescio\tnescio\tnescio\tVERB#14\tnescio\tnescio\tVERB#
s#^9\tne\tPART#9\tne\tne\tPART#
s#\(\t[^\t]*\)\{6\}$#\t_\t_\t_\t_\t_\t_#
' -i la_evalatin20/la_evalatin20-train.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test-crossgenre.conllu
echo "# variant = la_evalatin20" >la_evalatin20/la_evalatin20-test-crosstime.conllu
for f in la_evalatin20/LT4HALA/data_and_doc/gold_EvaLatin/*.conllu; do
case "$(basename $f)" in
Horatius-Carmina_GOLD.conllu) name=test-crossgenre;;
SummaContraGentiles_IV_GOLD.conllu) name=test-crosstime;;
*) name=test;;
esac
(echo "# newdoc id = $(basename $f)"; cat $f) >>la_evalatin20/la_evalatin20-$name.conllu
done
for conllu in la_evalatin20/la_evalatin20-dev.conllu la_evalatin20/la_evalatin20-test*.conllu; do
perl ../ud-2.6/conllu_to_text.pl --language=la <$conllu >${conllu%.conllu}.txt
done
rm -rf la_evalatin20/LT4HALA