@pccd/lt-filter
v7.0.2
Published
LanguageTool filter for Catalan text processing
Maintainers
Readme
lt-filter
Programa per filtrar frases en català amb LanguageTool. Separa les frases correctes de les que contenen possibles errors gramaticals o ortogràfics.
Instal·lació i ús (requereix npm i JRE 17+)
npm install @pccd/lt-filterÚs com a eina de línia d'ordres (CLI)
# Per defecte, les frases correctes van a stdout i les incorrectes a stderr
npx lt-filter input.txt > correct.txt 2> flagged.txt
# Si no s'especifica un fitxer, es llegeix l'entrada estàndard
cat input.txt | npx lt-filter > correct.txt 2> flagged.txt
# Només frases correctes
npx lt-filter --correct input.txt > correct.txt
# Només frases potencialment incorrectes
npx lt-filter --flagged input.txt > flagged.txt
# Inclou el nom de la regles
echo "A acaba-set" | npx lt-filter --flagged --rule-names
# Desactiva regles addicionals (s'afegeixen a les regles per defecte)
npx lt-filter --disable-rules REGLA1,REGLA2 input.txt
# Substitueix completament les regles per defecte
npx lt-filter --disable-rules-replace SER_ESSER input.txtSi no, es pot baixar directament el fitxer JAR:
wget https://github.com/pereorga/pccd-lt-filter/raw/refs/heads/master/bin/lt-filter.jar
java -jar lt-filter.jar --helpÚs com a servidor REST
Per evitar la sobrecàrrega d'iniciar l'aplicació per a cada comprovació, es pot executar com a servidor REST.
Inicia el servidor:
java -jar bin/lt-filter.jar --port 8080Envia text per a la seva anàlisi:
Fes una petició POST a l'arrel (/) amb el text (una o més frases separades per salts de línia) en el cos de la petició.
curl -X POST -d "Això és una frase correcta.
Això és una altre frase." "http://localhost:8080/"Resposta JSON:
La resposta és un objecte JSON que separa les frases correctes de les incorrectes.
{
"correct": ["Això és una frase correcta."],
"flagged": [
{
"sentence": "Això és una altre frase."
}
]
}Paràmetres opcionals:
Podeu passar opcions de la línia d'ordres com a paràmetres de consulta a la URL.
rule-names=true: Inclou els identificadors de les regles a la sortida.disable-rules=REGLA1,REGLA2: Desactiva regles addicionals.disable-rules-replace=REGLA1,REGLA2: Substitueix les regles desactivades per defecte.
Exemple amb rule-names:
curl -X POST -d "A acaba-set" "http://localhost:8080/?rule-names=true"Resposta JSON:
{
"correct": [],
"flagged": [
{
"sentence": "A acaba-set",
"rules": ["PREP_VERB_CONJUGAT"]
}
]
}Opcions de la línia d'ordres
| Opció | Descripció |
| ------------------------------- | ------------------------------------------------------------------ |
| --port PORT | Executa com a servidor REST en el port especificat |
| -c, --correct | Envia les frases correctes a stdout |
| -f, --flagged | Envia les frases marcades per LanguageTool a stdout |
| -r, --rule-names | Inclou els noms de les regles després de les frases marcades |
| -d, --disable-rules RULES | Llista de regles addicionals a desactivar (separades per comes) |
| --disable-rules-replace RULES | Llista de regles a desactivar (substitueix les regles per defecte) |
| -h, --help | Mostra el missatge d'ajuda |
| -v, --version | Mostra la versió |
Regles desactivades per defecte
Per defecte, es desactiven les següents regles de LanguageTool:
EXIGEIX_VERBS_CENTRALEXIGEIX_ACCENTUACIO_GENERALEXIGEIX_POSSESSIUS_VEVITA_PRONOMS_VALENCIANSEVITA_DEMOSTRATIUS_EIXEVOCABULARI_VALENCIAEXIGEIX_USSER_ESSERWHITESPACE_RULECA_UNPAIRED_BRACKETSESPAIS_SOBRANTSMAJ_DESPRES_INTERROGANTUPPERCASE_SENTENCE_START
Compilació (requereix Maven i JDK 17+)
mvn packageCrèdits
Originalment pensat per incoporar les frases de la PCCD a Common Voice. Basat en el codi de https://github.com/Softcatala/filter-wiki-corpus-lt
