RFC: Automagically detect languages for a given text using lingua.
As rule-based language detection can become quite difficult, e.g. in a collection of scraped linked documents as in the PDFs for NLWKN-Veröffentlichungen, I was searching a solution to inquire the language automatically.
Results so far look promising, just on very short titles I get a few other results than guessing by hand:
WebShop | Deutsch | Niederländisch/Nederlands |
---|---|---|
Steinhuder Meer (2011) | Deutsch | Niederländisch/Nederlands |
Dahlemer-Halemer See (2022) | Deutsch | Niederländisch/Nederlands |
Bederkesaer See (2022) | Deutsch | Niederländisch/Nederlands |
Schulz (2015)_Suspended Litter in Elbe, Weser, Ems Estuaries | Deutsch | Englisch/English |
Wax and wane of Zostera marina on the tidal flat Hond-Paap/Hund-Paapsand in the Ems estuary; examinations of existing data ..... 8/2013 | Deutsch | Englisch/English |
Makroalgen im nds. Wattenmeer 1990 - 2016 | Deutsch | Niederländisch/Nederlands |
WebShop | Deutsch | Niederländisch/Nederlands |
Infoblatt "Le loup – un animal sauvage présent dans le voisinage" | Deutsch | Französisch/Français |
Infoblatt "The wolf – wild animal in your neighbourhood" | Deutsch | Englisch/English |
Kinderheft "Fenja | Deutsch | Niederländisch/Nederlands |
Hieve (2011) | Deutsch | Englisch/English |
Heerter See (2011) | Deutsch | Niederländisch/Nederlands |
Gartower See (2022) | Deutsch | Englisch/English |
Tankumsee (2011) | Deutsch | Niederländisch/Nederlands |
Seeburger See (2022) | Deutsch | Niederländisch/Nederlands |
Balksee (2022) | Deutsch | Niederländisch/Nederlands |
Koldinger Kiessee (2022) | Deutsch | Niederländisch/Nederlands |
Alfsee (2023) | Deutsch | Niederländisch/Nederlands |
My guess is that these could be significantly improved by
- assigning better titles in the first place
- Also use
description
to infer language.
Edited by Jakob Deller