RFC: Automagically detect languages for a given text using lingua. (!821) · Merge requests · umwelt-info / metadaten

Jakob Deller requested to merge language-detect into main Sep 03, 2024

As rule-based language detection can become quite difficult, e.g. in a collection of scraped linked documents as in the PDFs for NLWKN-Veröffentlichungen, I was searching a solution to inquire the language automatically.

Results so far look promising, just on very short titles I get a few other results than guessing by hand:

WebShop	Deutsch	Niederländisch/Nederlands
Steinhuder Meer (2011)	Deutsch	Niederländisch/Nederlands
Dahlemer-Halemer See (2022)	Deutsch	Niederländisch/Nederlands
Bederkesaer See (2022)	Deutsch	Niederländisch/Nederlands
Schulz (2015)_Suspended Litter in Elbe, Weser, Ems Estuaries	Deutsch	Englisch/English
Wax and wane of Zostera marina on the tidal flat Hond-Paap/Hund-Paapsand in the Ems estuary; examinations of existing data ..... 8/2013	Deutsch	Englisch/English
Makroalgen im nds. Wattenmeer 1990 - 2016	Deutsch	Niederländisch/Nederlands
WebShop	Deutsch	Niederländisch/Nederlands
Infoblatt "Le loup – un animal sauvage présent dans le voisinage"	Deutsch	Französisch/Français
Infoblatt "The wolf – wild animal in your neighbourhood"	Deutsch	Englisch/English
Kinderheft "Fenja	Deutsch	Niederländisch/Nederlands
Hieve (2011)	Deutsch	Englisch/English
Heerter See (2011)	Deutsch	Niederländisch/Nederlands
Gartower See (2022)	Deutsch	Englisch/English
Tankumsee (2011)	Deutsch	Niederländisch/Nederlands
Seeburger See (2022)	Deutsch	Niederländisch/Nederlands
Balksee (2022)	Deutsch	Niederländisch/Nederlands
Koldinger Kiessee (2022)	Deutsch	Niederländisch/Nederlands
Alfsee (2023)	Deutsch	Niederländisch/Nederlands

My guess is that these could be significantly improved by

assigning better titles in the first place
Also use description to infer language.

Edited Sep 03, 2024 by Jakob Deller

RFC: Automagically detect languages for a given text using lingua.

Merge request reports