Über Open CoDE Software Wiki Diskussionen GitLab

Skip to content

RFC: Automagically detect languages for a given text using lingua.

Jakob Deller requested to merge language-detect into main

As rule-based language detection can become quite difficult, e.g. in a collection of scraped linked documents as in the PDFs for NLWKN-Veröffentlichungen, I was searching a solution to inquire the language automatically.

Results so far look promising, just on very short titles I get a few other results than guessing by hand:

WebShop Deutsch Niederländisch/Nederlands
Steinhuder Meer (2011) Deutsch Niederländisch/Nederlands
Dahlemer-Halemer See (2022) Deutsch Niederländisch/Nederlands
Bederkesaer See (2022) Deutsch Niederländisch/Nederlands
Schulz (2015)_Suspended Litter in Elbe, Weser, Ems Estuaries Deutsch Englisch/English
Wax and wane of Zostera marina on the tidal flat Hond-­Paap/Hund-­Paapsand in the Ems estuary; examinations of existing data ..... 8/2013 Deutsch Englisch/English
Makroalgen im nds. Wattenmeer 1990 - 2016 Deutsch Niederländisch/Nederlands
WebShop Deutsch Niederländisch/Nederlands
Infoblatt "Le loup – un animal sauvage présent dans le voisinage" Deutsch Französisch/Français
Infoblatt "The wolf – wild animal in your neighbourhood" Deutsch Englisch/English
Kinderheft "Fenja Deutsch Niederländisch/Nederlands
Hieve (2011) Deutsch Englisch/English
Heerter See (2011) Deutsch Niederländisch/Nederlands
Gartower See (2022) Deutsch Englisch/English
Tankumsee (2011) Deutsch Niederländisch/Nederlands
Seeburger See (2022) Deutsch Niederländisch/Nederlands
Balksee (2022) Deutsch Niederländisch/Nederlands
Koldinger Kiessee (2022) Deutsch Niederländisch/Nederlands
Alfsee (2023) Deutsch Niederländisch/Nederlands

My guess is that these could be significantly improved by

  • assigning better titles in the first place
  • Also use description to infer language.
Edited by Jakob Deller

Merge request reports