DaNLP

DaNLP er et open source repository til natural language processing af dansk tekst

Natural Language Processing (NLP) er et område inden for kunstig intelligens, der handler om at få computere til at forstå naturligt sprog.

En række udfordringer betyder, at de metoder der anvendes på engelsk ikke umiddelbart kan bruges til at lave analyser af det danske sprog.

Vi er derfor ved at udvikle et open source repository. Det indeholder en række komponenter, der gør det nemt at komme igang og let at komme videre med håndtering af dansk tekst.

formål

Formålet med DaNLP er at hjælpe offentlige og private organisationer med at komme #ForanDigitalt og udnytte potentialerne i Natural Language Processing

I forbindelse med vores arbejde med kunstig intelligens bliver vi ofte spurgt om hvad kunstig intelligens kan gøre for et produkt eller en organisation og hvordan man kommer i gang?

Dette site er derfor tænkt som et startsted for virksomheder og andre organisationer, der er i gang med eller ønsker at komme i gang med at anvende den del af kunstig intelligens, der handler om håndtering og analyse af tekstdata.

Hvordan kommer man igang?

Hvem er denne side til?

Vi formoder at du er her fordi du på en eller anden måde er involveret i udvikling af software og ønsker at blive klogere på hvad kunstig intelligens kan gøre for dit produkt eller din organisation.

Software udviklere

der ønsker at skabe sig et overblik over tools til håndtering af dansk tekst.

Forretningsudviklere

der har hørt at machine learning kan hjælpe med at udvikle deres produkt eller forbedre processer i deres organisation.

Data scientists

der ønsker at udvide deres repertoire.

Ledere

der er i gang med at afklare hvad der er den rigtige måde at få kunstig intelligens i organisations software, processer og kultur.

Er NLP nyt for dig?

NLP er som nævnt et felt inden for kunstig intelligens, der handler om at få computere til at forstå naturligt sprog.

På mere mundret dansk kan man sige, at NLP gør det muligt, at computere kan forstå tekst og optagelser af tale samt foretage handlinger på baggrund af den forståelse.

Hvis NLP er nyt for dig, og du kunne tænke dig at vide mere, har vi lavet en introduktion, der dækker det grundlæggende.

målsætning

Målet med DaNLP er at lave en samlet oversigt over alle de danske ressourcer, der er til rådighed, samt at udvikle de værktøjer der mangler, for at NLP på dansk bliver mere anvendeligt for alle og særligt for danske virksomheder.

I DaNLP finder du derfor en oversigt over alle de tilgængelige datasæt og modeller, som allerede findes på dansk. Derudover finder du eksempler på kode samt beskrivelser af, hvordan du kommer i gang med at bruge både datasæt og modeller i populære NLP frameworks som spaCy og NLTK, såvel som i deep learning frameworks som PyTorch og TensorFlow.

Vi er i fuld gang med udviklingen, og de første ressourcer er tilgængelige på GitHub.

din indflydelse

Hjælp os med at forbedre DaNLP

Er der anvendelsesområder du gerne ser vi arbejder på? Eller eksisterende områder du gerne ser vi arbejder videre med? Så kontakt os meget gerne på danlp@alexandra.dk.

I vores roadmap kan du se hvad vi arbejder på lige nu.

Derudover kan du hjælpe os med at skærpe, hvad vi skal kaste os over ved at upvote de anvendelsesområder, der vil give mest værdi for dig!

Tutorials

Jupyter notebooks og lignende med beskrivelser, der gør det let at komme i gang med NLP på egen hånd.

Datasæt

Mere data og annoterede datasæt er vejen frem, og de skal gerne opdateres dynamisk.

Anonymisering/redaction

Bedre metoder og guidelines til anonymisering og sikring af data.

Dialogsystemer

Skal vi chitchatte? Eller i hvert fald udvikle værtøjer og data der gør maskiner bedre til at forstå dialoger.

Summarization

Værktøjer og modeller, der kan opsummere eller udtrække de væsentlige pointer i tekst.

Named entity recognition

Øge performance på eksisterende værtøjer og udvikle nye tags.

Sentiment analyse

Få styr på følelserne og dykke ned i forskellige dimensioner af sentiment. For eksempel aspect based sentiment, så vi kan bede maskiner finde ud af hvad der omtales positivt og negativt i tekst.

Syntaktisk analyse

Bedre syntaktiske værktøjer, som dependency parsing eller forbedring af part-of-speech tagging.

nyheder

Blog

Vi skriver løbende om udviklingen af DaNLP og andre NLP relaterede emner på vores Medium side.

Hvem står bag?

DaNLP udvikles og varetages af Alexandra Instituttet. Vi er en almennyttig virksomhed der skaber vækst og velfærd gennem it-baserede produkter og services.

Udviklingen af DaNLP sker som del af resultatkontrakten Dansk for alle, der er tildelt Alexandra Instituttet af Uddannelses- og Forskningministeriet.

Hvis du har kommentarer eller spørgsmål, så skriv gerne til os på danlp@alexandra.dk. Vi vil altid gerne i dialog med virksomheder og organisationer, der også interesserer sig for NLP.

NETVÆRK

Deltag i vores DaNLP netværk

Vi er efterhånden et stort netværk, der samarbejder om dansk sprogteknologi.

Men vi vil gerne være flere – vil du være med?