Inom språkteknologin används begrepp som är allmänt vedertagna inom det bredare forskarsamhället, men också sådana som är mer specifika. För att underlätta beskrivningen och användningen av Swe-Clarins resurser lyfter vi därför fram några centrala termer med förklaringar.
Generaliseringar bör läsas utifrån ambitionen är att främja tvärvetenskaplig förståelse.
| Term | Betydelse |
| annotering | information som tillförs en text, manuellt eller automatiskt av ett verktyg. Annotering kan göras på olika nivåer (ord, mening, stycke). |
| entitet | benämnd enhet. |
| flerordsuttryck | ord som ofta uppträder ihop och som språkligt beter sig som en enhet, till exempel "ad hoc". |
| KWiC (keyword in context) | en visuell uppställning av ett ord eller uttryck i sitt sammanhang, ofta benämnt konkordans. |
| korpus | en samling texter som sammanställts i ett visst syfte. |
| lemgram | ordklassbaserat samlingsbegrepp för ett ords eller flerordsuttrycks samtliga böjningsformer. |
| Lexicographer's Mutual Information-värde | mått på i vilken utsträckning ord uppträder nära varandra, mer frekvent än vad som skulle kunna förklaras med slumpen. |
| parsning, syntaktisk | analys som identifierar beståndsdelarna i en sats och deras inbördes relationer. |
| precision | frekvens för relevanta entiteter i en sökning/filtrering. |
| recall | frekvens för irrelevanta entiteter i en sökning/filtrering. |
| segmentering | sätt att dela upp en text i ord eller ordliknande enheter som är användbara i det fortsatta arbetsflödet. |
| sökaktiviteter | filtrering, gruppering, navigering. |
| token | ord, flerordsuttryck, interpunktion med mera enligt en specifik segmentering. |