Centrum Technologii Językowych CLARIN-PL
Politechnika Wrocławska jest liderem konsorcjum CLARIN-PL - polskiej części ogólnoeuropejskiej infrastruktury naukowej CLARIN [link do http://www.clarin.eu], obejmującej cyfrowe archiwa tekstów oraz narzędzia do ich automatycznej analizy.
CLARIN jest częścią Europejskiej Mapy Drogowej Infrastruktury Naukowej (ESFRI - European Roadmap for Research Infrastructures, European Strategy Forum on Research Infrastructures). CLARIN ma dostarczyć zaawansowane narzędzia badawcze w dziedzinie analizy tekstu i mowy dla szeroko pojętych nauk humanistycznych i społecznych.
W Centrum Technologii Językowych powstają programy, które pomocne będą m.in. w ustalaniu autorstwa tekstów anonimowych, określaniu profilu psychologicznego autora, automatycznym streszczaniu, wydobywaniu z tekstów wiedzy i informacji, badaniu powiązań w biznesie, polityce i nauce...
Centrum udostępnia także zasoby językowe, np. Korpus Politechniki Wrocławskiej oraz Słowosieć (drugi co do wielkości wordnet na świecie). Służą one do uczenia programów "rozumienia" języka naturalnego, ale mogą z nich korzystać również indywidualni użytkownicy.

Polska część infrastruktury naukowej CLARIN ERIC: Wspólne zasoby językowe i infrastruktura technologiczna.
- Bazowa rozproszona, równoległa architektura Centrum Techonologii Językowych oparta na paradygmacie architeltury zorientowanej na usługi.
- Słowosieć 3.0 - wielka leksykalna, semantyczna baza danych współczesnego języka polskiego oparta na relacyjnym paradygmacie opisu znaczeń leksykalnych.
- Wielka baza danych międzyjęzykowych, polsko-angielskich relacji znaczeniowych, zapewniająca rzutowanie pomiędzy relacjami Słowosieci 3.0 i strukturami wielkiej leksykalnej, semantycznej bazy danych Priceton WordNet dla języka angielskiego.
- Płytki parser semantyczny języka polskiego oparty na bazie wiedzy zawierającej częściowe rzutowanie wielkiej leksykalnej, semantycznej bazy danych Słowosieć 3.0 na wybrane ontologie wysokiego i pośredniego poziomu.
- System do wydobywania z tekstu opisanych strukturalnie, wielowyrazowych lematów języka polskiego z dużych zbiorów tekstów, wyposażony we wzorcową, ręcznie skontruowaną bazę danych polskich wielowyrazowych lematów opisanych strukturalnie.
- System do wydobywania z tekstu opisanych lingwistycznie polskich nazw własnych, wyposażony we wzorcową, ręcznie skonstruowaną bazę danych polskich nazw własnych rzutowanych semantycznie na Słowosieć 3.0.
- System wspierający pracę zespołu lingwistycznego nad konstukcją leksykalnych baz danych oparty o relacyjny paradygmat opisu.
- System do rozpoznawania i analizy struktury informacyjnej tekstów w języku polskim.
- System do wydobywania semantyczno-paradygmatycznych informacji z dokumentów i kolekcji dokumentów w języku polskim.
- Zespół narzędzi do wydobywania wiedzy z tekstów w języku polskim, ukierunkowanych na zastosowania w dziedzinie nauk humanistycznych i społecznych.