PL | EN
Instytut Informatyki Instytut Informatyki Politechniki Wrocławskiej
21

Centrum Technologii Językowych CLARIN-PL

Politechnika Wrocławska jest liderem konsorcjum CLARIN-PL - polskiej części ogólnoeuropejskiej infrastruktury naukowej CLARIN [link do http://www.clarin.eu], obejmującej cyfrowe archiwa tekstów oraz narzędzia do ich automatycznej analizy.

CLARIN  jest częścią Europejskiej Mapy Drogowej Infrastruktury Naukowej (ESFRI - European Roadmap for Research Infrastructures, European Strategy Forum on Research Infrastructures). CLARIN ma dostarczyć zaawansowane narzędzia badawcze w dziedzinie analizy tekstu i mowy dla szeroko pojętych nauk humanistycznych i społecznych.

W Centrum Technologii Językowych powstają programy, które pomocne będą m.in. w ustalaniu autorstwa tekstów anonimowych, określaniu profilu psychologicznego autora, automatycznym streszczaniu, wydobywaniu z tekstów wiedzy i informacji, badaniu powiązań w biznesie, polityce i nauce...

Centrum udostępnia także zasoby językowe, np. Korpus Politechniki Wrocławskiej oraz Słowosieć (drugi co do wielkości wordnet na świecie). Służą one do uczenia programów "rozumienia" języka naturalnego, ale mogą z nich korzystać również indywidualni użytkownicy.



Polska część infrastruktury naukowej CLARIN ERIC: Wspólne zasoby językowe i infrastruktura technologiczna.

  • Bazowa rozproszona, równoległa architektura Centrum Techonologii Językowych oparta na paradygmacie architeltury zorientowanej na usługi.
  • Słowosieć 3.0 - wielka leksykalna, semantyczna baza danych współczesnego języka polskiego oparta na relacyjnym paradygmacie opisu znaczeń leksykalnych.
  • Wielka baza danych międzyjęzykowych, polsko-angielskich relacji znaczeniowych, zapewniająca rzutowanie pomiędzy relacjami Słowosieci 3.0 i strukturami wielkiej leksykalnej, semantycznej bazy danych Priceton WordNet dla języka angielskiego.
  • Płytki parser semantyczny języka polskiego oparty na bazie wiedzy zawierającej częściowe rzutowanie wielkiej leksykalnej, semantycznej bazy danych Słowosieć 3.0 na wybrane ontologie wysokiego i pośredniego poziomu.
  • System do wydobywania z tekstu opisanych strukturalnie, wielowyrazowych lematów języka polskiego z dużych zbiorów tekstów, wyposażony we wzorcową, ręcznie skontruowaną bazę danych polskich wielowyrazowych lematów opisanych strukturalnie.
  • System do wydobywania z tekstu opisanych lingwistycznie polskich nazw własnych, wyposażony we wzorcową, ręcznie skonstruowaną bazę danych polskich nazw własnych rzutowanych semantycznie na Słowosieć 3.0.
  • System wspierający pracę zespołu lingwistycznego nad konstukcją leksykalnych baz danych oparty o relacyjny paradygmat opisu.
  • System do rozpoznawania i analizy struktury informacyjnej tekstów w języku polskim.
  • System do wydobywania semantyczno-paradygmatycznych informacji z dokumentów i kolekcji dokumentów w języku polskim.
  • Zespół narzędzi do wydobywania wiedzy z tekstów w języku polskim, ukierunkowanych na zastosowania w dziedzinie nauk humanistycznych i społecznych.

Strona projektu CLARIN-PL