Перспективы развития России
25,558,314 131,627
 

  DeC ( Профессионал )
04 авг 2020 15:20:37

Corus

новая дискуссия Дискуссия  65

Опубликовано более 350 Гб русских текстов для работы с задачами обработки естественного языка.

Руководитель направления NLP в Sberbank Data Science Communtiy Татьяна Шаврина у себя в Facebook сообщила о публикации библиотеки Corus, где собрано более 350 Гб русских текстов, отсортированных под разные задачи в области обработки естественного языка.

В библиотеку в том числе входит:
датасет Taiga с новостями;
● дампы РИА Новостей и Lenta.ru;
● данные из 40 русскоязычных новостных ресурсов.

Узнать больше о библиотеке Corus

Скачать данные с GitHub

Подмигивающий
  • +0.02 / 1
  • АУ
ОТВЕТЫ (0)
 
Комментарии не найдены!