Перспективы развития России

	DeC ( Профессионал )
	04 авг 2020 15:20:37

Corus

новая дискуссия Дискуссия 65

Опубликовано более 350 Гб русских текстов для работы с задачами обработки естественного языка.

Руководитель направления NLP в Sberbank Data Science Communtiy Татьяна Шаврина у себя в Facebook сообщила о публикации библиотеки Corus, где собрано более 350 Гб русских текстов, отсортированных под разные задачи в области обработки естественного языка.

В библиотеку в том числе входит:
● датасет Taiga с новостями;
● дампы РИА Новостей и Lenta.ru;
● данные из 40 русскоязычных новостных ресурсов.

Узнать больше о библиотеке Corus

Скачать данные с GitHub

Подмигивающий

ОТВЕТЫ (0)

Комментарии не найдены!

Заевфратье >>