Что это такое?
Каталог-указатель на публичные датасеты для ИИ, структурированный по исследовательским областям. Не содержит самих данных, только метаинформацию и ссылки.
Это открытый каталог-указатель на публичные датасеты для искусственного интеллекта. Он охватывает все основные области исследований: обработка естественного языка, компьютерное зрение, мультимодальное обучение, речь, временные ряды, графовые модели,...
Для исследователей, инженеров машинного обучения и студентов, которые ищут проверенные датасеты для своих проектов. Подходит как новичкам для знакомства с ландшафтом данных, так и опытным специалистам для быстрого поиска эталонных наборов.
Исследователям и разработчикам ИИ сложно ориентироваться в огромном количестве разрозненных датасетов: они разбросаны по разным платформам, имеют неясные лицензии, а их качество и актуальность не всегда очевидны. Поиск подходящего набора данных для конкретной задачи (NLP, компьютерное зрение, графовые модели и т.д.)...
Проект структурирует датасеты по 25 тематическим категориям: от NLP и компьютерного зрения до автономного вождения и медицинского ИИ. Для каждого датасета указаны ссылка, лицензия, назначение и связанные исследования. Это не зеркало данных, а именно индекс — все файлы хранятся у оригинальных поставщиков. Автор вручную проверяет ссылки и отбирает наборы, которые часто встречаются в топовых конференциях и туториалах.
Это открытый каталог-указатель на публичные датасеты для искусственного интеллекта. Он охватывает все основные области исследований: обработка естественного языка, компьютерное зрение, мультимодальное обучение, речь, временные ряды, графовые модели, рекомендательные системы, большие языковые модели, робототехника, научный и медицинский ИИ. Включает 448 основных записей, разбитых по категориям, с проверенными ссылками...
Проект включает даже такие нишевые категории, как «воплощённый ИИ» (embodied AI) и датасеты для удалённого зондирования Земли — это показывает стремление к полноте охвата даже в быстроразвивающихся областях.
Стоит попробовать, если вам нужен быстрый старт в поиске датасета для исследования или проекта. Это отличная закладка для браузера, которая сэкономит часы поиска в Google. Однако помните, что это именно указатель — лицензии и условия использования нужно проверять на исходных сайтах.
Проект активно поддерживается: ссылки проверены в апреле 2026 года, структура категорий расширяется, добавлены китайские переводы. Однако низкая активность сообщества (звёзды, форки) указывает на то, что это скорее...
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
Каталог-указатель на публичные датасеты для ИИ, структурированный по исследовательским областям. Не содержит самих данных, только метаинформацию и ссылки.
Для исследователей, ML-инженеров и студентов, которые хотят быстро найти проверенный датасет для обучения, оценки или прототипирования моделей.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.