Что это такое?
R-пакет для автоматизации подготовки данных UK Biobank к статистическому и ML-анализу, особенно для исследований выживаемости.
UKBAnalytica — это высокопроизводительный R-пакет для обработки данных UK Biobank Research Analysis Platform. Он фокусируется на стандартизированном фенотипировании, создании датасетов для анализа выживаемости, масштабируемой предобработке и последующем...
Для исследователей в области биоинформатики, эпидемиологии и медицинской статистики, которые работают с данными UK Biobank Research Analysis Platform (RAP) и хотят автоматизировать этапы предобработки и создания датасетов для анализа...
Работа с огромными массивами данных биобанка вручную — это медленно и подвержено ошибкам. Исследователям приходится самостоятельно писать код для извлечения диагнозов из разных источников (МКБ-10, МКБ-9, опросы, регистры смерти), классификации случаев и подготовки данных для регрессии Кокса.
Пакет предоставляет набор функций на R, построенных на быстрой библиотеке data.table. Он стандартизирует процесс: помогает скачать данные с платформы RAP через Python-скрипты, предобрабатывает базовые переменные, извлекает случаи заболеваний по заданным определениям и формирует готовые датасеты для анализа выживаемости с учётом prevalent/incident случаев. Также есть модули для продвинутого анализа: подгруппового...
UKBAnalytica — это высокопроизводительный R-пакет для обработки данных UK Biobank Research Analysis Platform. Он фокусируется на стандартизированном фенотипировании, создании датасетов для анализа выживаемости, масштабируемой предобработке и последующем анализе. Пакет охватывает весь рабочий процесс: от загрузки данных и предобработки переменных до построения таблиц baseline и запуска сложных статистических моделей.
Пакет умеет работать с данными, названия столбцов в которых используют две разные схемы именования (p{field}_i0 и p{field}), что часто встречается в данных UKB Category 42, и автоматически с этим справляется.
Стоит пробовать, если вы работаете с данными UK Biobank RAP и хотите сэкономить время на рутинной предобработке. Это узкоспециализированный, но мощный инструмент для своей ниши. Однако проект имеет мало звёзд и активность, что может говорить о небольшом сообществе.
Последние коммиты были недавно, есть версия 0.6.2 с улучшениями в работе с датами и контролем потоков. Однако у проекта всего 11 звёзд и 0 форков, что указывает на узкую аудиторию и, возможно, низкую известность.
Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.
R-пакет для автоматизации подготовки данных UK Biobank к статистическому и ML-анализу, особенно для исследований выживаемости.
Для биоинформатиков, эпидемиологов и data scientist'ов, которые проводят исследования на данных британского биобанка.
Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.