Проект / Python

yaojingang/geo-citation-lab: GEO Citation Lab — исследование, как ИИ-поисковики выбирают источники

Узнайте, какие вопросы заставляют ChatGPT, Google AI и Perplexity искать в сети, какие сайты они предпочитают и какие страницы действительно влияют на ответ.

Это не просто отчёт, а открытый исследовательский проект с полными данными и скриптами. Авторы провели четырёхуровневый эксперимент, чтобы выяснить, как дизайн запроса, язык и тип задачи влияют на поведение ИИ-поисковиков. Все сырые данные, промпты и код...

★ 56 Python Форки 13 Issue 0 Оценка 8/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для маркетологов, SEO-специалистов, исследователей ИИ и контент-стратегов, которые хотят понять логику цитирования в нейросетевых поисковиках.

Проблема / задача

Непонятно, как ИИ-поисковики решают, когда искать информацию, какие источники считать авторитетными и как глубоко поглощать контент — это чёрный ящик, мешающий оптимизировать контент под новые алгоритмы.

Как это работает

Проект — это масштабный эксперимент: 602 промпта разного типа отправлялись в три платформы (ChatGPT, Google AI, Perplexity). Собирались данные о срабатывании поиска, выбранных источниках и глубине их использования. Затем 18 тысяч страниц-источников анализировались по 72 параметрам (авторитетность, структура, семантика) для выявления закономерностей.

Что видно по README

Ключевые возможности

Анализ двух ключевых процессов: «триггер поиска» и «глубина поглощения цитаты»72 признака для оценки влияния страницы-источника, включая авторитет домена и семантическое соответствиеПолный пайплайн: от отправки промптов до извлечения фич и визуализации результатовСравнение трёх платформ (ChatGPT, Google AI, Perplexity) по ключевым метрикам

Технологии

PythonPandas, BeautifulSoup4, Playwright для сбора и обработки данныхOpenAI API

Интересный факт

Оказалось, что ChatGPT цитирует меньше источников, но использует каждый гораздо глубже (влияние в 5 раз выше, чем у Google). А Perplexity — самый «щедрый» на ссылки, но поверхностный.

С чего начать

Прочтите краткий отчёт QUICK_REPORT.md для общего понимания
Изучите полный отчёт в 04-repet/final_report.md с графиками
Исследуйте сырые данные в папке 02-data и скрипты анализа в 03-pipeline

Оценка GitRadar

Удобство

6/10

Свежесть

9/10

Перспектива

8/10

Монетизация

7/10

Общая оценка

8/10

Вердикт GitRadar

Стоит изучить, если вы работаете с контентом или SEO в эпоху ИИ-поиска. Это редкое структурированное исследование с открытыми данными, а не просто мнение. Код рабочий, но проект больше исследовательский, чем готовый инструмент.

Наблюдения по обновлениям

Проект — законченное исследование с полным датасетом. Активных коммитов после публикации нет, но данные и методология остаются актуальными для анализа поведения ИИ-поиска.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/yaojingang/geo-citation-lab
Создан на GitHub: 21 апреля 2026 г.
Последнее обновление репо: 21 апреля 2026 г.
Последняя проверка GitRadar: 21 апреля 2026 г.
Изученные файлы: README.md, index.html, 03-pipeline/requirements.txt, 03-pipeline/merge_seo_and_ahrefs.py, 03-pipeline/batch_download.py, 03-pipeline/batch_query.py

FAQ

Что это такое?

Открытый датасет и аналитический пайплайн для изучения того, как ИИ-поисковики (ChatGPT, Google AI, Perplexity) решают, когда искать информацию в сети и какие источники цитировать.

Для кого подходит?

Для специалистов по цифровому маркетингу, SEO, исследователей ИИ и контент-менеджеров, которые хотят на данных понять логику современных поисковых систем.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с yaojingang/geo-citation-lab?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram