Проект / Python

linghucong-yue1/IntelliScraper: IntelliScraper — умный веб-скрапер на Python с машинным обучением

Автоматически извлекай данные с сайтов, даже если их структура сложная или меняется.

IntelliScraper — это Python-библиотека для умного парсинга веб-страниц. Она сочетает классический парсинг с машинным обучением для более точного извлечения данных. Проект позиционируется как инструмент для анализа данных, мониторинга контента и...

★ 12 Python Форки 1 Issue 0 Оценка 7/10 Карточка проверена

Открыть на GitHub Помочь с установкой

Для кого это

Для Python-разработчиков, аналитиков данных и маркетологов, которым нужно регулярно собирать информацию с веб-страниц.

Проблема / задача

Обычные скраперы ломаются при изменении вёрстки сайта или требуют сложных правил для каждого случая.

Как это работает

Проект использует BeautifulSoup для парсинга HTML и алгоритмы scikit-learn (косинусное сходство) для интеллектуального сопоставления элементов. Вместо жёстких правил вы задаёте список искомых данных, а система находит похожие элементы на странице. Можно работать как с URL, так и с готовым HTML.

Что видно по README

Ключевые возможности

Интеллектуальное сопоставление элементов через косинусное сходствоВысокая кастомизация через список искомых данных (wanted_list)Поддержка работы как по URL, так и с локальным HTML

Технологии

PythonBeautifulSoupscikit-learnrequestsGo

Интересный факт

Вместо того чтобы писать хрупкие CSS-селекторы для каждого сайта, можно просто сказать скраперу: «Найди элементы, похожие на эти слова».

С чего начать

Создай список искомых данных (wanted_list)
Передай URL и список в WebScraper, вызови метод build()

Оценка GitRadar

Удобство

6/10

Свежесть

7/10

Перспектива

8/10

Монетизация

6/10

Общая оценка

7/10

Вердикт GitRadar

Стоит попробовать, если нужен более умный парсинг, чем у простых скраперов, но проект ещё сыроват — мало звёзд, кодовая база простая, а обещанные улучшения (парсинг по родительским элементам, многопоточность) пока в планах.

Наблюдения по обновлениям

В README есть амбициозные планы по реструктуризации (июнь 2024), но активность в репозитории низкая — 11 звёзд, 1 форк.

Что мы проверили

Карточка собрана по данным GitHub, README и структуре репозитория. Это не официальная документация проекта.

Исходный репозиторий: https://github.com/linghucong-yue1/IntelliScraper
Лицензия: MIT
Создан на GitHub: 1 апреля 2026 г.
Последнее обновление репо: 1 апреля 2026 г.
Последняя проверка GitRadar: 1 апреля 2026 г.
Изученные файлы: README.md, intelliscraper/main.py, intelliscraper/requirements.txt, setup.py, intelliscraper/__init__.py, intelliscraper/test.py

FAQ

Что это такое?

Python-библиотека для веб-скрапинга с использованием машинного обучения для точного поиска данных на странице.

Для кого подходит?

Для разработчиков и аналитиков, которым нужно надёжно извлекать данные с часто меняющихся или сложных сайтов.

Источники

GitHub исходный код и активность
README описание, ссылки, стартовые материалы

Нужна помощь с linghucong-yue1/IntelliScraper?

Если проект подходит под ваш сценарий, можем помочь с установкой, интеграцией, доработкой или аккуратным форком под вашу инфраструктуру.

Смотреть услуги Открыть на GitHub Написать в Telegram