RailSearch — Поиск по железной дороге

IT
Заказчик: ВИШ
Проблема:
Пользователь — инженер или преподаватель — хочет быстро найти нужную информацию в статьях и отчётах, но не может этого сделать, потому что данные разбросаны по разным сайтам и нет простого способа их проанализировать.
Железнодорожники, студенты и преподаватели тратят часы на поиск нужной информации в текстах. При этом:
Единого места для поиска нет.
Нельзя спросить у системы: «Что писали о безопасности на станциях в прошлом месяце?»
Нужно создать простую систему, которая собирает статьи с сайтов и помогает быстро находить в них нужную информацию по смыслу.
Ограничения и рекомендации:
Python — основной язык
BeautifulSoup или Playwright (упрощённо) — парсинг статей с сайтов (например, rzd.ru)
SentenceTransformer (библиотека sentence-transformers) — простое преобразование текста в векторы (без глубокого ИИ)
Pandas и NumPy — работа с данными
Sklearn (cosine_similarity) — сравнение запросов с текстами
Streamlit — простой веб-интерфейс без сложного бэкенда
JSON / CSV — хранение статей и результатов
Требуемые компетенции:
Основы программирования на Python
Работа с текстом: чтение, очистка, анализ
Простой парсинг веб-страниц
Использование готовых моделей NLP (без обучения)
Создание простого интерфейса (Streamlit)
Работа в команде и использование Git
Умение задавать вопросы по тексту и оценивать результаты

«Я часами просматриваю сайты и статьи, чтобы найти одну фразу о безопасности на станции. У меня нет времени читать всё. Я хочу спросить у системы: „Где об этом писали?“ — и получить ответ, а не копаться в десятках страниц».

Образовательная программа: IT-сервисы и технологии обработки данных на транспорте

Технология: Python

Технология: WEB

Технология: Анализ данных

Курс: 1