В реальных проектах данные редко бывают идеальными — они могут содержать пропуски, дубликаты и выбросы. Если не обрабатывать эти проблемы, результаты анализа могут оказаться ненадёжными, а качество предсказаний модели машинного обучения низким.
На уроке вы поймёте, как находить и исправлять такие проблемы, чтобы данные стали пригодными для анализа.
📍 Программа вебинара:
- Обработка пропусков: как обнаружить пропущенные значения и чем их заполнять
- Удаление дубликатов: полные и частичные дубли, способы их обработки
- Поиск и исправление аномалий: визуальные и статистические методы обнаружения выбросов
- Причины появления аномалий и способы их обработки
👥 Кому будет полезен вебинар?
- Тем, кто только начинает в Data Science и хочет освоить базовые навыки
- Тем, кто работает с данными в Excel, но хочет перейти на Python и Pandas
- Тем, кто пытался анализировать данные, но сталкивался с ошибками из-за "мусора" в них
- Тем, кто планирует изучать машинное обучение (ML), где чистота данных критически важна
✅ В результате вебинара вы:
- Очищать "грязные" данные с помощью Pandas.
- Принимать обоснованные решения при обработке пропусков и выбросов.
- Готовить данные к анализу и машинному обучению.
Преподаватель: Вероника Иванова - Data Scientist https://vkvideo.ru/video-145052891_456248350
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев