Веб-интерфейс для настроек фильтра Байеса, реализованный в виде дополнения к почтовому клиенту
Перво-наперво не следует оставлять свой адрес электронной почты на различного рода публичных ресурсах или хотя бы пользоваться советами из предыдущего раздела. Если уж на ваш адрес начала приходить нежелательная корреспонденция, то на помощь придут спам-фильтры. Это программы, или же модули, входящие в состав почтовых клиентов, которые по тем или иным признакам выявляют спамерские письма и поступают с ними согласно заданным правилам. Для определения «спам/не спам» используются три основных способа. Самый распространенный – это анализ содержимого письма и сравнение его с известным спамом. Разумеется, для успешной работы такого фильтра нужно иметь заранее собранную коллекцию спамерского «творчества», и чем эта коллекция больше, тем лучше, эффективнее будет работать фильтр. Подобная система применяется популярной службой Gmail, которая ежедневно обрабатывает миллионы различных сообщений, и каждый раз, когда пользователь нажимает кнопку Пожаловаться на спам, нежелательное послание попадает в базу фильтра. Учитывая огромную клиентскую базу Gmail, недостатка в «обучающих материалах» она не испытывает. Следующий по популярности способ – анализ IP-адреса компьютера, с которого получено письмо, и сравнение его с черным списком. Информацию об этом можно получить через службу DNS (Domain Name Service), отсюда и название подобных списков – DNSBL (DNS Black List). К сожалению, данный метод не особо эффективен, так как спамеры находят новые серверы для своих целей быстрее, чем их успевают заносить в черные списки. Кроме черных, существуют еще и так называемые серые списки. Они составляются на основе анализа «поведения» ПО, предназначенного для рассылки спама, поскольку поведение почтовых серверов отличается от такового у спам-серверов (к примеру, подобные программы не отправляют повторно сообщение при возникновении ошибки). Обычно все ранее неизвестные SMTP-серверы считаются серыми. Почта с них не принимается, но и не отклоняется окончательно – им возвращается код временной ошибки. В случае если отправитель повторяет попытку через определенный период, сервер вносится в белый список. Таким образом, нормальные письма не теряются, а лишь доставляются с некоторой задержкой. Этот метод в настоящее время достаточно эффективен, причем риск потерять важную почту минимален. Однако его тоже нельзя назвать безупречным. Третий способ отсеивания спама заключается в получении подтверждений от отправителя. То есть по приходу письма с определенного адреса в ответ высылается запрос с просьбой подтвердить отправку. Затем, если сервер получает подтверждение, адрес заносится в белый список и в дальнейшем не проверяется. Основной недостаток данного способа заключается в невозможности работать полностью автоматически, без участия человека, к тому же он резко снижает оперативность доставки писем и создает определенные неудобства отправителям. Кроме вышеописанных основных методов, есть множество других: отказ в приеме корреспонденции с неправильным обратным адресом (письма из несуществующих доменов), анализ заголовков письма, системы определения признаков массовости сообщения и прочие. К сожалению, на данный момент нет программ, которые бы позволяли фильтровать спам со 100%-ной точностью.
И напоследок
Хотя электронная почта в настоящий момент является основным источником спама, в последнее время все большую популярность приобретают рекламные рассылки с помощью систем обмена мгновенными сообщениями, в первую очередь ICQ, а также рекламные сообщения на различных форумах и блогах. Возможно, вскоре мы подробнее расскажем и об этом виде недобросовестной рекламы и как с ним бороться.
Происхождение термина СПАМ
Само название «спам» (англ. SPAM) произошло от мясных консервов компании Hormel Foods «SPiced hAM» («острая ветчина») – острого колбасного фарша из свинины. По одной из версий, после Второй мировой войны остались огромные запасы таких консервов, предназначенных для американских солдат. Чтобы сбыть свою продукцию не первой свежести, фирма Hormel Foods провела первую в своем роде рекламную кампанию. Слово SPAM было повсюду: на витринах магазинов, автобусах и трамваях, фасадах домов и газетных страницах. Реклама консервов SPAM непрерывно транслировалась по радио. В общем, от нее не было возможности скрыться – она везде бросалась в глаза и звучала из всех приемников. По другой версии, термин «спам» ведет свое происхождение от старого (1972 года) скетча английской комик-группы Monty Python, в котором посетители ресторанчика при попытке сделать заказ вынуждены слушать хор викингов, воспевающий эти мясные консервы.
Фильтр Байеса
Английский математик Томас Байес жил в XVIII веке и понятия не имел об электронной почте, однако он сформулировал одну из основополагающих в элементарной теории вероятности теорему, которая и используется в наиболее эффективном алгоритме анализа содержимого письма. Формула, описывающая теорему, довольно сложна, но ее суть заключается в том, что вероятность события может быть довольно точно вычислена, если собрана статистика его совершения в прошлом. То есть если из 10 писем 8 содержали фразу «продам помидоры оптом» и являлись спамом, то и следующее с этими словами с большой долей вероятности окажется таковым. Но как оценить эту долю? Для начала нам надо иметь набор «плохих» писем и «хороших». Затем проанализировать их и выяснить, какие слова и словосочетания попадаются в «хороших» письмах и насколько часто, аналогично поступив со спамом. И в тех и в других примерно с одинаковой частотой встречаются общеупотребительные слова, наличие которых ни о чем нам не говорит. Присвоим им нейтральную оценку «уровня спама», например 0,5. Далее мы видим, что фраза «продам помидоры оптом» была замечена в 8 письмах из 10, и присваиваем ей оценку 0,8, а фраза «Привет, дружище» – в 9 из 10 хороших писем и 1 раз в спаме, значит, ее оценка 0,1. Затем с помощью специальной формулы вычисляется суммарный рейтинг каждого нового письма, и на основе пользовательских настроек отсекается поток писем, оценка которых превышает заданную величину, например 0,9. На сегодняшний день фильтрация спама байесовскими фильтрами выглядит наиболее привлекательной по сравнению с другими имеющимися методами. В частности, они включены в такие популярные почтовые клиенты, как The Bat! и Thunderbird.
#РазноеВсякоеИнтересное
Нет комментариев