Сегодня хорошо известно, что качественная защита от спама не может быть реализована без контентной фильтрации и интеллектуального анализа входящих писем.
Благодаря развитию ИТ человеку удалось избавиться от множества рутинных функций и переложить их «на плечи» машины. С каждым днем уменьшается бумажный документооборот, а бизнес-процессы поддерживаются все большим количеством специальных информационных систем. Но часто эти системы лишь выполняют элементарные операции и крайне редко принимают собственные решения. По-настоящему интеллектуальных продуктов критически мало. Одной из немногих интеллектуальных концепций стала технология контентной фильтрации, или анализа содержания документов. Абстрактная задача контентной фильтрации проста: система должна изучить содержание каких-то документов (файлов, потоков данных) и принять на его основе определенное бизнес-решение. В статье мы приведем обзор современных методов контентной фильтрации и их основных применений.
Оглавление
Технологии контентной фильтрации
Прежде чем говорить об основных технологиях контентной фильтрации, формализуем задачу данной концепции более строго. Мы будем понимать под этим термином интеллектуальный процесс анализа содержания тех или иных документов. В таком смысле термин «контентная фильтрация» практически неприменим к задаче фильтрации интернет-трафика, поскольку она, как правило, решается не с помощью интеллектуальных алгоритмов, а благодаря введению черных и белых списков разрешенных и запрещенных ресурсов.
Движок классической системы контентной фильтрации представляет собой черный ящик (рис. 1), на вход которого подается некий документ определенного формата. На выходе система выдает вердикт о смысле этого документа — является он нежелательной почтой (спамом) или конфиденциальным файлом с секретными сведениями. Таким образом, суть любого метода контентной фильтрации формулируется вопросом из известной телепередачи: «Что находится в черном ящике?».
Все современные технологии контентной фильтрации уместно разделить на два класса: к первому классу относятся методы, основанные на анализе контента (содержания) документа, а ко второму — его контекста (метаданных). Например, поиск регулярных фраз и выражений является классическим контентным методом, а анализ вложений или других атрибутов файла (размера, типа и т. д.) — контекстным. Легко понять, что контентные методы обычно более наукоемкие и универсальные, в то время как контекстный подход реализуется значительно проще и быстрее.
Ключевая характеристика любого движка контентной фильтрации связана с качеством принимаемых решений, то есть правильностью выдаваемых на выходе вердиктов. Теоретически возможны ошибки двух типов: ошибки первого типа выдают «хороший» вердикт при «плохом» документе (например, пропускают спам), а ошибки второго типа, напротив, выдают «плохой» вердикт при «хорошем» документе (скажем, блокируют легальную корреспонденцию). Очевидно, что соотношение ошибок обоих типов существенно зависит от метода контентной фильтрации, а их критичность — от поставленной задачи. В качестве типичного примера можно привести метод цифровых отпечатков, который часто допускает ошибки первого типа, но практически никогда — второго.
В таблицах 1 и 2 представлены основные подходы к реализации контентной и контекстной фильтрации соответственно. Нетрудно заметить, что ни один из обозначенных методов не является универсальным — каждый подход имеет строго ограниченную область применения. Отметим, что интеграция всех обозначенных методов в единый комплекс не означает объединение их областей применения, поскольку всякий раз система должна понять, какой именно метод анализа необходим. А трудность такого выбора сравнима со сложностью самих механизмов контентной фильтрации.
Все перечисленные в таблицах механизмы так или иначе используются на практике. Далее мы назовем основные области их применения.
Применение первое: борьба с нежелательной почтой (спамом)
Задача контентной фильтрации приобрела актуальность в конце прошлого — начале нынешнего века, когда стал окончательно ясен гигантский масштаб проблем, связанных с нежелательной почтой или спамом. На данный момент доля спама в общем почтовом трафике очень велика — по разным оценкам, она составляет от 70 до 90%. В корпоративной среде спам отвлекает сотрудников от выполнения непосредственных задач, занимает корпоративные ресурсы и создает потенциальную угрозу безопасности, размещая в теле письма ссылки на вирусы или вредоносные вложения.
Первое время со спамом пытались бороться грубыми методами, создавая «цветные» (черные и белые) списки почтовых доменов, в которые попадали запрещенные и разрешенные ресурсы. Вскоре выяснилось, что такая защита не сможет остановить спамеров, поскольку те легко меняли адреса отправителей и обходили защиту. К тому же в черных списках часто оказывались вполне легальные домены, письма с которых блокировались.
Со временем стало очевидно, что качественная защита от спама не может быть реализована без контентной фильтрации и интеллектуального анализа входящих писем. Именно такие технологии в том или ином виде применяются в большинстве современных спам-фильтров. Как правило, все эти фильтры содержат некую фильтрационную базу данных, которая либо периодически обновляется из Интернета, либо пополняется автоматически («обучается») в процессе работы системы.
Уровень современной защиты от спама в целом вполне приемлем. Различные вендоры приводят разные сведения об эффективности своих решений, которая в подавляющем большинстве случаев находится в пределах 80–99%. Количество ошибок второго типа (ложных срабатываний) также зависит от технологической реализации системы и крайне редко превышает 1–2%. Сейчас технологии контентной фильтрации вполне справляются с задачей защиты от спама, и в дальнейшем они будут постоянно совершенствоваться.
Другое дело, что сама задача фильтрации спама может быть слишком перегрета как вендорами, так и различными отраслевыми СМИ. «Практика показывает, что если пользователь выполняет элементарные правила — не «светит» свой почтовый адрес в форумах, сайтах и прочих общедоступных местах, — то спама на его ящик практически не приходит, — считает директор по маркетингу компании Perimetrix Денис Зенкин. — С каждым днем интернет-грамотность населения растет, и для многих людей просто не существует проблемы защиты от спама».
Применение второе: защита от утечек информации
Активное развитие спам-фильтров привело к усовершенствованию технологий контентной фильтрации. В какой-то момент стало понятно, что эти технологии можно инвертировать и контролировать не только входящий, но и исходящий трафик. Таким образом, не трудно построить систему защиты от утечек конфиденциальной информации.
Идея адаптации спам-движка к задаче контроля исходящего трафика была реализована в продуктах сразу нескольких вендоров. В качестве типичных примеров можно привести решения российской компании InfoWatch (Traffic Monitor; http://www.infowatch.ru) или американской фирмы Proofpoint (http://www.proofpoint.com). Однако реалии внедрений выявили целый пласт разнообразных проблем, которые объясняются спецификой двух в общем-то похожих задач.
Во-первых, задача фильтрации на конфиденциальность оказалась значительно труднее проблемы фильтрации от спама. Если нежелательная почта почти всегда имеет определенный набор характерных параметров (например, маленький размер письма, использование картинок вместо текста и т. д.), то для конфиденциальных документов сформировать такой набор крайне трудно. Поэтому и качество контентной фильтрации на конфиденциальность оставляет желать лучшего. По данным компании Gartner, оно практически никогда не превышает 80%.
Во-вторых, в отличие от спама, который, как правило, является голым текстом (plain text) внутри письма или единственной картинкой, конфиденциальные документы могут передаваться в сотнях разнообразных форматов, и любой из них имеет определенную специфику. Это означает, что качественная система фильтрации обязана разбираться в каждом из этих форматов и извлекать оттуда хотя бы текстовое содержание. Естественно, реализовать подобную многоформатную поддержку в общем виде довольно трудно.
И в-третьих, задача защиты от утечек в общем виде не ограничивается почтовыми службами. Если контентную фильтрацию документов, идущих через интернет-шлюз, еще можно как-то проводить на централизованном сервере, то в случае локальных инцидентов (утечек через флэш-накопители и другие мобильные носители данных) возникают очевидные проблемы. Разместить на каждом компьютере по «маленькому» фильтрационному движку нельзя из-за ограничений в вычислительных мощностях и доступном объеме накопителей, а вывести локальную фильтрацию на удаленный сервер крайне трудно технологически. Как следствие, проблема локальных утечек фактически остается нерешенной.
«Все эти факторы приводят к поиску новых технологий защиты среди вендоров, — говорит директор по развитию бизнеса компании Perimetrix Алексей Доля. — В частности, все более широкое распространение получает технология детерминистской фильтрации — контроля исходящего трафика с помощью жестко заданных меток. В сочетании с контентной фильтрацией такой метод дает наилучшие на сегодняшний день результаты».
Заключение
Можно предположить, что технологии контентной фильтрации никуда не исчезнут и будут применяться как минимум в системах защиты от спама. Будущее контентной фильтрации в других областях пока вызывает определенные сомнения, поскольку данные технологии еще не достигли необходимого уровня зрелости и интеллектуальности.
С теоретической точки зрения развитие науки и искусственного интеллекта должно привести к появлению новой и по-настоящему эффективной контентной фильтрации. Такая фильтрация не будет гадать, какой вердикт следует вынести, а четко и без проблем его определит. Сегодня с этой задачей способны справится только специалисты, однако в дальнейшем она окажется вполне посильной и для машин.
Вопрос заключается в том, насколько далеко от нас это светлое будущее? Вполне возможно, новая контентная фильтрация появится отнюдь не скоро и основные области ее применения к тому времени существенно изменятся. На данный момент есть стойкое ощущение, что нынешние технологии фильтрации почти достигли своего потолка и для дальнейшего развития им требуется некий интеллектуальный прорыв. И пока его не произойдет, контентная фильтрация будет по-прежнему успешно использоваться для защиты от спама, оставаясь неэффективной в других областях применения.
Владимир Ульянов
Журнал IT Expert № 10 за 2008 год