Проект "ИТ-Защита"

Начало см. по ссылке 1, ссылке 2

3. Концепция решения проблем современных СЭД

Какие же сейчас актуальные концепции у стартапов в области LegalTech, которые позволяют решить проблемы,  накопленные за годы существования традиционных СЭД и работы с неструктурированными документами? Это СЭД следующего поколения, основанные на семантических технологиях и онтологическом подходе: внедрение полностью электронного взаимодействия и автоматической обработки документов, переход от человеко-читаемых к программно-обрабатываемым описаниям электронных документов.

Чтобы было понятно, о чем пойдет речь далее, приведем аналогию из сферы создания веб-сайтов. На заре известной нам WWW (Всемирной Паутины) сайты были статическими, т.е. веб-разработчик делал сайт или страничку в html коде и помещал ее на сервер «как есть». Такая веб-страница была «статическая», для изменения ее, специалисту нужно было опять полностью переписать код (иногда и переделать дизайн) и заново закачать ее на веб-сервер. Согласитесь, что это не самый удобный метод работы, да и «пресловутый человеческий фактор» здесь присутствует. Как была решена проблема? В середине 00-х появились динамические веб-сайты и системы управления сайтом (CMS), с помощью этого инструментария страница, видимая пользователю в сети, генерируется автоматически. Веб-мастер создает ее прямо онлайн в специальном редакторе, используя шаблон дизайна страницы. С помощью программного кода (например, на языке PHP) готовая страница собирается автоматически из «шаблонов для дизайна», данных из базы данных (MySQL), скриптов (JavaScript) и др. элементов. Весь процесс скрыт от пользователя,  ему видна только готовая страница.

Сайты в современном Web создаются из готовых «блоков» при минимальном участии человека. Человек только текст пишет, да и то уже не всегда, некоторые страницы генерируются вообще автоматически, часто используются такие языки разметки, как  XML, и Web следующего поколения будет построен на основе семантических методов. Почему бы этот подход не распространить и на системы электронного документооборота.

3.1. Общие принципы концепции

Разработчики СЭД следующего поколения опираются на принцип объектно-ориентированного представления  данных, который применяется в языках программирования и некоторых СУБД,  где данные моделируются в виде объектов, их атрибутов, методов и классов.

Еще одна интересная идея  - это такое понятие,  как «Семантический Web».  Семантический Web (см. рис.1.)  предполагает объединение разных видов информации в единую структуру,  где каждому  смысловому элементу данных будет соответствовать специальный синтаксический блок (тэг), все тэги составляют единую иерархическую структуру,  на основе которой работает Семантический Web.  Каждая страница семантической сети содержит информацию как на языке, понятном человеку (это то, что мы видим в браузере), так и на специальном языке разметки, понятном интеллектуальным программам-агентам (роботам).

Рис.1. Общая концепция Семантического Web (кликните по картинке для просмотра!)

Один из  базовых принципов  «Семантического Web» - это онтологический подход. Он включает в себя средства аннотирования документов, предназначенные для специальных компьютерных программ (сервисов и агентов),  обрабатывающих сложные пользовательские запросы. Онтология может являться не только средством интеллектуального поиска и анализа документов, но и основой организации их эффективного хранения, создания системы взаимосвязанных документов и средств навигации по ним. Именно с помощью такой организации Web-пространства можно перейти от «хаоса», который представляет собой современный Интернет (в котором большая часть информации просто не индексируется, не обрабатывается и скрыта от пользователя) к совершенно новой системе семантического уровня.  Практическая реализация таких технологий предполагает использование специальных языков разметки (XML, RDF, RDFS, OWL и т.д.).

Если в традиционных СЭД предусмотрена работа сразу с единым документом  в виде файла, созданного человеком, то здесь взят за основу совершенно другой подход. В таких системах основной функциональной единицей электронного документа должен стать абзац («блок»):

-  абзац может иметь структуру, сохраняться в базу данных;

-  при добавлении в БД абзац может проверяться на понятность, краткость, связность и точность;

- абзац может сохранять дополнительную информацию, а именно, ключевые слова, комментарии, другие характеристики и взаимосвязи с абзацами.

 В СЭД все документы должны создаваться по единым стандартам, учитывая как государственное законодательство, так и ряд внутренних правил. Унификация и отсутствие разночтений – вот основной смысл стандартизации.

Итак, сформулируем основные принципы, на базе которых проектируются новейшие СЭД:

1) Семантические методы и языки разметки. Документ может являться объектом в информационной системе со своей структурой и связями между абзацами, а также связями с другими документами, с метаданными, статусами и правилами перехода статусов. При таком подходе и применении семантического программирования можно реализовать работу со смарт-контрактами на уровне моделирования и оперирования логическими выражениями.

2) Статистические методы обработки данных. Практика показывает, что информация может вполне успешно обрабатываться вне зависимости от того, какой смысл в нее заложен.  Информация  - это мера упорядоченности некоторой системы, поэтому возможно применить методы статистической обработки, а также естественно-языкового интерфейса, который поможет выстроить управление документами, в случае, когда за основу взяты абзацы, которые находятся в базе данных.

3) Применение машинного обучения (Machine Learning) - обучение в процессе применения решений множества сходных задач.

4) Форма хранения информации в виде абзаца (блока) позволяет гораздо более гибко работать с содержанием документов, чем старый метод хранения в виде единого файла.

5) Организация поиска информации. Пользователь, подключенный к сети Интернет, не ограничен только архивом документов своего предприятия, теперь ему доступен весь огромный объем информации во Всемирной сети.

6) Онтология и принцип «Семантического Web». Способность информационной системы автоматически находить требуемые сведения в разбросанных по всему миру хранилищах информации, агрегировать их и представлять в удобной для человека форме.

Продолжение см. по ссылке





Отправить статью в социальные сети, на печать, e-mail и в другие сервисы:

Комментарии

Нет комментариев

Еще нет комментариев.

RSS лента комментариев к этой записи.

Извините, комментирование на данный момент закрыто.