НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Как строить Семантический веб

В последние годы WWW-консорциум плавно отходит от концепции Семантического веба (связанных документов) к Вебу данных (Linked Data, сущность-сущность). Об этом регулярно напоминает Тим Бернерс-Ли: семвеб -- это не размещение данных в сети, а создание связей между ними, дабы по этим связям можно было быстро и точно добираться до нужных сведений. Обычны названия Web of Linked Data, или сеть связанных данных, которые доступны по ссылке, а концептуально Linked Data не отличается от интерфейсов ODBC/JDBC. Хотя термин "данное", обычно воспринимаемое как нечто низкоуровневое, тут используется скорее как абстракция, в мэйнстримовском смысле тут лучше подойдет, конечно, "знание".

[spoiler]Для построения Linked Data используется абстрактная модель данных для веба RDF (субъект - предикат - объект). RDF-документы физически реализуются, например, на XML или JSON. Важно, что RDF -- это и метамодель, с ее помощью можно описывать способы интеграции данных, а поставлять данные возможно в самых разных форматах, главное, чтобы они были учтены соответствующими RDF-моделями.

Для работы с RDF-моделями (триплетами) сейчас активно применяется SPARQL (спецификация на русском, в мае вышла версия 1.1) -- язык запросов и одновременно протокол операций над наборами триплетов. Удобен он тем, что изучить его несложно пользователям SQL.

Как создавать Семантический веб (расширять глобальный, или строить внутренний корпоративный, который затем можно будет легко состыковать с общемировым):
-- представить все документы в формате RDF (или одном из форматов, явно описанных метамоделью RDF);
-- присвоить всем сущностям имена/идентификаторы в виде URI -- таким образом они будут доступны, "сериализабельны и искабельны" по HTTP-протоколу, а главное, открыты для межмашинного взаимодействия и SPARQL-запросов;
-- добавить ссылки на внешние сущности, связанные с построенным набором.

Эти крупные шаги делятся, конечно, на более мелкие -- например, построение иерархий  классов, объединение баз знаний, формирование онтологий, и т. д.

Оригинальный отечественный ресурс с подробными техническими описаниями по семвебу и вебу данных: semanticfuture.net.

Также надо упомянуть сайт linkeddata.org, где копится всесторонняя документация и лучшие практики.

На сентябрь 2010 г. проект LinkingOpenData, развиваемый WWW-консорциумом, насчитывает 203 набора данных, включающих 25 млрд. RDF-триплетов, которые связаны 395 млн. отношений. Для создания, ведения и сопровождения такой системы доступен свободный инструментарий и подробная документация.

Концепции Open Data и Linked Data одобрены, например, правительствами США и Англии. Ведутся открытые и доступные для граждан порталы data.gov и data.gov.uk (миллиарды триплетов), систематизированы реестры и справочники -- можно откопать информацию от сведений о банкротствах конкретных фирм до активности посетителей Белого дома. В Европе (Германия, Венгрия, ...) даже национальные библиотеки начинают публиковать связанные наборы данных.

А у нас? Общероссийских справочников даже в сыром виде в Рунете днем с огнем не сыщешь, практически никакой заметной деятельности в этой сфере не ведется, и какой-либо масштабной активности, судя по нынешним темпам госавтоматизации в интересах граждан, ожидать тоже не приходится. Более того, можно предположить, что и сопротивление процессу семантизации будет активным (от замалчивания до всевозможной дискредитации концепции и технологий) -- ведь, например, прозрачность деятельности при появлении национального семвеба возрастает качественно.
Сергей Бобровский
Ну а кто измерял или хотя бы оценивал по каким-то четким критериям "затраченные на создание семантического веба колоссальные усилия" (насколько колоссальные?) и "более чем скромные результаты" (в сравнении с чем скромные?)?  
ANSi
Хотите, чтобы последнее слово непременно осталось за Вами? Да ради Бога. Я в базарной перепалке участвовать не буду.
Сергей Бобровский
Принято.