[spoiler]Для построения Linked Data используется абстрактная модель данных для веба RDF (субъект - предикат - объект). RDF-документы физически реализуются, например, на XML или JSON. Важно, что RDF -- это и метамодель, с ее помощью можно описывать способы интеграции данных, а поставлять данные возможно в самых разных форматах, главное, чтобы они были учтены соответствующими RDF-моделями.
Для работы с RDF-моделями (триплетами) сейчас активно применяется SPARQL (спецификация на русском, в мае вышла версия 1.1) -- язык запросов и одновременно протокол операций над наборами триплетов. Удобен он тем, что изучить его несложно пользователям SQL.
Как создавать Семантический веб (расширять глобальный, или строить внутренний корпоративный, который затем можно будет легко состыковать с общемировым):
-- представить все документы в формате RDF (или одном из форматов, явно описанных метамоделью RDF);
-- присвоить всем сущностям имена/идентификаторы в виде URI -- таким образом они будут доступны, "сериализабельны и искабельны" по HTTP-протоколу, а главное, открыты для межмашинного взаимодействия и SPARQL-запросов;
-- добавить ссылки на внешние сущности, связанные с построенным набором.
Эти крупные шаги делятся, конечно, на более мелкие -- например, построение иерархий классов, объединение баз знаний, формирование онтологий, и т. д.
Оригинальный отечественный ресурс с подробными техническими описаниями по семвебу и вебу данных: semanticfuture.net.
Также надо упомянуть сайт linkeddata.org, где копится всесторонняя документация и лучшие практики.
На сентябрь 2010 г. проект LinkingOpenData, развиваемый WWW-консорциумом, насчитывает 203 набора данных, включающих 25 млрд. RDF-триплетов, которые связаны 395 млн. отношений. Для создания, ведения и сопровождения такой системы доступен свободный инструментарий и подробная документация.
Концепции Open Data и Linked Data одобрены, например, правительствами США и Англии. Ведутся открытые и доступные для граждан порталы data.gov и data.gov.uk (миллиарды триплетов), систематизированы реестры и справочники -- можно откопать информацию от сведений о банкротствах конкретных фирм до активности посетителей Белого дома. В Европе (Германия, Венгрия, ...) даже национальные библиотеки начинают публиковать связанные наборы данных.
А у нас? Общероссийских справочников даже в сыром виде в Рунете днем с огнем не сыщешь, практически никакой заметной деятельности в этой сфере не ведется, и какой-либо масштабной активности, судя по нынешним темпам госавтоматизации в интересах граждан, ожидать тоже не приходится. Более того, можно предположить, что и сопротивление процессу семантизации будет активным (от замалчивания до всевозможной дискредитации концепции и технологий) -- ведь, например, прозрачность деятельности при появлении национального семвеба возрастает качественно.