Apache Software Foundation (ASF) 17 апреля отметило важную роль открытого ПО, в том числе и развиваемых под патронажем этой организации продуктов, в расследовании Панамских документов — материалов с компрометирующими данными на множество высокопоставленных чиновников.

Всего в Panama Papers фигурирует 11,5 млн. файлов, которые включают в себя финансовую и юридическую документацию, отправленную анонимным источником. Общий объём ставшей доступной общественности информации составляет 2,6 Тб.

В журналистском расследовании приняло участие 400 сотрудников из 100 изданий, расположенных на шести континентах. Анализ документов продолжался целый год и выявил сложную систему криминальных и коррупционных схем, в которых активно использовались офшорные зоны.

В 2017 г. расследование Panama Papers получило Пулитцеровскую премию в категории журналистики. Так высоко экспертное сообщество оценило социальную значимость и масштаб проекта.

Президент ASF Сэм Руби отметил, что основная миссия возглавляемого им фонда заключается в создании ПО для общественного блага. Он гордится тем, что именно разработанные при участии ASF решения сыграли важнейшую роль в расследованиях и поздравил журналистов с заслуженной наградой.

В сообщении ASF перечисляются использовавшиеся в ходе расследования инструменты, созданные при поддержке фонда:

  • Tika — тулкит для извлечения метаданных из различных документов;
  • Solr — поисковый сервер уровня enterprise;
  • PDFBox — приложение для извлечения текста из PDF-файлов;
  • POI — решение для извлечения текста из файлов Excel, Word и PowerPoint;
  • Commons — инструментарий для разработки приложений для обработки текста.

Также были использованы другие открытые решения: Tesseract-ocr, Blacklight, Jackcess. Все они распространяются на условиях Apache License v2.0.

Версия для печати