Revolver Maps

среда, 27 апреля 2016 г.

Как изучались документы в деле о панамских оффшорах


Панамские бумаги - скандал, связанный с утечкой документов из панамской юридической фирмы Mossack Fonseca, вскрыл убежище для денег мировых лидеров и подобных им проходимцев.

Программное обеспечение, позволившее сделать эти документы столь ценным и понятным было предоставлено компанией Nuix со штаб-квартирой в Австралии. Карл Баррон (Carl Barron), главный консультант рассказал, как были обработаны документы.

Баррон рассказал, что Nuix более пяти лет тесно работала с International Consortium of Investigative Journalists (ICIJ) по делу, связанному с корпоративным мошенничеством в Australian Firepower. ICIJ рекомендовал Nuix немецкой газете Süddeutsche Zeitung, которая занималась расследование панамских бумаг.

“Совместно с SZ мы работали над аппаратным обеспечением и обработкой документов. Мы взаимодействовали как с SZ, так и с ICIJ. Само исследование документов началось для нас в сентябре 2015 года, но я не думаю, что данные пришли одним большим пакетом. Всего лишь за полтора дня мы индексировали 11.5 миллионов файлов объемом 2.6 террабайт.”

Данные, полученные ICIJ и Süddeutsche Zeitung потребовали решения задач по оптическому распознаванию текстов.

“Данные были в электронном виде, но некоторые были копиями бумажных документов. Большое количество электронных писем. Все данные были разбиты на 11,5 миллионов файлов и около пяти миллионов электронных писем. Были документы PDF и изображения, которые надо было обработать и перевести в электронный формат.”

Nuix была привлечена для того, чтобы индексировать документы, найти и установить связи между ними.

“Nuix это можная индексирующая машина, которая извлекала тексты и метадаты из файлов и она оказалась полезной для установления связей между документами, таких как сортировка по именам документов или по отправителям электронной почты.”
Работа началась на обычном компьютере, но позже SZ купила сервер Windows для обработки данных. Объем данных был не таким уж и большим, но достаточно большое количество рутинной работы, связанной с оптическим распознаванием данных и определением - «мусор» или «не мусор».”

После того, как мы определили для них необходимое аппаратное оборудование и расписали карты работы, работники SZ и ICIJ смогли провести анализ находки и мы установили для них файауолл, обеспечивший им безопасность работы.
Баррон говорит, что для дальней ших работ журналисты и исследователи добавят дополнительные критерии для установления связей между именами и данными.




Nuix CEO Eddie Sheehy написал об этом проекте здесь.

Комментариев нет:

Отправить комментарий