![]() |
<div id="post_message_801650">
Учёные из Университета Претории (ЮАР) разработали новый способ выявления изменений в PDF-документах. Их прототип анализирует так называемые file page objects — это такие внутренние структуры файла, где хранится всё: от текста и картинок до метаданных.<br/> <br/> PDF-формат давно стал стандартом в деловой переписке, поэтому неудивительно, что его часто используют мошенники — например, чтобы подделывать договоры или внедрять вредоносный код.<br/> <br/> Сегодня редактировать PDF может кто угодно: есть и Adobe Acrobat, и куча онлайн-редакторов. Поэтому важно уметь быстро определять, менялся ли документ — и если да, то как именно.<br/> <br/> Обычно для защиты PDF используют водяные знаки и хеши. Но эти подходы работают только с тем, что видно на глаз — текстом и изображениями. Если же злоумышленник подменил метаданные, добавил скрипт или изменил цифровую подпись, такие методы это не отловят.<br/> <br/> К тому же, даже небольшое изменение меняет хеш-файл целиком — и непонятно, что именно было затронуто. А это неудобно, особенно в юридически важных документах.<br/> <br/> <b><font size="4"><b><font color="White">Что придумали в Претории</font></b></font></b><br/> <br/> <a href="https://arxiv.org/pdf/2507.00827" target="_blank">Новый прототип </a>работает на Python и использует библиотеки PDFRW, hashlib и Merkly. Вот как он устроен:<br/> <ol style="list-style-type: decimal"><li><b>Сначала PDF нужно “защитить”</b>. Программа читает файл, находит все page objects и создаёт уникальные хеши для каждой страницы, разбивая её содержимое на кусочки по 256 байт. Эти хеши строятся по принципу дерева Меркла: есть “листья” (для каждого блока) и “корень” (общий хеш всей страницы).<br/></li> <li>Также отдельно хешируется сам объект страницы и метаданные всего документа. Чтобы избежать ложных срабатываний, некоторые части пропускаются — они могут меняться от редактора к редактору и не несут смысла.<br/></li> <li>Все хеши прячутся внутри документа — в специальные скрытые поля. После этого сохраняется новая версия PDF — уже “защищённая”.<br/></li> <li><b>Если потом нужно проверить файл на изменения</b>, программа достаёт из него все сохранённые хеши, заново рассчитывает новые — и сравнивает. Если что-то не совпадает, значит, документ менялся.</li> </ol>Главное достоинство — точность. Система может указать не только, что файл изменился, но и какую именно страницу и какой участок (в пределах 256 байт) тронули. Также покажет, если были переписаны метаданные.<br/> <br/> <img alt="" border="0" class="bbCodeImage" src="https://dl3.joxi.net/drive/2025/07/07/0048/3474/3202450/50/fb8d76ac6f.jpg"/><br/> <br/> <b><font size="4"><b><font color="white">Пока работает лучше всего с Adobe Acrobat</font></b></font></b><br/> <br/> Прототип тестировали на файлах, изменённых в Adobe Acrobat, и в этих случаях он отрабатывал отлично. Теоретически, он должен справляться и с другими редакторами — потому что «защищённые» PDF создаются единообразно через PDFRW, — но это ещё предстоит проверить.<br/> <br/> Важное ограничение: систему нельзя применить к «обычным» PDF-документам — сначала их нужно защитить через этот же инструмент. И пока он не умеет отслеживать, скажем, смену шрифта или вставку JavaScript.<br/> <br/> Тем не менее даже в таком виде инструмент может стать отличной основой для будущих решений в области цифровой гигиены и защиты документов.<br/> <br/> <a href="https://www.anti-malware.ru/news/2025-07-07-111332/46558" target="_blank">@ Anti-Malware </a> </div> |
All times are GMT. The time now is 11:04 AM. |
Powered by vBulletin® Version 3.8.7
Copyright ©2000 - 2025, vBulletin Solutions, Inc.