Как обучить сеть распознавать одинаковый текст(участки) на scroll изобр(часть текста на 1 изобр, есть и на 2 изобр)?

0 голосов
Vitaly в категории Как сделать...
Здравствуйте, подскажите пожалуйста как обучить сеть следующему:

имеется несколько изображений окон Ворд на которых которых расположен текст. На каждом изображении текст проскроллен (есть пересечения текста на изображениях). Как обучить сеть распознавать части (участки) текста на изображениях (хотелось бы чтобы исходные изображения просто обрезались и были без повторяющегося текста), так чтобы полученные изображения передать в Тессеракт и получить один .тхт файл со всем текстом(без повтора пересекающегося текста). (Для определения частей (участков) Тессеракт нельзя использовать)

Возможно для решения данной проблемы можно использовать перцептивный хэш.Спасибо за любую помощь.

Ответы: 2 шт.

0 голосов
Евгений Алябьев
Если позиции скриншотов не изменяются (то есть производится лишь вертикальный скролл), вероятно, лучше сравнивать хеши строк изображений (то есть, как раз рассчитывать хеш, по подобию перцептивного хеша, для каждой строки по отдельности). Сеть, если это возможно, вряд ли выдаст результат лучше. Скриншоты, при этом желательно иметь в lossless качестве (например, *.png). Также, на время расчета хешей, изображения следует переводить в градации серого либо в черно-белое. После этого сравниваем последовательно граничные хеши предыдущих и последующих изображений на пересечения. По количеству совпадающих строк будет понятно, сколько нужно отрезать пикселей по вертикали перед соединением. Таким образом можно сохранить на скриншотах и текст с форматированием, и сопутствующие картинки/графики/таблицы, если конечно, они нужны.

Вероятно, если необходим только текст, проще будет распознать его на каждом скриншоте по отдельности. В простейшем случае (когда строки в самом тексте не повторяются) останется лишь исключить дубли строк. Например, в Loginom для этого понадобится около четырех узлов (получение списка файлов, загрузка одного файла, цикл загрузки по списку файлов, группировка загруженных строк).
0 голосов
alexey.arustamov
Вопрос немного не сюда. Для распознавания изображений лучше использовать другие продукты. Loginom предназначен для анализа структурированных данных. В платформе есть и нейросетевые компоненты, но они не заточены под решение задач распознавания образов.
...