Если позиции скриншотов не изменяются (то есть производится лишь вертикальный скролл), вероятно, лучше сравнивать хеши строк изображений (то есть, как раз рассчитывать хеш, по подобию перцептивного хеша, для каждой строки по отдельности). Сеть, если это возможно, вряд ли выдаст результат лучше. Скриншоты, при этом желательно иметь в lossless качестве (например, *.png). Также, на время расчета хешей, изображения следует переводить в градации серого либо в черно-белое. После этого сравниваем последовательно граничные хеши предыдущих и последующих изображений на пересечения. По количеству совпадающих строк будет понятно, сколько нужно отрезать пикселей по вертикали перед соединением. Таким образом можно сохранить на скриншотах и текст с форматированием, и сопутствующие картинки/графики/таблицы, если конечно, они нужны.
Вероятно, если необходим только текст, проще будет распознать его на каждом скриншоте по отдельности. В простейшем случае (когда строки в самом тексте не повторяются) останется лишь исключить дубли строк. Например, в Loginom для этого понадобится около четырех узлов (получение списка файлов, загрузка одного файла, цикл загрузки по списку файлов, группировка загруженных строк).