Версия AutoIt: 3.2.0
Описание:
Есть ПДФ с текстом в MBCS. Текст в в pdf-файле – на азербайджанском языке и буквы öüğçş в MBCS кодируются в зависимости от того где – в начале, в середине или в концене слова стоит буква различными комбинациями нескольких символов (например, ü: различные комбинации пробела, двух пробелов, двух точек «¨» (или просто точки «.») и обычной буквы u). При использовании ClipGet() в буфер попадают не символы öüğçş, а набор различных комбинаций пробела, «¨» и «¸». Например, слово «böyük» передается так «b ¨ oy¨uk»
Как правильно скопировать текст MBCS в буфер и конвертировать его в Юникод, чтоб многосимвольные буквы стали односимвольными?
Примечания:
для чего это надо: есть контекстный словарь, который переводит слова из буфера обмена, но понимает он лишь текст с односимвольными буквами öüğçş (Unicode, например) - поэтому получается проблема на стадии копирования текста в буфер обмена
вариант pdf-файла прилагается
Описание:
Есть ПДФ с текстом в MBCS. Текст в в pdf-файле – на азербайджанском языке и буквы öüğçş в MBCS кодируются в зависимости от того где – в начале, в середине или в концене слова стоит буква различными комбинациями нескольких символов (например, ü: различные комбинации пробела, двух пробелов, двух точек «¨» (или просто точки «.») и обычной буквы u). При использовании ClipGet() в буфер попадают не символы öüğçş, а набор различных комбинаций пробела, «¨» и «¸». Например, слово «böyük» передается так «b ¨ oy¨uk»
Как правильно скопировать текст MBCS в буфер и конвертировать его в Юникод, чтоб многосимвольные буквы стали односимвольными?
Примечания:
для чего это надо: есть контекстный словарь, который переводит слова из буфера обмена, но понимает он лишь текст с односимвольными буквами öüğçş (Unicode, например) - поэтому получается проблема на стадии копирования текста в буфер обмена
вариант pdf-файла прилагается