Исправьте нечитаемый текст с помощью Power Query

Бывает, что когда мы работаем с данными из разных систем, текст состоит из неразборчивых символов вместо букв. Особенно если речь идет о кириллице. В следующих строках я покажу вам простое решение, которое вы можете попробовать в такой ситуации..

В статье «Какие данные Linkedin хранит для каждого пользователя» мы увидели, как любой, у кого есть учетная запись в этой социальной сети, может загрузить архив с данными о нем, включая личные сообщения, которыми он обменивался с другими пользователями. Файлы имеют формат csv, удобный для анализа. Вот как выглядит такой файл:

Для ясности:

ИД КОНВЕРСАЦИИ: Уникальный номер корреспонденции. Как видите, он содержит несколько десятков букв и цифр, по всей видимости, сгенерированных случайным образом.

Читать также:  Статистика книги в Excel

НАЗВАНИЕ РАЗГОВОРА: В данном случае он пустой, и я понятия не имею, что здесь заполнено, а также в чем разница с ТЕМА ниже

ИЗ: очевидно, это отправитель, в данном случае я выбрал своего хорошего друга Владо Кашона, о котором я рассказал в отличной статье про 10 способов сделать графику в Excel. По моему скромному мнению, стоит прочитать.

URL ПРОФИЛЯ ОТПРАВИТЕЛЯ: ссылка на профиль отправителя в LI

К: Получатель. В данном случае это я. Было бы логично, если бы вы оказались в вашем архиве

ДАТИРОВАТЬ: Дата и время сообщения

СОДЕРЖАНИЕ: Текст сообщения

ПАПКА:  В какой папке находится сообщение

Большая проблема в том, что текст сообщения совершенно неразборчивый. Причина в том, что он написан на кириллице, и очевидно, что программное обеспечение LI недостаточно совершено, чтобы правильно его преобразовать. С латинским текстом это не работает.

Читать также:  Продвигайте заголовки - заголовок в Power Query

А с Power Query решить эту проблему очень просто. Чтобы «исправить» текст, мы сначала загружаем его в Power Query (из текста / CSV). Само по себе это не помогает — текст по-прежнему неразборчив..

Перейдите в Applied Steps и дважды щелкните Source.

Это открывает меню, в котором нас интересует поле «Источник файла».

Как видите, Power Query автоматически распознал, что файл происходит из Западной Европы (Windows). Это логично, поскольку LI по-прежнему остается американской компанией. Но у нас текст на кириллице, отсюда и эти неразборчивые иероглифы. Но если щелкнуть стрелку справа, появится множество других вариантов, в том числе кириллица.

Все, что нам нужно сделать, это выбрать соответствующее происхождение файла, которое превратит иероглифы в обычные кириллические буквы. Обычно это некоторые из представленных типов кириллицы, но в данном конкретном случае результат немного удивителен:

Читать также:  Сводные таблицы в Excel - первые шаги

Да, методом проб и ошибок я обнаружил, что для данных LI мы должны выбрать «Нет». Затем нажимаем ОК и стрелка — наш текст уже на кириллице

Небольшая обработка, туи-онуи, и теперь мы можем наслаждаться текстом во всей красе.

Должен уточнить, что этот номер может работать не всегда. Но это просто и стоит попробовать, прежде чем искать другие варианты..

Понравилась статья? Поделиться с друзьями:
Что нужно знать пользователю?