Excel; как удалить дубликаты но оставить уникальные значения
Excel — как удалить дубликаты но оставить уникальные значения?
Всем добрый вечер! Случалось ли Вам когда нибудь работать с данными в excel строковое значение которых переваливает за пару десятков тысяч? А вот мне человеку который создает и продвигает сайты и интернет магазины приходится сталкиваться достаточно часто, особенно когда дело касается загрузки и выгрузки данных от поставщика на сайт интернет магазина. Данная заметка родилась не на пустом месте, а прямо так сказать с пылу жару! Сегодня делал загрузку на свой интернет магазин по интим тематике (см портфолио) и после того как скачал прайс от поставщика и открыв его в excel (перед загрузкой на сайт я сначала все сверяю, на случай ошибок и случайных изменений столбцов со стороны поставщика) и увидел что из 25 тыс строк более 6-8 тыс являются дубликатами, зачем и почему так делает поставщик мы сейчас обсуждать не будем, на это не хочется тратить не сил, ни времени, а просто понимаем, что так сделал программист и по другому это делать нельзя!
После долгих колупаний решил выложить Вам инструкцию как удалить дубли строк без сдвига значений вверх.
- Удаление дубликатов в Microsoft Excel
- 1 Вариант — Стандартная функция в эксель — Удалить дубликаты
- 2 Вариант — Пометить дубликаты строк в Лож или Истина
- 3 Вариант — Удалить дубликаты в столбе
В Excel есть несколько способов фильтрации уникальных значений, а также удаления повторяющихся значений.
Чтобы отфильтровать уникальные значения, нажмите кнопку данные > отсортировать & фильтр > Дополнительно.
Чтобы удалить повторяющиеся значения, выберите > инструменты данные > Удалить дубликаты.
Чтобы выделиь уникальные или повторяющиеся значения, используйте команду условное форматирование в группе стиль на вкладке Главная .
Фильтрация уникальных значений и удаление повторяющихся значений — это две похожие задачи, так как целью является предоставление списка уникальных значений. Тем не менее, при фильтрации уникальных значений вы должны временно скрыть повторяющиеся значения. Однако удаление повторяющихся значений означает безвозвратное удаление повторяющихся значений.
Повторяющееся значение — это одно из значений, для которого все значения по крайней мере одной строки идентичны всем значениям в другой строке. Сравнение повторяющихся значений зависит от того, что отображается в ячейке, а не на основе значения, хранящегося в ячейке. Например, если у вас есть одинаковое значение даты в разных ячейках, например “3/8/2006”, а другое — “Мар 8, 2006”, значения будут уникальными.
Проверка перед удалением дубликатов: Прежде чем удалять повторяющиеся значения, рекомендуется сначала попытаться отфильтровать (или условно отформатировать по — уникальные значения), чтобы подтвердить достижение ожидаемых результатов.
Выполните указанные ниже действия.
Выделите диапазон ячеек или убедитесь в том, что активная ячейка находится в таблице.
Нажмите кнопку данные > дополнительно (в группе Фильтр сортировки & ).
В всплывающем окне Расширенный фильтр выполните одно из следующих действий:
Чтобы отфильтровать диапазон ячеек или таблицы по месту, выполните указанные ниже действия.
Нажмите кнопку Фильтровать список на месте.
Чтобы скопировать результаты фильтра в другое место, выполните указанные ниже действия.
Выберите команду скопировать в другое место.
В поле Копировать в введите ссылку на ячейку.
Кроме того, можно нажать кнопку Свернуть диалоговое окно , чтобы временно скрыть всплывающее окно, выбрать ячейку на листе, а затем нажать кнопку развернуть
.
Установите флажок только уникальные записии нажмите кнопку ОК.
Уникальные значения из диапазона будут скопированы в новое место.
При удалении повторяющихся значений единственным эффектом будут значения в диапазоне ячеек или таблице. Другие значения, находящиеся за пределами диапазона ячеек или таблицы, не изменяются и не перемещаются. При удалении дубликатов сохраняется первое вхождение значения в списке, а также удаляются другие идентичные значения.
Так как вы удаляете данные безвозвратно, рекомендуется скопировать исходный диапазон ячеек или таблицы на другой лист или в другую книгу, прежде чем удалять повторяющиеся значения.
Выполните указанные ниже действия.
Выделите диапазон ячеек или убедитесь в том, что активная ячейка находится в таблице.
На вкладке данные нажмите кнопку Удалить дубликаты (в группе Работа с данными ).
Выполните одно или несколько из указанных ниже действий:
В разделе столбцывыберите один или несколько столбцов.
Чтобы быстро выделить все столбцы, нажмите кнопку выделить все.
Чтобы быстро удалить все столбцы, нажмите кнопку снять выделение.
Если диапазон ячеек или таблица содержат много столбцов и нужно выделить несколько столбцов, возможно, вам будет проще щелкнуть снять все, а затем в разделе столбцывыберите эти столбцы.
Примечание: Данные будут удалены из всех столбцов, даже если на этом этапе не будут выделяться все столбцы. Например, если выбрать Столбец1 и Столбец2 (но не Столбец3), то “Key”, использованный для поиска дубликатов, — это значение обоих Столбец1 & Столбец2. Если в этих столбцах обнаружена повторяющаяся копия, вся строка удаляется, в том числе другие столбцы в таблице или диапазоне.
Нажмите кнопку ОК, и появится сообщение о том, сколько повторяющихся значений было удалено, или сколько уникальных значений осталось. Нажмите кнопку ОК , чтобы закрыть сообщение.
Чтобы изменить изменения, нажмите кнопку Отменить (или нажмите клавиши CTRL + Z на клавиатуре).
Невозможно удалить повторяющиеся значения из структурированных данных структуры или с промежуточными итогами. Для удаления дубликатов необходимо удалить структуру и промежуточные итоги. Дополнительные сведения можно найти в разделе Структурирование списка данных на листе и Удаление промежуточных итогов.
Примечание: Вы не можете условно форматировать поля в области значений отчета сводной таблицы с помощью уникальных или повторяющихся значений.
Выполните указанные ниже действия.
Выделите одну или несколько ячеек в диапазоне, таблице или отчете сводной таблицы.
На вкладке Главная в группе стиль щелкните маленькую стрелку для условного форматированияи выберите пункт правила выделения ячеек, а затем — повторяющиеся значения.
Введите значения, которые вы хотите использовать, а затем выберите формат.
Выполните указанные ниже действия.
Выделите одну или несколько ячеек в диапазоне, таблице или отчете сводной таблицы.
На вкладке Главная в группе стили щелкните стрелку рядом с кнопкой условное форматированиеи выберите пункт Управление правилами , чтобы открыть всплывающее окно диспетчера правил условного форматирования .
Выполните одно из следующих действий.
Чтобы добавить условное форматирование, нажмите кнопку создать правило , чтобы открыть всплывающее окно ” новое правило форматирования “.
Чтобы изменить условное форматирование, сначала убедитесь, что в списке Показать правила форматирования для выбран соответствующий лист или таблица. При необходимости выберите другой диапазон ячеек, нажав кнопку свернуть в окне применено, чтобы временно скрыть его. Выберите новый диапазон ячеек на листе, а затем снова разверните всплывающее окно
. Выберите правило и нажмите кнопку изменить правило , чтобы открыть всплывающее окно ” Изменение правила форматирования “.
В группе Выберите тип правила выберите параметр Форматировать только уникальные или повторяющиеся значения.
В списке форматировать все измените описание правилавыберите значение уникальное или повторяющееся.
Нажмите кнопку Формат , чтобы открыть всплывающее окно Формат ячеек .
Выберите число, шрифт, границу или формат заливки, которые нужно применить, если значение ячейки соответствует условию, а затем нажмите кнопку ОК. Можно выбрать несколько форматов. Выбранные форматы отображаются на панели Предварительный просмотр .
В Excel в Интернете вы можете удалить повторяющиеся значения.
Удаление повторяющихся значений
При удалении повторяющихся значений единственным эффектом будут значения в диапазоне ячеек или таблице. Другие значения, находящиеся за пределами диапазона ячеек или таблицы, не изменяются и не перемещаются. При удалении дубликатов сохраняется первое вхождение значения в списке, а также удаляются другие идентичные значения.
Важно: Вы всегда можете нажать кнопку отменить , чтобы вернуть данные после удаления дубликатов. С другой стороны, перед удалением повторяющихся значений рекомендуется скопировать исходный диапазон ячеек или таблицы на лист или в другую книгу.
Выполните указанные ниже действия.
Выделите диапазон ячеек или убедитесь в том, что активная ячейка находится в таблице.
На вкладке данные нажмите кнопку Удалить дубликаты .
В диалоговом окне Удаление дубликатов снимите флажок для столбцов, в которых не нужно удалять повторяющиеся значения.
Примечание: Данные будут удалены из всех столбцов, даже если на этом этапе не будут выделяться все столбцы. Например, если выбрать Столбец1 и Столбец2 (но не Столбец3), то “Key”, использованный для поиска дубликатов, — это значение обоих Столбец1 & Столбец2. При обнаружении дубликата в Столбец1 и Столбец2 вся строка будет удалена, включая данные из Столбец3.
Нажмите кнопку ОК, и появится сообщение о том, сколько повторяющихся значений было удалено. Нажмите кнопку ОК , чтобы закрыть сообщение.
Примечание: Если вы хотите вернуться к данным, просто нажмите кнопку отменить (или нажмите клавиши CTRL + Z на клавиатуре).
Обнаружение повторяющихся строк
Мы рассмотрели, как обнаружить одинаковые данные в отдельных ячейках. А если нужно искать дубликаты-строки?
Есть один метод, которым можно воспользоваться, если вам нужно просто выделить одинаковые строки, но не удалять их.
Итак, имеются данные о товарах и заказчиках.
Создадим справа от наших данных формулу, объединяющую содержание всех расположенных слева от нее ячеек.
Предположим, что данные хранятся в столбцах А:C. Запишем в ячейку D2:
Добавим следующую формулу в ячейку E2. Она отобразит, сколько раз встречается значение, полученное нами в столбце D:
Скопируем вниз для всех строк данных.
В столбце E отображается количество появлений этой строки в столбце D. Неповторяющимся строкам будет соответствовать значение 1. Повторам строкам соответствует значение больше 1, указывающее на то, сколько раз такая строка была найдена.
Если вас не интересует определенный столбец, просто не включайте его в выражение, находящееся в D. Например, если вам хочется обнаружить совпадающие строки, не учитывая при этом значение Заказчик, уберите из объединяющей формулы упоминание о ячейке С2.
Выделение повторов
Если пользователь не уверен, что программа автоматически удалит нужные строки, или в том, что она найдет все повторы построчно, можно только выделить дубликаты в Excel. А удалить их уже потом — вручную. Для этого нужно выполнить такие действия:
- Выделить таблицу, из которой удаляются повторы.
- Перейти на главной вкладке в группу стилей и выбрать условное форматирование.
- Перейти к правилам выделения ячеек и выбрать пункт «Повторяющиеся значения».
- Указать цвет текста и заливки, которыми будут выделены повторяющиеся сведения. Лучше всего сделать выделение заметно отличающимся от основного текста — так будет проще не пропустить дубликаты для удаления вручную.
Как убрать дубликаты строк с помощью формул.
Еще один способ удалить неуникальные данные – идентифицировать их с помощью формулы, затем отфильтровать, а затем после этого удалить лишнее.
Преимущество этого подхода заключается в универсальности: он позволяет вам:
- находить и удалять повторы в одном столбце,
- находить дубликаты строк на основе значений в нескольких столбиках данных,
- оставлять первые вхождения повторяющихся записей.
Недостатком является то, что вам нужно будет запомнить несколько формул.
В зависимости от вашей задачи используйте одну из следующих формул для обнаружения повторов.
Формулы для поиска повторяющихся значений в одном столбце
Добавляем еще одну колонку, в которой запишем формулу.
Повторы наименований товаров, без учета первого вхождения:
Как видите, когда значение встречается впервые (к примеру, в B4), оно рассматривается как вполне обычное. А вот второе его появление (в B7) уже считается повтором.
Отмечаем все повторы вместе с первым появлением:
Где A2 – первая, а A10 – последняя ячейка диапазона, в котором нужно найти совпадения.
Ну а теперь, чтобы убрать ненужное, устанавливаем фильтр и в столбце H и оставляем только «Дубликат». После чего строки, оставшиеся на экране, просто удаляем.
Вот небольшая пошаговая инструкция.
- Выберите любую ячейку и примените автоматический фильтр, нажав кнопку «Фильтр» на вкладке «Данные».
- Отфильтруйте повторяющиеся строки, щелкнув стрелку в заголовке нужного столбца.
- И, наконец, удалите повторы. Для этого выберите отфильтрованные строки, перетаскивая указатель мыши по их номерам, щелкните правой кнопкой мыши и выберите «Удалить строку» в контекстном меню. Причина, по которой вам нужно сделать это вместо простого нажатия кнопки «Удалить» на клавиатуре, заключается в том, что это действие будет удалять целые строки, а не только содержимое ячейки.
Формулы для поиска повторяющихся строк.
В случае, если нам нужно найти и удалить повторяющиеся строки (либо часть их), действуем таким же образом, как для отдельных ячеек. Только формулу немного меняем.
Отмечаем при помощи формулы неуникальные строчки, кроме 1- го вхождения:
В результате видим 2 повтора.
Теперь самый простой вариант действий – устанавливаем фильтр по столбцу H и слову «Дубликат». После этого просто удаляем сразу все отфильтрованные строки.
Если нам нужно исключить все повторяющиеся строки вместе с их первым появлением:
Далее вновь устанавливаем фильтр и действуем аналогично описанному выше.
Насколько удобен этот метод – судить вам.
Что ж, как вы только что видели, есть несколько способов найти повторяющиеся значения в Excel и затем удалить их. И каждый из них имеет свои сильные стороны и ограничения.
Поиск дубликатов с использованием условного форматирования
Условное форматирование — это самый быстрый и простой способ найти дубликаты на одном листе. Мы собираемся использовать эту технику для сортировки этой базы данных адресов электронной почты.
— отсеять любые дубликаты, возникшие благодаря тому, что пользователи предоставили одну и ту же информацию более одного раза, и зарегистрировать один и тот же адрес под более чем одним именем.
Первый шаг — выбрать все данные, которые мы хотим найти для дубликатов. Затем отправляйтесь в Стили раздел Главная вкладка и перейдите к Условное форматирование > Выделите правила ячеек > Повторяющиеся значения.
Это откроет окно, которое позволяет вам настроить способ дублирования значений. Это необязательный шаг, поэтому, если вы просто ищете дубликаты и не заботитесь о цветовой схеме, нажмите Хорошо двигаться дальше.
Вы должны найти, что любые дублирующиеся записи теперь выделены красным. Это должно упростить удаление ненужных ячеек или хотя бы сразу понять, какая информация является посторонней.
Метод 2: удаление повторений при помощи “умной таблицы”
Еще один способ удаления повторяющихся строк – использование “умной таблицы“. Давайте рассмотрим алгоритм пошагово.
- Для начала, нам нужно выделить всю таблицу, как в первом шаге предыдущего раздела.
- Во вкладке “Главная” находим кнопку “Форматировать как таблицу” (раздел инструментов “Стили“). Кликаем на стрелку вниз справа от названия кнопки и выбираем понравившуюся цветовую схему таблицы.
Примечание: Из всех описываемых в данной статье методов этот является наиболее гибким и универсальным, позволяя комфортно работать с таблицами различной структуры и объема.
Простое авто-удаление дублей строк
Представим одну из самых популярных задач: есть список строк с ФИО людей, в строках много совпадений, нужно оставить только уникальные значения (кстати, это просто пример, все совпадения с реальными людьми — случайны) .
Задачка проиллюстрирована на скриншоте ниже (это пример: понятно, что 2 строки можно удалить и руками, но в реальности же строк может быть и 2000, и 20000, где “руки” будут бессильны. ).
Пример задачи в Excel
Чтобы в Excel удалить повторяющиеся строки, необходимо:
- выделить свою табличку (строки и столбцы) с данными;
Выделение таблицы в Excel
далее перейти в раздел “Данные” и нажать по инструменту “Удалить дубликаты” (см. скрин ниже);
Данные – удалить дубликаты // Excel
после чего появится окно с настройками: если у вас есть заголовки в таблице — рекомендую поставить галочку ” Мои данные содержат заголовки” . После — нажмите кнопку OK;
Удаление (выделение заголовков)
в результате увидите сообщение: сколько строк было удалено, и сколько уникальных осталось. Пример выполненной задачи представлен ниже.
Лишние строки удалены!
Поиск дублирующихся значений с помощью сводных таблиц
Составим список уникальных строк, не теряя данные из других столбцов и не меняя исходную таблицу. Для этого используем инструмент Сводная таблица:
Пункт «Сводная таблица».
В диалоговом окне выбрать размещение сводной таблицы на новом листе.
В открывшемся окне отмечаем столбец, в котором содержатся интересующие нас значений.
Получаем упорядоченный список уникальных строк.