Update readme and add using Union find algorithm on PHP

animan01 · animan01 · commit 81e0f42800c0 · 2020-06-28T14:26:37.000+03:00
diff --git a/README.md b/README.md
@@ -1,8 +1,12 @@
+Alhoritm
+--
+[Disjoint-set/Union-find Forest](https://en.wikipedia.org/wiki/Disjoint-set_data_structure)
+
 Problem/Motivation
 --
 Find duplicates in CSV file. The problem was the related search for duplicates in the data table. On demand there is a need to find a duplicate from key fields (in any field) and to assign the first duplicate occurrence to **PARENT_ID**.
 
-The algorithm finding a chain of duplicates and generates result with **ID** and **PARENT_ID** was created.
+Union find algorithm implemented on PHP, finding a chain of duplicates and generates result with **ID** and **PARENT_ID** was created.
 
 Example of input data (based on the csv file):
 ```
diff --git a/README_RU.md b/README_RU.md
@@ -1,6 +1,10 @@
+Alhoritm
+--
+[Disjoint-set/Union-find Forest](https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0_%D0%BD%D0%B5%D0%BF%D0%B5%D1%80%D0%B5%D1%81%D0%B5%D0%BA%D0%B0%D1%8E%D1%89%D0%B8%D1%85%D1%81%D1%8F_%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2)
+
 Problem/Motivation
 --
-Поиск дубликатов в CSV файле. Суть задачи состояла в связанном поиска дубликатов в таблице с данными. По требованиям нужно найти из ключевых полей дубликат (в любом поле) и присвоить записи **PARENT_ID** первого вхождения дубликата. Был написан алгоритм который находит дубликаты связывает их и формирует результат с **ID** и **PARENT_ID**.
+Поиск дубликатов в CSV файле. Суть задачи состояла в связанном поиска дубликатов в таблице с данными. По требованиям нужно найти из ключевых полей дубликат (в любом поле) и присвоить записи **PARENT_ID** первого вхождения дубликата. Было решено использовать **Union find**, алгоритм который реализовали на PHP находит дубликаты связывает их и формирует результат с **ID** и **PARENT_ID**.
 
 Пример входных данных (за основу взят файл csv):
 ```
diff --git a/README_UA.md b/README_UA.md
@@ -1,8 +1,12 @@
+Alhoritm
+--
+[Disjoint-set/Union-find Forest](https://uk.wikipedia.org/wiki/%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0_%D0%BD%D0%B5%D0%BF%D0%B5%D1%80%D0%B5%D1%82%D0%B8%D0%BD%D0%BD%D0%B8%D1%85_%D0%BC%D0%BD%D0%BE%D0%B6%D0%B8%D0%BD)
+
 Problem/Motivation
 --
 Пошук дублікатів в CSV файлі. Суть задачі полягала в зв'язаному пошуку дублікатів в таблиці з даними. По вимогам потрібно знайти з ключових полів дублікат (в будь якому полі) і присвоїти запису **PARENT_ID** першого входження дубліката. 
 
-Був написаний алгоритм на PHP який знаходить дублікати зв'язує їх і формує результат з **ID** та **PARENT_ID**.
+Вирішено було використати **Union find** алгоритм написаний на PHP який знаходить дублікати зв'язує їх і формує результат з **ID** та **PARENT_ID**.
 
 Приклад вхідних даних (за основу взятий файл csv):
 ```
diff --git a/index.php b/index.php
@@ -2,15 +2,17 @@
 /**
  * Find Chain of duplicates in a CSV file.
  *
- * @author  Roman Zakharchuk <extatic.dancer@gmail.com>
  * @author  Volodymyr Melnychuk <540991@i.ua>
  *
  */
 
+// Define constants.
+define('FIELDS', ['EMAIL', 'CARD', 'PHONE']);
+
 // Default example data.
 $csv = 'ID,PARENT_ID,EMAIL,CARD,PHONE,TMP
 1,NULL,email1,card1,phone1,
-2,NULL,email2,card2,phone2,
+2,NULL,email2,card1,phone2,
 3,NULL,email3,card3,phone3,
 4,NULL,email1,card2,phone4,                                                                                                                                                          
 5,NULL,email5,card5,phone2,
@@ -36,97 +38,62 @@
   ];
 }
 
-// Get all rows for fields.
-$ids = array_column($fields_array, 'ID');
-$emails = array_column($fields_array, 'EMAIL');
-$cars = array_column($fields_array, 'CARD');
-$phones = array_column($fields_array, 'PHONE');
-
-$results = [];
 $csv_string = 'ID,PARENT_ID' . PHP_EOL;
 
-// Prepare data for csv.
+$mapping_fields = [];
+
+// Find duplicates and save to mapping.
 foreach ($fields_array as $key => $array) {
 
-  $ids_by_mail = get_duplicate_array($emails, 'EMAIL', $array['EMAIL']);
-  $ids_by_card = get_duplicate_array($cars, 'CARD', $array['CARD']);
-  $ids_by_phone = get_duplicate_array($phones, 'PHONE', $array['PHONE']);
+  // Skip first element in array.
+  if ($key === 0) {
+    continue;
+  }
+
+  // Set default value for each iteration.
+  $group = NULL;
+  $group_to_merge = [];
 
-  $min_ids = [
-    min($ids_by_mail),
-    min($ids_by_card),
-    min($ids_by_phone),
-  ];
+  // Grouping by fields.
+  foreach (FIELDS as $field) {
+    $field_value = $array[$field];
+    if (array_key_exists($array[$field], $mapping_fields)) {
+      $group = $mapping_fields[$field_value];
+      $group_to_merge[] = $group;
+    }
+  }
 
-  $min_id = min($min_ids);
+  // Setting minimal group if have more one group ID.
+  if (count($group_to_merge) > 1) {
+    $group = min($group_to_merge);
+  }
+
+  // Setting group if do not have any duplicates.
+  if ($group === NULL) {
+    $group = $array['ID'];
+  }
 
-  fill_results($ids_by_mail, $results, $min_id);
-  fill_results($ids_by_card, $results, $min_id);
-  fill_results($ids_by_phone, $results, $min_id);
+  // Save fields to mapping.
+  $mapping_fields[$array['EMAIL']] = $group;
+  $mapping_fields[$array['CARD']] = $group;
+  $mapping_fields[$array['PHONE']] = $group;
 
 }
 
-ksort($results);
+foreach ($fields_array as $key => $array) {
+  // Skip first element in array.
+  if ($key === 0) {
+    continue;
+  }
+  // Searching PARENT_ID by email field. May be any field (like: CARD, PHONE).
+  $fields_array[$key]['PARENT_ID'] = $mapping_fields[$array['EMAIL']];
 
-// Prepare string for csv.
-foreach ($results as $key => $result) {
+  // Prepare data from csv.
   if ($key !== 0) {
-    $csv_string .= implode(',', [$key, $results[$key]['PARENT_ID']]) . PHP_EOL;
+    $csv_string .= implode(',',
+        [$key, $fields_array[$key]['PARENT_ID']]) . PHP_EOL;
   }
 }
 
-//print_r($results);
 // Show results as string.
 print_r($csv_string);
-
-/**
- * Return founded duplicates key.
- *
- * @param array $array
- *    Array with fields.
- * @param $column
- *    Field name.
- * @param $string
- *    Search string.
- *
- * @return array|bool
- */
-function get_duplicate_array($array, $column, $string) {
-
-  $results = array_filter($array,
-    function ($value) use ($string) {
-      if ($value === $string) {
-        return TRUE;
-      }
-      return FALSE;
-    },
-    ARRAY_FILTER_USE_BOTH);
-
-  $results = array_fill_keys(array_keys($results), min(array_keys($results)));
-
-  if (count($results) > 0) {
-    return $results;
-  }
-  else {
-    return [];
-  }
-
-}
-
-/**
- * Get fill results.
- *
- * @param $array
- *   Array.
- * @param $results
- *   Row results.
- * @param $min_id
- *  Minimal ID.
- */
-function fill_results($array, &$results, $min_id) {
-  foreach ($array as $id => $value) {
-    if (empty($results[$id]) || $results[$id] > $min_id) {
-      $results[$id]['PARENT_ID'] = $min_id;
-    }
-  }
-}