Что необходимо знать для того чтобы количественно описать: Физические величины и их измерение

Содержание

Физические величины и их измерение

Конспект по физике для 7 класса «Физические величины и их измерение»: единицы физических величин, кратные и дольные физические величины, действия над физическими величинами.

Конспекты по физике    Учебник физики    Тесты по физике


Все физические тела обладают набором определенных свойств. Все физические явления протекают во времени. Задача физики — понять причины тех или иных физических явлений и описать их.

ФИЗИЧЕСКИЕ ВЕЛИЧИНЫ

Для описания какого-либо свойства физического тела и явления служит физическая величина.

Одна и та же физическая величина используется для характеристики одного и того же свойства различных физических явлений и тел.

Например, мы можем говорить о длине шага, длине стола, длине доски. При этом значения вышеперечисленных длин будут разными.

Для того чтобы количественно описать физическую величину, необходимо знать её числовое значение и единицу физической величины. Говоря о том, что урок в школе длится 45 минут, мы описываем физическую величину время. Сочетание «45 минут» — это время, показывающее длительность урока, состоящее из числового значения 45 и единиц времени минут.

ЕДИНИЦЫ ФИЗИЧЕСКОЙ ВЕЛИЧИНЫ

Говоря о значении физической величины, мы всегда должны учитывать, в каких единицах она выражена. Для каждой физической величины существуют свои единицы. Например, единицами длины могут быть сантиметр, метр, километр. Что же в этом случае означает измерить физическую величину?

Измерение физической величины – это сравнение её с эталоном. Уже более двух веков все страны мира стремятся использовать одинаковые эталоны для измерения основных физических величин. Для этот и была создана Международная система единиц СИ (система интернациональная).

Единицы СИ
Единица длиныМетр (1 м)
Единица времениСекунда (1 с)
Единица массыКилограмм (1 кг)

Если сравнивать длину какого-либо тела с эталоном метра, мы получим длину, выраженную в метрах.

КРАТНЫЕ И ДОЛЬНЫЕ ЕДИНИЦЫ

Итак, эталоном длины служит метр. Но ведь существуют тела, обладающие совсем маленькими или очень большими размерами. Так, длина инфузории-туфельки, которая составляет примерно 0,0002 м, очень мала, а длина экватора Земли, составляющая 40 075 696 м, велика.

Эти величины часто неудобно выражать в метрах, поэтому для таких целей используют единицы, которые могут быть меньше метра в 10, 100 и т. д. раз (их называют дольными), или больше метра в 10, 100 и т. д. раз (их называют кратными).

Название приставки Название единицы, кратной или дольной метру Множитель
милли (м)миллиметр (мм)0,001
санти (с)сантиметр (см)0,01
деци (д)дециметр (дм)0,1
кило (к)километр (км)1000

Например, километр является кратной единицей для метра и равен 10(H) метрам. При этом в названии «километр» появилась приставка «кило», которая и определяет, насколько одна величина больше другой.

Для того чтобы величину, выраженную в метрах, перевести в сантиметры, необходимо её значение умножить на 100. В этом случае число 100 называют множителем.

В качестве примеров дольных единиц можно рассмотреть: единица в тысячу раз меньше метра называется миллиметр, в миллион раз меньше метра — микрометр или кратко — микрон, в миллиард раз меньше метра — нанометр.

ДЕЙСТВИЯ НАД ФИЗИЧЕСКИМИ ВЕЛИЧИНАМИ

Нельзя напрямую сравнивать две физические величины, выраженные в разных единицах.

Например, расстояние между школой и домом одного ученика равно 1 километру, а расстояние от школы до дома другого ученика — 1100 метров. Как понять, кто живёт дальше от школы?

Чтобы сравнение было правильным, нужно сначала выразить значения величин в одинаковых единицах:

1 км = 1000 м;
1000 м < 1100 м.

При этом всегда надо помнить, что нельзя сравнивать неоднородные величины, например такие, как масса и расстояние, или расстояние и время. Такое сравнение не имеет никакого смысла.

Старинные меры

С давних времен человеку приходилось проводить измерения. В русской системе мер, которая традиционно применялась на Руси, мерой длины, например, мог быть сам человек. Так, косая сажень — это расстояние от носка левой ноги до конца среднего пальца поднятой вверх правой руки. Пядь или четверть — расстояние между концами расставленных большого и указательного пальцев руки.

В 1899 году наряду с русской системой мер к использованию была разрешена метрическая система.

Сегодня в России применяется Международная система единиц, а старинные меры сохранились лишь в пословицах и поговорках.


Вы смотрели конспект по физике для 7 класса «Физические величины и их измерение»: единицы физических величин, кратные и дольные физические величины, действия над физическими величинами.

Вернуться к Списку конспектов по физике (оглавление).

Пройти онлайн-тест «Наблюдения. Опыты. Физические величины»

Количественные и качественные исследования: сравнение

Рассказываем, в чем разница между количественными и качественными данными.

При работе с опросами используют разные методы получения и обработки информации. Два метода, которые часто вызывают путаницу, — это количественный и качественный анализ. Они не исключают друг друга, а наоборот — выгодно дополняют. Но очень важно знать, чем эти методы отличаются, какую информацию способны дать и как их правильно использовать. Об этом и расскажем дальше.

Если очень кратко, то количественные данные обеспечивают числа для общего представления о той или иной ситуации, связанной с продукцией, услугой, уровнем обслуживания и т. д. А качественные данные эти общие моменты уточняют — делают более развернутыми и подробными.

Количественные и качественные исследования: сравним два метода

Количественные данные всегда представлены цифрами. Их можно обработать статистическими методами и получить какие-то конкретные показатели. Например, после опроса вы можете понять, что 70% посетителей вашего сайта не пользуются регулярными акциями, которые расположены в специальном разделе.

Качественные данные описывают ситуацию. Они основываются на разной информации:
впечатлениях, мнениях, взглядах разных людей.

Тут уже меньше точности, но зато больше вариантов ответов, которые могут приблизить к решению. Если вернуться к примеру с сайтом, то вы можете выяснить, что люди не пользуются акциями по определенным причинам: они невыгодны, отличаются слишком сложными условиями, не ассоциируются с продукцией (в том же люкс сегменте) и т. д.

Важный момент: качественное исследование предполагает, что участнику задают открытые вопросы. Это удобно тем, что человек не ограничен вариантами — очень вероятно, что в ответах появится такая информация, на которую авторы даже не рассчитывали. Обрабатывать подобные опросники гораздо сложнее, но зато в них немало открытий и данных, которые потом можно применять с большой пользой для дела.

Количественные и качественные: какие исследования и когда выбирать?

Оба варианта необходимы, если вы хотите добиться максимально качественного результата. Давайте оттолкнемся от изначальных целей и разберемся, какие методы этим целям подходят.

Формулирование гипотезы (предположения).

Чтобы составить хороший опросник — пусть он будет о качестве товара — вам необходимо хотя бы ориентировочно понимать, какие проблемы, недовольства могут быть у клиентов, чему они рады, а что оценивают не слишком высоко. И тут как раз помогут результаты качественного опроса. То есть изначально вы задаете открытые вопросы — например, спрашиваете, как покупатель оценивает соотношение стоимости продукта и эффекта от его использования.

Когда ответы получены, из них можно вычленить разные мнения: товар стоит дороже, чем должен; товар стоит приемлемо, но упаковка оставляет желать лучшего; за эту цену можно покупать, но только в том случае, если объем будет больше и т. д. Таких примеров может быть много: то есть качественные опросы для формулировки гипотезы позволяют насобирать как можно больше полезной информации, которая будет использована в дальнейшем.

Подтверждение гипотезы (предположения)

Дальше, когда на руках у вас есть много разных данных, из них можно создать опросник с конкретными вопросами. И вот тут на первый план выходят количественные опросы. Например, вы знаете, что какое-то количество людей недовольно соотношением цены и количества продукта в банке. Вы задаете вопрос по этому поводу и понимаете, что этих недовольных больше 60% — значит, это весомая информация для вашего бизнеса. И так поступают со всей значимой информацией, которая может повлиять на производство или продажи. Это не означает, что необходимо тут же пересмотреть объемы упаковки — возможно, вы недостаточно хорошо объяснили клиентам, почему им стоит платить именно такую сумму за этот объем.

Поиск общих ответов

Если уже есть ряд вопросов, не требующих рассуждений, подойдут количественные опросники. Они проще и позволяют охватить как можно больше людей. Например, вам нужно определить наиболее востребованную услугу, самый популярный продукт или тарифный план — и, чтобы вовлечь как можно больше пользователей, вопрос должен быть простым, понятным, лаконичным и с ограниченным количеством ответов.

Помощь в создании продукта, услуги

Когда цель именно такая, придется снова вернуться к качественным вопросам. Еще не выпустив продукт, вы не знаете, какие точно вопросы нужно задавать — тут речь идет об ожиданиях клиентов, их желаниях. И для этого не подходят емкие количественные вопросы — необходимо задавать открытые, чтобы люди могли порассуждать, что-то предложить. Тщательная обработка полученной информации поможет сделать много открытий и часть данных использовать для создания продукта.

Количественная оценка производительности

Производительность — это то, чего мы хотим больше всего, но меньше всего понимаем. Точно так же, как не существует единого варианта того, что означает «быть продуктивным», нет и универсального способа его измерения. Но нам нужно с чего-то начинать, если мы хотим продолжать улучшать свои показатели и оставаться конкурентоспособными. Это подробное руководство посвящено тому, как всесторонне оценить и измерить вашу личную версию производительности таким образом, чтобы это имело практический смысл.

Прежде чем мы погрузимся в

Методы повышения производительности, которые мы собираемся рассмотреть, не представляют собой сверхсложные, математически совершенные показатели производительности, необходимые для крупных заводов и фабрик (об этом см. здесь). Вместо этого они ориентированы на более «абстрактные» виды работы, такие как творческие услуги и «интеллектуальный труд», выпуск которых не может быть легко сведен к идентичным единицам на производственной линии.

Какая еще производительность?

Чтобы измерить производительность, вам сначала нужно знать, что она означает. С традиционной экономической точки зрения производительность можно резюмировать как общий выпуск, деленный на общий объем затрат. Некоторые интерпретируют это как доходность или эффективность ваших результатов по отношению к приложенным вами усилиям.0003

Но хотя эта транзакционная «скорость работы» полезна при создании поддающихся определению единиц, ее нелегко использовать для творческих услуг. Будет немного проще, если вместо этого мы сосредоточимся на входных данных — ресурсах, которые вы используете для создания своей работы, таких как люди, время, технологии, капитал и сырье. Более высокая производительность здесь означает делать больше с тем же количеством ресурсов или использовать меньше людей для достижения заданного результата.

Но это определение все еще ошибочно. Как и в первом случае, он упускает из виду важные опосредующие факторы, такие как фактическое качество продукции, были ли произведены «правильные» продукты и вклад отдельных членов команды в результат. Более высокая производительность непродуктивна, если стоимость того, что производится, ниже, а эффективные производственные потоки непродуктивны, если ваша продукция не имеет фактического рыночного спроса.

Очевидно, что производительность должна учитывать некоторую идею «эффективности»: повышение ценности ваших усилий — как бы вы это ни интерпретировали — работая умнее, а не усерднее. Но эффективность — это также то, что интерпретируется субъективно, а не математически «истинно» или «ложно».

Таким образом, производительность определить сложнее, чем мы думаем. Единого его определения не существует, поскольку нет двух предприятий, работающих в одних и тех же условиях с одинаковыми конечными целями, поэтому мы должны создать свое собственное. Итак, прежде чем измерять продуктивность, определите, что она значит и не значит лично для вас.

Способы измерения производительности

Вот некоторые из наиболее популярных однофакторных показателей, используемых для отслеживания производительности:

Средняя продолжительность задачи / общее количество использованных часов
определенную задачу следует взять из предыдущих примеров, а затем измерить текущую производительность по сравнению с ней.

Количество выполненных задач / затраченное время

Измеряет наиболее традиционный взгляд на производительность — количество произведенных единиц по сравнению с затраченным временем. Значение здесь измеряет, сколько было достигнуто или сколько людей выполнили за установленный период времени. .

Время, затрачиваемое на выполнение важной задачи A по сравнению с маловажной задачей B

Продуктивность можно интерпретировать как приложение дополнительных усилий к «правильной» работе. Вы можете легко следить за этим, видя долю времени, которое уходит на высокопродуктивную, важную работу, которая продвигает ваши проекты и цели, по сравнению со временем, затрачиваемым на малоценные «мелкие» задачи, которые приносят небольшой материальный вклад.

Общее количество отработанных часов / часов, заложенных в бюджете

Как и в предыдущем случае, это поможет вам рассчитать мощность вашей рабочей силы по сравнению с их общим количеством по контракту и выделить сверхурочные.

Среднее количество задач на стандартный проект

Это отлично подходит для выявления нарушенных рабочих процессов и излишне сложных планов проектов для схожих типов работ. Это действительно полезно для выяснения того, какие процессы сдерживают продуктивную работу.

Количество выполненных задач / количество сотрудников

При этом используется то же понимание производительности, что и выше, но работники обмениваются временем на получение представления о производительности труда.

Общее количество доступных часов / время активной работы

Это дает вам контрольный показатель использования — вы видите, сколько из установленных часов, которые у вас есть в наличии каждую неделю, фактически тратится на продуктивную работу (в отличие от непродуктивных задач, таких как встречи, электронная почта, администрирование и т. д.).

Время, затраченное на проект / полученная прибыль

Это использует подход «сделанной экономии» к производительности — с идеей, что вы должны иметь возможность использовать меньше вашего вклада (в этом примере, времени) при увеличении вашей прибыли. Замените «время» на «сотрудников» для измерения эффективности команды.

Время, затрачиваемое на проект на одного сотрудника

Это полезно для просмотра разбивки ценности по вкладу каждого члена команды. Очевидно, что вам нужно учитывать разброс навыков и требования этого проекта, чтобы действительно оценить «индивидуальную эффективность» — если это преимущественно техническая задача и только один человек обладает необходимыми навыками, будет казаться, что он выполнил весь проект. .

Как вы заметили, здесь многое зависит от времени, и очень важно измерять время, даже если вы не используете его для оценки результатов. Время невозможно исключить из производственного процесса — это единственный универсальный ресурс, которым пользуются все предприятия. Чтобы избавить вас от хлопот и дополнительного бремени, связанного с попытками выяснить, где ваш бизнес использует время, попробуйте получить автоматический счетчик времени, который фиксирует все это для вас. Это особенно полезно, когда речь идет о расчете средней производительности для задач и проектов.

Передовая практика измерения производительности

Существует три основных подхода к измерению производительности:

  • Однофакторная производительность: здесь рассматривается одно соотношение затрат и результатов (например, количество часов, затраченных на выполнение задачи). К данным легко получить доступ и отслеживать, но они дают одномерное представление о производительности.
  • Многофакторная производительность: сочетает соотношение результатов на основе группы различных ресурсов, таких как время, труд и бюджет. К данным также довольно легко получить доступ, но дополнительный уровень сложности затрудняет расчет.
  • Суммарная факторная производительность: это (обычно недостижимый) идеал, объединяющий влияние всех факторов, используемых в производстве. Обычно это чрезвычайно сложно измерить, и все еще не удается показать взаимодействие между различными входными данными, влияющими на производительность.

Все однофакторные показатели производительности из предыдущего раздела сами по себе довольно бесполезны. Используемые по отдельности, они не могут дать реалистичную «большую картину» вашей производительности, и они не могут индивидуально объяснить, в чем заключается неэффективность вашего производства — например, нехватка навыков, одновременное манипулирование чрезмерным количеством проектов, медленные процессы или неуправляемый клиент. ожидания.

Таким образом, чтобы получить более полное представление о том, что означает для вас производительность, мы всегда рекомендуем использовать многомерные показатели везде, где это возможно, сохраняя ваши измерения как можно более простыми. Математически совершенный, многоуровневый индекс производительности звучит великолепно, но если ваши сотрудники не могут понять его или не учитывать его при принятии решений, он по сути бессмысленен. Весь смысл количественной оценки производительности состоит в том, чтобы объяснить отдельные факторы, влияющие на выпуск продукции, понятным для всех образом.

С этой целью измеряйте только то, что действительно соответствует вашим конечным целям. Существует множество рабочих переменных, которые вы можете измерить, но только те, которые разумно коррелируют с вашим личным определением продуктивности. Чтобы быть эффективным, ваше измерение производительности должно определять вклад каждого производственного фактора и объединять их.

На пути к индивидуальному показателю производительности

Все это звучит смехотворно сложно, но это не обязательно. Используйте эти 4 шага, чтобы создать значимый многофакторный показатель производительности, который работает на вас:

  1. Выберите наиболее важные коэффициенты производительности (такие как продолжительность задач, завершенные проекты и использование)
  2. Установите текущую производительность и долгосрочные цели для каждого из них (ваш контрольный показатель)
  3. Добавьте вес каждому коэффициенту, чтобы показать его относительную важность (вместе всего 100) для создания единой оценки
  4. Отслеживание производительности в каждом соотношении по сравнению с этим средневзвешенным значением

Используйте прошлые показатели производительности для различных задач и проектов, чтобы найти средние значения для различных контрольных показателей производительности. Они должны помочь людям понять, какое количество выходов на каждый используемый вход является «оптимальным», и их необходимо будет пересматривать по мере роста вашей компании.

Какой бы показатель вы ни получили, всегда уточняйте его с помощью контекстуальной информации, такой как доступные ресурсы, сложность или уникальность проектов, количество активных проектов и опыт вашей команды. Помните, что цель состоит не в том, чтобы получить научно совершенную меру; это иметь практически полезную и понятную общую меру, которая показывает вам, как совершенствоваться.

Как количественно оценить качество данных?. От индивидуальных показателей качества данных до… | Янник Сайе

От отдельных показателей качества данных к единой оценке.

Опубликовано в

·

Чтение: 14 мин.

·

2 ноября 2020 г.

В этой статье я объясню концепции, лежащие в основе расчета унифицированного показателя качества данных, который используется в IBM Cloud . Пак для Data и IBM Information Server / Information Analyzer для количественной оценки качества структурированных данных.

Изображение взято с https://pixabay. com/users/tookapic-1386459/

Измерение качества данных — не новая область. IBM Information Analyzer и другие инструменты профилирования данных представлены на рынке уже более десяти лет, чтобы помочь инженерам по данным лучше понять, что у них есть в их данных и что им, возможно, придется исправить.
На заре профилирования данных, несмотря на богатый набор функций, которые такие инструменты могли предоставить для оценки качества набора данных, было нелегко ответить на эти простые вопросы:

Насколько хорош общий качество этого набора данных?

Какой из этих двух наборов данных имеет лучшее качество данных?

Каково качество этого набора данных по сравнению с тем, что было в прошлом месяце?

Даже при использовании одного инструмента профилирования данных, такого как IBM Information Analyzer , как это было на заре его существования, можно было оценить качество наборов данных, рассматривая данные с самых разных точек зрения с использованием различных функций:

  • Вы можете использовать статистику, собранную профилировщиком данных, чтобы определить, какие значения или форматы, обнаруженные в наборе данных, следует считать допустимыми или недействительными в каждом столбце.
  • Вы можете определить доменную действительность каждого столбца как минимальный/максимальный диапазон допустимых значений или указать его на список эталонных значений.
  • Можно определить или назначить классы данных для каждого столбца и выполнить поиск значений, не соответствующих ожидаемому классу данных.
  • Вы можете посмотреть пропущенные значения.
  • Вы можете идентифицировать потенциальных первичных ключей и искать неожиданные повторяющиеся значения.
  • Вы можете идентифицировать связи между таблицами по принципу «первичный-внешний ключ» (PK-FK) и искать потерянные значения в столбцах внешнего ключа, которые не найдены в первичном ключе связи.
  • Вы можете определить правила данных, чтобы установить любое нетривиальное дополнительное ожидание данных.

Этот список охватывает только то, что функции профилирования данных и качества Information Analyzer могут сообщить вам о данных. Другие компоненты пакета IBM Information Server , такие как QualityStage , могут предоставить вам другую информацию о качестве данных, такую ​​как дублированные строки или значения, не имеющие надлежащей стандартизации и т. д.

Хотя каждая из этих функций сама по себе была мощной и могла обеспечить интересные индивидуальные метрики для эксперта, их результаты не подходили для ответа на простые вопросы, перечисленные во введении к этой статье. Основная причина этого заключается в том, что люди не умеют сравнивать многомерные метрики друг с другом, особенно если эти результаты не включают в себя одни и те же метрики или вычисляются из разных наборов данных, имеющих разное количество строк, столбцов или имеющих разные значения. ограничения/правила, которым они должны соответствовать.

Поскольку каталоги данных стали важными из-за появления озер данных, науки о данных, управления данными и всех этих новых видов деятельности с данными, качество данных стало чем-то важным не только для опытного пользователя, но и должно было стать понятным для неспециалистов. .

В этой предыдущей статье я показал, как большое количество наборов данных может автоматически приниматься, анализироваться, каталогизироваться, управляться и предоставляться потребителям, таким как специалисты по обработке и анализу данных. Этим пользователям необходимо найти нужный набор данных нужного качества в режиме самообслуживания. Для этого сценария становится очевидной потребность в более простой метрике, чтобы получить хорошее представление об уровне качества набора данных без необходимости просмотра деталей, даже если эти детали все еще доступны для повторного просмотра. .

По этой причине понятие качества данных было введено в IBM Information Server и теперь в IBM Cloud Pak for Data / Watson Knowledge Catalog .

Показатели качества данных, показанные в пользовательском интерфейсе Cloud Pak for Data

Учитывая тот факт, что качество данных можно рассматривать с самых разных точек зрения и измерять с помощью очень разных показателей, таких как те немногие, которые я перечислил ранее, формула для расчета показателя качества выглядит следующим образом: не обязательно очевидно. Чтобы лучше понять, как он рассчитывается в предложении IBM, давайте сначала посмотрим на требования, которые мы предъявляем к такой оценке:

  1. Показатель качества данных должен быть простым для понимания : Должна быть возможность при просмотре большого количества наборов данных в каталоге быстро идентифицировать наборы данных высокого или низкого качества без необходимости просмотра деталей .
  2. Показатель качества данных не должен зависеть от количества строк, столбцов или ограничений, установленных для набора данных: например, показатель качества данных для большого набора данных должен быть более или менее одинаковым, если он вычисляется путем анализа всех строки набора данных, как если бы они были рассчитаны для меньшей выборки, при условии, что выборка достаточно хороша, чтобы быть статистически репрезентативной.
  3. Оценка качества данных должна быть сопоставима с другими оценками качества данных, даже если показатели, используемые для каждой оценки, различаются и/или сравниваемые наборы данных имеют разное количество строк и столбцов — см. предыдущее требование.
  4. Оценка качества данных должна быть нормализованной. : Она должна обеспечивать четкий диапазон минимальной и максимальной возможных оценок, чтобы пользователь мог видеть, насколько далеко качество данных набора данных от того, что следует рассматривать как идеал.

Чтобы определить формулу, которая может преобразовывать различные показатели, вычисляемые различными функциями качества данных, в оценку, соответствующую этим требованиям, нам необходимо сначала формализовать то, что мы понимаем под понятием качества данных в целом и качества данных. оценка в частности.

Существует много определений качества данных. Некоторые из них вы можете увидеть в Википедии. Но простое определение может быть таким:

Измерение качества данных набора данных измеряет, насколько хорошо набор данных соответствует вашим ожиданиям относительно данных.

Это означает, что оценка качества данных может зависеть только от ожиданий, которые вы возлагаете на данные, а не от какого-то необработанного количества результатов.

Это может показаться очевидным, но это означает, что если мы находим в столбце большое количество пропущенных значений, но мы ожидаем пропущенные значения в этом столбце, или нас не волнуют пропущенные значения там, то показатель качества данных набора данных не должны ухудшаться из-за найденных пропущенных значений.

Это также означает, что если у нас нет конкретных ожиданий от данных, то показатель качества данных должен быть максимальным, независимо от того, что содержится в данных.

Эти простые очевидные факты важны для настройки архитектуры партитуры.

Давайте определим несколько понятий, играющих важную роль в вычислении показателя качества данных:

Ожидания, которые у нас есть в отношении данных, — это то, что мы будем называть ограничениями . Ограничение может быть выражено в самых разных формах:

  • Это может быть простой флаг, установленный для столбца, чтобы указать, что значения в этом столбце не должны быть нулевыми, или должны быть различными, или не должны быть подписаны.
  • Это может быть определение допустимости домена столбца, установленное как возможное минимальное или максимальное допустимое значение, или указатель на список эталонных значений, определяющих допустимый домен столбца
  • Это может быть назначенный класс данных в столбец, который не только описывает содержимое столбца, но также может использоваться для идентификации значений, которые не соответствуют ожидаемому домену столбца.
  • Это может быть идентифицированная связь между двумя наборами данных, установка корреляции или функциональных зависимостей между несколькими столбцами.
  • Это может быть правило данных, выражающее нетривиальное ограничение, которое может даже включать несколько таблиц.

У нас есть проблема качества данных , когда данные не соответствуют одному из ограничений.

Проблема качества данных — это отчет о конкретной проблеме качества данных типа либо в одной ячейке, либо в одной строке, либо в одном столбце, либо в группе столбцов набора данных, либо в наборе данных. в целом. Тип проблемы качества данных, о которой сообщает проблема качества данных, зависит от типа ограничения, которому не удовлетворяют данные.

Проблема качества данных может обнаруживаться с определенной частотой в столбце или наборе данных. Относительная частота , вычисленная как процент от всех значений столбца/набора данных, которые имеют проблему качества, — это то, что мы называем распространенностью проблемы.

Например, если набор данных имеет 100 строк и 15 отсутствующих значений обнаружены в столбце, помеченном как обязательное или не допускающее значение NULL, возникает проблема качества данных из типа проблемы 9.0182 «отсутствующее значение» указано в этом столбце с распространенностью из 15% .

В дополнение к распространенности , проблема качества данных может быть связана с достоверностью . Достоверность представляет вероятность того, что проблема, о которой сообщается, является реальной проблемой.

Чтобы лучше понять это понятие, вам нужно понять, что не все ограничения, установленные для данных, являются явными ограничениями, указанными или подтвержденными человеком — мы будем называть такое указанное или подтвержденное ограничение явное ограничение .

Если бы качество данных измерялось только на основе явных ограничений , тогда нам не понадобилось бы понятие достоверности, потому что все ограничения, указанные человеком и не учитываемые некоторыми данными, привели бы к проблеме достоверности качества данных. 100% — мы точно знаем, что проблема реальна, потому что кто-то указал, что все, что не соответствует этому ограничению, должно рассматриваться как проблема качества данных.

Но если бы мы только посмотрели на явные ограничения , то все наборы данных будут начинаться с оценки 100%, пока кто-нибудь не найдет время, чтобы просмотреть их и указать ограничения. Это приведет либо к большому количеству наборов данных с ложным представлением о высоком качестве, либо к процессу, требующему тщательной проверки каждого введенного набора данных распорядителем, что не будет хорошо масштабироваться для большого импорта.

По этой причине при анализе качества данных система может попытаться угадать некоторые ограничения на основе того, что видно из данных. Если, например, подавляющее большинство данных столбца не пустые, или они используют тот же формат, или имеют какой-либо распознаваемый шаблон — даже если некоторые значения не соответствуют этим шаблонам — тогда система может предположить, что существует неявное ограничение и что значения, которые ему не соответствуют, могут быть проблемами качества данных.

Поскольку неявное ограничение выводится системой из того, что видно в данных, оно связано с понятием достоверности , определяющим, насколько система уверена в том, что это должно быть реальным ограничением.

Если, например, 95% значений столбца являются 5-значными числами, а 5% имеют совершенно другой формат, система может — в зависимости от настроек — предположить, что имеется 9-значное число.0181 неявное ограничение для этого столбца, что значения должны состоять из 5 цифр, с доверительной вероятностью 95%. Если пользователь просмотрит это неявное ограничение и подтвердит его, то оно станет явным ограничением с достоверностью 100%.

При расчете реалистичного показателя качества будут использоваться как распространенность, так и достоверность обнаруженной проблемы качества.

Теперь, когда мы представили все важные понятия, играющие роль в оценке качества данных, давайте посмотрим на простом примере, как оценка вычисляется в IBM Cloud Pak for Data или Information Analyze r:

Предположим, что имеется простой набор данных с 3 столбцами и 6 строками и следующими выявленными проблемами качества данных:

Выявленные проблемы с качеством данных и их достоверность нарушает правило данных. Поскольку правило данных задается пользователем, это явное ограничение , а достоверность проблемы равна 100% .
  • Строка #3 является повторяющейся строкой, но нет явного ограничения, указывающего, что повторяющиеся строки не должны быть разрешены. Однако на основе данных анализ определил, что существует 70% вероятность того, что этот набор данных не должен ожидать дублирования строки. => есть неявное ограничение на набор данных, указывающее с вероятностью 70% , что не должно быть дублированных записей.
  • Ячейка строки № 2 и столбца Col1 не соответствует неявному ограничению с достоверностью 80 % , определяющей, каким должен быть допустимый домен. Это может иметь место, например, если анализ определил предполагаемый класс данных для этого столбца с достоверностью 80% и если значение в этой ячейке не соответствует классу данных.
  • Столбец Col 2 был установлен явным ограничением , указывающим, что все значения в этом столбце должны быть различными, но анализ обнаружил в нем 20% повторяющихся значений. Это приводит к проблеме качества данных с достоверностью 100% и распространенностью 20% .
  • Кроме того, значение столбца 2 в строке #4 отсутствует, и существует неявное ограничение достоверности 90% того, что в этом столбце не следует ожидать отсутствующих значений.
  • Наконец, ячейка в строке № 5 / столбце 3 кажется выбросом для этого столбца с достоверностью 60% . Выбросы всегда являются неявными ограничениями, поскольку не существует жесткого правила, определяющего, является ли значение выбросом или нет.
  • Оценка качества данных одной ячейки

    Обратите внимание, что одна ячейка, столбец или строка могут иметь более одной проблемы с качеством данных и что, по возможности, проблема не должна учитываться дважды: если одно значение нарушает как его ожидаемый класс данных, так и его ожидаемый формат, он не должен дважды наказывать показатель качества данных столбца или набора данных, поскольку только одно значение является недопустимым, независимо от того, сколько проблем у этого значения.

    Исходя из этого, оценка одной ячейки набора данных может быть вычислена как вероятность того, что значение вообще не имеет проблем. Это можно рассчитать как произведение 100% минус достоверность каждой проблемы, обнаруженной в ячейке. Чтобы проиллюстрировать это: если мы, например, на 90% уверены, что проблема существует в ячейке, то вероятность того, что значения не имеют проблемы, составляет 100–90 = 10%. Если достоверность проблемы составляет 100 % — для явного ограничения — тогда вероятность того, что значение не имеет проблемы, составляет 100–100 = 0 %

    Для проблем с качеством данных, о которых сообщается в отдельных ячейках набора данных, формула для вычисления оценки ячейки выглядит следующим образом.

    Показатель качества одной ячейки с учетом только проблем, о которых сообщается на уровне ячейки

    Если в ячейке есть 2 проблемы, одна с достоверностью 80%, а другая с достоверностью 60%, то вероятность того, что первая проблема не является реальной, составляет 100%-80 % = 20 %, вероятность того, что вторая проблема не реальна, составляет 100 %-60 % = 40 %, а вероятность того, что ни одна из проблем не является реальной и в ячейке нет проблем с качеством данных, составляет всего 20 %, умноженное на 40 %. = 8% по законам вероятности.

    Теперь вспомните, как я упоминал в начале этой статьи, что о проблемах с качеством данных можно также сообщать для полной строки, всего столбца или полного набора данных. Нам нужно распределить влияние этих проблем на счет ячеек.

    Для проблемы, о которой сообщается для полной строки, это легко, потому что, если строка недействительна, мы можем предположить, что все значения строки недействительны. Влияние таких проблем на оценку ячеек можно рассчитать следующим образом:

    Показатель качества ячейки с учетом только проблем, о которых сообщается на уровне строки 9.0002 conf(pb[row]) представляет здесь достоверность одной проблемы качества данных на уровне строки, о которой сообщается для строки измеряемой ячейки.

    Однако проблемы, сообщаемые для полных столбцов, должны быть равномерно распределены между всеми значениями столбца с использованием распространенности проблемы. Распространенность говорит нам о том, что проблема затрагивает n% значений, хотя мы точно не знаем, какие значения имеют проблему, а какие нет. По этой причине оценка каждого значения будет снижена на коэффициент, равный распространенности, умноженной на уверенность в том, что проблема реальна, как показано по следующей формуле:

    Показатель качества с учетом только проблем, о которых сообщается на уровне столбца

    conf(pb[col]) представляет достоверность одной проблемы качества данных на уровне столбца, о которой сообщается для столбца измеряемой ячейки, и prev(pb[col]) представляет его распространенность — процент значений в столбце, имеющих эту проблему.

    Влияние проблем с качеством данных, о которых сообщается для набора данных в целом, одинаково распределяется между всеми ячейками:

    Показатель качества, учитывающий только проблемы, о которых сообщается на уровне набора данных

    Окончательная оценка качества данных для отдельной ячейки с учетом всех проблем, о которых сообщается в самой ячейке, в ее столбце, в ее строке или в наборе данных, может быть рассчитана как:

    Оценка качества данных в столбце

    Предыдущие формулы заложили основу для вычисления показателя качества данных, нормализованного между 0% и 100% для каждой отдельной ячейки набора данных. Исходя из этого, вычисление показателя качества данных любого столбца становится таким же простым, как вычисление среднего значения показателей качества данных для каждого значения столбца.

    Оценка качества столбца

    Оценка качества данных строки

    Таким же образом можно вычислить оценку для любой строки набора данных путем усреднения оценок, вычисленных для каждой ячейки строки.

    Показатель качества строки

    Показатель качества данных для набора данных

    Вычисление показателя качества данных для набора данных выполняется так же просто, как вычисление либо среднего значения для каждого столбца, либо среднего значения для каждой строки. .

    Показатель качества набора данных

    Обратите внимание, что это также то же самое, что и вычисление среднего значения оценок всех ячеек. Все эти вычисления вернут один и тот же результат из-за симметричного аспекта формулы, что делает ее элегантной.

    Пример:

    Давайте применим эти формулы к нашему предыдущему конкретному примеру:

    Расчетные показатели качества данных

    Используя предыдущую формулу, вы можете вычислить показатель качества для каждой ячейки, а также для каждого столбца или каждой строки и усреднить либо оценки ячейки, либо оценки столбца, либо оценки строки, вы возвращаете один и тот же результат (55%), представляющий оценку качества данных набора данных.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *