Dataops’un öncelik vermesi gereken 3 veri kalitesi metriği

[ad_1]

Herhangi bir türde kaliteyi ölçmek, öznel bir özellik için bir ölçü veya anahtar performans göstergesi oluşturma ve onu ölçülebilir bir niteliğe dönüştürme bilimini gerektirir. Kaliteyi ölçmek, operasyonel ve teslimat iyileştirmelerini yönlendirmek için bir araç olmalıdır. Ancak kaliteyi ölçmenin bir maliyeti ve insanların kaç tane metriği izleyebileceği konusunda bir insan kapasitesi vardır, bu nedenle en önemli iş etkilerini yönlendirenleri seçmenin bir sanatı vardır.

Genellikle kötü kaliteyi tespit edebiliriz, ancak iyi kaliteyi tanımlamak özneldir. İyi tanımlanmış kalite metrikleri, düşük kaliteyi ve iyi kaliteden daha iyi kaliteye ve en yüksek kaliteye geçmek için bir şeyin ne kadar iyi olması gerektiğini tanımlamaya yardımcı olur.

Veri kalitesini yönetmek de aynı zorluklara sahiptir. Konu uzmanları bir veri görselleştirmesine baktıklarında veya bir makine öğrenimi modelinden elde edilen sonuçları incelediklerinde, genellikle sonuçları baltalayan veri kalitesi sorunlarını tespit edebilirler. Veri bilimcileri, bir veri kaynağının profilini çıkarmak ve veri alanlarının kalitesini iyileştirmek veya analizlerinin dışında bırakmak için veri hazırlama ve veri kalitesi araçlarının nasıl kullanılacağını da bilir. Yaygın veri kalitesi sorunları, posta kodları olmayan adresler gibi eksik verileri veya bazen eyalet adını (New York) ve diğer zamanlarda kısaltmasını (NY) içeren ABD eyalet alanı gibi veri normalleştirme sorunlarını içerir.

Shift-sol veri kalitesi iyileştirmeleri

Veri kalitesini iyileştirmeye yönelik bir yaklaşım, bir dataops uygulaması olarak iyileştirmeleri ölçmek ve otomatikleştirmek için adımları “sola kaydırmaktır”. Dataops, verileri entegre etme, dönüştürme, birleştirme ve verileri kullanılabilir ve tüketime hazır hale getirmenin tüm adımlarına odaklanır. Tüm aşağı akış analizlerinin, veri görselleştirmelerinin ve makine öğrenimi kullanım senaryolarının tutarlı, daha yüksek kaliteli veri kaynakları üzerinde çalışması için veri kalitesi sorunlarını ölçmek ve düzeltmek için en uygun yerdir.

En son araştırmaları ve makaleleri incelerseniz göz önünde bulundurmanız gereken birçok veri kalitesi metriği bulacaksınız. Örneğin, yaygın olarak kullanılan altı veri kalitesi metriği kategorisi şunlardır:

  • Kesinlik
  • eksiksizlik
  • Tutarlılık
  • zamanlılık
  • benzersizlik
  • Geçerlilik

Veri ambarlarında ve veritabanlarında veri kalitesini ölçerkentutarlılık gibi içsel veri kalitesi boyutları kullanım durumlarından bağımsızdır, oysa güvenilirlik gibi dışsal olanlar analize bağlı olabilir. Veri kalitesini bir oran olarak ölçmeverinin hataya oranı veya veri dönüştürme hata oranları gibi, kalite iyileştirmelerini izlemek için mutlak metriklerden daha iyi bir mekanizma sağlar.

Telif Hakkı © 2022 IDG Communications, Inc.

[ad_2]
Kaynak : https://www.infoworld.com/article/3667314/3-data-quality-metrics-dataops-should-prioritize.html#tk.rss_all

Yorum yapın

SMM Panel PDF Kitap indir