[ad_1]
Herhangi bir türde kaliteyi ölçmek, öznel bir özellik için bir ölçü veya anahtar performans göstergesi oluşturma ve onu ölçülebilir bir niteliğe dönüştürme bilimini gerektirir. Kaliteyi ölçmek, operasyonel ve teslimat iyileştirmelerini yönlendirmek için bir araç olmalıdır. Ancak kaliteyi ölçmenin bir maliyeti ve insanların kaç tane metriği izleyebileceği konusunda bir insan kapasitesi vardır, bu nedenle en önemli iş etkilerini yönlendirenleri seçmenin bir sanatı vardır.
Genellikle kötü kaliteyi tespit edebiliriz, ancak iyi kaliteyi tanımlamak özneldir. İyi tanımlanmış kalite metrikleri, düşük kaliteyi ve iyi kaliteden daha iyi kaliteye ve en yüksek kaliteye geçmek için bir şeyin ne kadar iyi olması gerektiğini tanımlamaya yardımcı olur.
Veri kalitesini yönetmek de aynı zorluklara sahiptir. Konu uzmanları bir veri görselleştirmesine baktıklarında veya bir makine öğrenimi modelinden elde edilen sonuçları incelediklerinde, genellikle sonuçları baltalayan veri kalitesi sorunlarını tespit edebilirler. Veri bilimcileri, bir veri kaynağının profilini çıkarmak ve veri alanlarının kalitesini iyileştirmek veya analizlerinin dışında bırakmak için veri hazırlama ve veri kalitesi araçlarının nasıl kullanılacağını da bilir. Yaygın veri kalitesi sorunları, posta kodları olmayan adresler gibi eksik verileri veya bazen eyalet adını (New York) ve diğer zamanlarda kısaltmasını (NY) içeren ABD eyalet alanı gibi veri normalleştirme sorunlarını içerir.
Shift-sol veri kalitesi iyileştirmeleri
Veri kalitesini iyileştirmeye yönelik bir yaklaşım, bir dataops uygulaması olarak iyileştirmeleri ölçmek ve otomatikleştirmek için adımları “sola kaydırmaktır”. Dataops, verileri entegre etme, dönüştürme, birleştirme ve verileri kullanılabilir ve tüketime hazır hale getirmenin tüm adımlarına odaklanır. Tüm aşağı akış analizlerinin, veri görselleştirmelerinin ve makine öğrenimi kullanım senaryolarının tutarlı, daha yüksek kaliteli veri kaynakları üzerinde çalışması için veri kalitesi sorunlarını ölçmek ve düzeltmek için en uygun yerdir.
En son araştırmaları ve makaleleri incelerseniz göz önünde bulundurmanız gereken birçok veri kalitesi metriği bulacaksınız. Örneğin, yaygın olarak kullanılan altı veri kalitesi metriği kategorisi şunlardır:
- Kesinlik
- eksiksizlik
- Tutarlılık
- zamanlılık
- benzersizlik
- Geçerlilik
Veri ambarlarında ve veritabanlarında veri kalitesini ölçerkentutarlılık gibi içsel veri kalitesi boyutları kullanım durumlarından bağımsızdır, oysa güvenilirlik gibi dışsal olanlar analize bağlı olabilir. Veri kalitesini bir oran olarak ölçmeverinin hataya oranı veya veri dönüştürme hata oranları gibi, kalite iyileştirmelerini izlemek için mutlak metriklerden daha iyi bir mekanizma sağlar.
Zor soru, nereden başlayacağınız ve hangi dataops iyileştirmelerine ve metriklerine öncelik verileceğidir. Tartmak için birkaç uzmana danıştım.
Veri doğruluğu, eksiksizliği ve kullanılabilirliği ile güveni artırın
Talend’in saha çözümleri stratejisi başkanı Simon Swan, “yöneticilerin %60’ı birlikte çalıştıkları verilere sürekli olarak güvenmiyor” diyor ve bu, daha fazla veriye dayalı karar vermeyi teşvik eden kuruluşlar için oldukça sorunlu bir endişe.
Swan bu öneriyi dataops ekiplerine sunuyor. “İlk olarak, dataops ekipleri, kullanıcıların işi güçlendirmek için doğrulanabilir içgörülere sahip olmalarını sağlamak için doğruluk, eksiksizlik ve kullanılabilirlik için veri kalitesi metriklerini iyileştirmeye öncelik vermelidir” diyor.
Dataops ekipleri bunları kullanabilir veri sağlığı uygulamaları çeşitli yollarla.
- Kesinlik dataops referans verilebilir veri kaynaklarını bütünleştirdiğinde ve veri görevlileri otomatikleştirilmiş kurallar ve istisna iş akışları aracılığıyla çakışmaları çözdüğünde iyileştirilir.
- eksiksizlik insanlar ve ürünler gibi varlık verileri için önemli bir kalite metriğidir. Ana veri yönetimi için teknolojiler ve müşteri veri platformları dataops ekiplerinin birden fazla veri kaynağı kullanarak altın kayıtları merkezileştirmesine ve tamamlamasına yardımcı olabilir.
- kullanılabilirlik veri yapılarını basitleştirerek, erişimi merkezileştirerek ve veri sözlüklerini bir veri kataloğunda belgeleyerek geliştirilmiştir.
Swan, “Veri güveni, veri operasyon ekiplerine, iş sonuçlarını iyileştirmek için iş kullanıcılarını gerçeklere dayalı içgörülerle kolayca donatan bir operasyonel esneklik ve çeviklik ölçüsü sağlıyor.”
Veri kalitesi arttıkça verilere ve sistem kullanılabilirliğine odaklanın
İyi haber şu ki, iş liderleri verilerine güvendikçe, karar verme, analiz ve tahmin için daha fazla kullanacaklar. Bununla birlikte, önemli veri kaynaklarına erişim için veri, ağ ve sistemlerin kullanılabilir ve güvenilir olduğu beklentisi gelir.
Matillion’da geliştirici ilişkileri yöneticisi olan Ian Funnell, “Dataops ekiplerinin öncelik vermesi gereken temel veri kalitesi metriği kullanılabilirliktir. Veri kalitesi kaynakta başlar çünkü bugünün iş operasyonlarını yürüten kaynak verilerdir.”
Funnell, dataops’un veri ve sistem iyileştirmelerini destekleyebileceklerini de göstermesi gerektiğini öne sürüyor. “Dataops, veri entegrasyonunu güçlendiren ve doğru kullanıldığında hızlı ve güvenilir veri işleme değişikliklerine izin veren veri işleme yaşam döngüsünün otomasyonu ile ilgileniyor” diyor.
Monte Carlo Data’nın CEO’su ve kurucu ortağı Barr Moses da benzer bir bakış açısına sahip. “Yıllar boyunca yüzlerce veri ekibiyle veri kalitesinin veya veri eksikliğinin etkisini nasıl ölçtükleri hakkında konuştuktan sonra, iki temel ölçütün (veri kesinti süresi için tespit süresi ve çözüme kadar geçen süre) iyi bir başlangıç sunduğunu gördüm.”
Moses, dataops ekiplerinin kesinti süresini nasıl ölçebileceğini paylaşıyor. “Veri kesinti süresi, bozuk, hatalı veya başka türlü yanlış verilerle işaretlenmiş herhangi bir süreyi ifade eder ve algılama (TTD) ve çözümleme (TTR) için geçen sürenin, sorunla mücadele için harcanan mühendislik süresiyle çarpılmasıyla ölçülebilir. sorun.”
Kesinti süresini ölçmek, finansal performansa bağlı bir dataops temel performans göstergesi oluşturmaya yönelik bir yaklaşımdır. Moses, “Denenmiş ve test edilmiş devops ölçümlerinden ilham alan TTD, TTR ve veri kesinti süresi, bir şirketin kârlılığı üzerindeki düşük veri kalitesinin finansal etkisini ölçmeyi kolaylaştırıyor” diye ekliyor.
Veri zamanlılığı ve gerçek zamanlı dataops ile fark yaratın
Unravel Data’nın kurucu ortağı ve CEO’su Kunal Agarwal, dataops’un temel veri kalitesi ve kullanılabilirlik ölçütlerini aşmayı ve daha gerçek zamanlı yetenekler aramayı hedeflemesi gerektiğini söylüyor. “Veri kalitesi metriklerinin çoğu doğruluk, tamlık, tutarlılık ve bütünlüğe odaklanırken, her dataops ekibinin öncelik vermesi gereken bir başka veri kalitesi metriği de veri zamanlılığıdır.”
Zamanlılık, tedarikçi ve toplu işleme gecikmeleri dahil olmak üzere yakalama, işleme ve kullanılabilirlikten uçtan uca veri akışını yakalar. Agarwal, “Güvenilir zamanlılık metrikleri, dahili ve üçüncü taraf satıcı SLA’larını değerlendirmeyi ve uygulamayı çok daha kolay hale getiriyor ve nihayetinde iyileştirilmiş ve hızlandırılmış veri analizine doğrudan bir hat sağlıyor” diye açıklıyor.
Swan, verilerin güncelliğini iyileştirmenin önemi konusunda hemfikirdir. “Dataops, kullanıcıların herhangi bir ortamda güncel verilere erişebilmeleri için hız ve dakikliği garanti etmeye de odaklanmalıdır. Veriler, ancak iş ihtiyaçlarına neredeyse gerçek zamanlı olarak ayak uydurabilme yeteneği kadar iyidir.”
Birçok kuruluş için, iş liderlerinin verilere güvenmelerini, güvenilirliği artırmalarını ve gerçek zamanlıya daha yakın veri teslimini sağlamalarını sağlamak çok hevesli olabilir. Birçok şirkette bir birikim var veri borcu sorunlar, önemli karanlık veri bu hiç analiz edilmemiş ve elektronik tablolara aşırı güven.
Yani, dataops’ta çalışıyorsanız, yapılacak çok iş var. Veri kalitesi ölçümlerini uygulamak, işletme, veri bilimcileri ve teknoloji liderlerinden destek toplamaya yardımcı olabilir.
Telif Hakkı © 2022 IDG Communications, Inc.
[ad_2]
Kaynak : https://www.infoworld.com/article/3667314/3-data-quality-metrics-dataops-should-prioritize.html#tk.rss_all