it-swarm.asia

Alat apa yang ada untuk masking data? (MySQL, Linux)

Saya mencari alat masking data (idealnya gratis, open-source). Apakah ada yang seperti itu?

Catatan: pertanyaan terkait ini berkaitan dengan alat untuk menghasilkan data pengujian, tetapi dalam pertanyaan ini saya lebih tertarik untuk memulai dengan data nyata, dan menutupinya untuk digunakan dalam pengujian tanpa kehilangan hubungan khusus yang membuatnya menarik untuk tujuan pengujian. Data yang dihasilkan baik untuk beberapa tujuan pengujian, tetapi data dunia nyata akan memunculkan masalah yang tidak pernah Anda pikirkan. Alat untuk menghasilkan dataset data uji yang besar

14
testerab

Saya akan sangat terkejut jika ada alat generik untuk ini - bagaimana ia "tahu" apa data sensitif dan apa yang tidak? Misalnya perlu memeriksa semua data Anda dan mengenali semua format yang mungkin dari nomor kartu kredit, nomor telepon, kode pos, alamat email, dan apa pun data lain yang dianggap sensitif. Skema Anda juga perlu cerdas - mis. haruskah ia menulis ulang semua alamat email pelanggan menjadi "[email protected]" - atau apakah ada bagian dari basis data, aplikasi, dan perangkat Anda yang menganggap bahwa alamat email pelanggan (atau SSN atau apa pun) itu unik? Atau apakah Anda memiliki sebagian aplikasi yang memeriksa nomor kartu kredit, yang akan rusak jika Anda mengatur ulang semuanya menjadi 0000 0000 0000 0000? Atau apakah sistem telepon Anda menganggap bahwa kode panggilan pelanggan sesuai dengan negara di alamat mereka?

Pada dasarnya, mengonfigurasi alat apa pun untuk melakukannya akan lebih atau lebih berfungsi daripada hanya menulis skrip Anda sendiri, menggunakan pengetahuan Anda tentang aplikasi tersebut. Di situs saya, kami membuat kebijakan bahwa siapa pun yang menambahkan kolom dengan data tersebut di pembaruan skrip untuk menganonimkannya pada saat yang sama, setelah audit awal untuk menemukan semua kolom itu dan menulis versi 1.

9
Gaius

Belum pernah melihat item seperti itu, tetapi setelah bekerja dengan beberapa set data sensitif di waktu saya, hal utama yang perlu diacak adalah identitas orang atau informasi identitas pribadi. Ini harus hanya membuat penampilan di beberapa tempat dalam database.

Operasi masking Anda harus mempertahankan properti statistik dan hubungan data, dan mungkin perlu mempertahankan kode referensi yang sebenarnya (atau setidaknya semacam mekanisme terjemahan terkontrol) sehingga Anda dapat merekonsiliasi data aktual.

Hal semacam ini dapat dicapai dengan mendapatkan daftar nama yang berbeda di bidang dan menggantinya dengan sesuatu seperti FirstNameXXXX (di mana XXXX adalah nomor urut, satu untuk setiap nilai yang berbeda). Nomor kartu kredit dan informasi serupa yang dapat digunakan untuk pencurian identitas sangat mungkin menjadi tidak-tidak dalam lingkungan pengembangan, tetapi Anda hanya perlu yang nyata jika Anda menguji sistem pemrosesan pembayaran - biasanya vendor akan memberikan kode khusus kepada Anda untuk akun dummy.

Tidak terlalu sulit untuk menulis prosedur anonimisasi semacam ini, tetapi Anda harus menyetujui apa yang perlu dianonimkan dengan bisnis. Jika perlu, buka bidang basis data per bidang. Bertanya ya/tidak akan memberi Anda positif palsu yang tidak Anda inginkan. Minta perwakilan bisnis untuk menjelaskan mengapa, atau konsekuensi atau implikasi peraturan dari tidak menganonimkan data tertentu.

Jika basis data Anda kecil, memiliki model data sederhana dan dipahami dengan baik oleh DBA saat ini - penulisan skrip "mungkin" menjadi jawabannya. Namun, upaya (dan biaya) untuk menganalisis dan menutupi secara manual basis data secara manual dapat keluar dari kendali dengan cepat ketika persyaratan berubah, fungsionalitas ditambahkan dan pengembang/DBA datang dan pergi.

Meskipun saya tidak mengetahui adanya produk penyembunyian data sumber terbuka, ada penawaran komersial yang cukup komprehensif, relatif mudah digunakan, dan mungkin lebih masuk akal dari segi biaya. Banyak dari mereka termasuk kemampuan penemuan out-of-the-box untuk mengidentifikasi dan mengklasifikasikan data sensitif (SSN, kartu kredit, nomor telepon) serta fungsi untuk mempertahankan checksum, pemformatan alamat email, pengelompokan data, dll. Sehingga menutupi data terlihat dan terasa nyata.

Tetapi Anda tidak harus mengambil kata (yang memang bias) saya untuk itu. Tanyakan analis industri seperti Gartner atau Forrester yang memiliki sejumlah laporan yang tidak bias tentang masking yang dapat membantu.

Semoga komentar ini akan mendorong Anda untuk mempertimbangkan mengeksplorasi produk komersial serta pengembangan skrip internal. Pada akhirnya, hal terpenting adalah melindungi data sensitif yang banyak dari kita lihat hari demi hari yang sebenarnya tidak perlu kita lihat untuk melakukan pekerjaan kita - menempatkan kita dan orang-orang yang memiliki data yang kami pegang berisiko.

Kevin Hillier, Spesialis Integrasi Senior, Camouflage Software Inc.

5
user757

Saya memiliki tugas yang sama beberapa minggu yang lalu. kami mengevaluasi beberapa sistem perangkat lunak, tetapi kebanyakan hanya untuk satu jenis basis data, mis. Oracle dan mereka sering sangat rumit untuk digunakan ... jadi uhm bukan hal terbaik untuk mengevaluasi ini. Kami butuh berminggu-minggu.

Kami memutuskan untuk membeli versi profesional data masking karena itu yang paling mudah untuk mendapatkannya. Ini juga memiliki kemungkinan keren untuk menyamarkan data, mis. Anda dapat mengubah alamat email menjadi yang tampak nyata, mis. ... @ siemens.com ke [email protected]

Anda dapat mencobanya secara gratis untuk sekitar 500 (?) Catatan sejauh yang saya ingat.

Inilah tautannya http://www.data-masking-tool.com/

3
SaJoe

Saya pertama kali menyatakan jalan ini beberapa tahun yang lalu dan sejak itu membangun konsultasi berdasarkan praktik ini.

Saya berasumsi bahwa tujuannya adalah untuk membangun data uji untuk digunakan di lingkungan uji di mana orang-orang yang mengakses data tidak memiliki hak untuk melihat informasi produksi.

Hal pertama yang harus ditetapkan adalah elemen data apa yang perlu Anda sembunyikan dan untuk melakukannya sebaiknya mulai dengan alat penemuan data seperti Schema Spy (Open source) dan Anda akan memerlukan driver jdbc yang relevan untuk tugas ini tetapi adalah langkah yang sangat berguna dalam prosesnya.

Talend Open Studio adalah salah satu alat terbaik yang saya gunakan dalam beberapa tahun terakhir untuk melakukan beberapa fungsi ETL dan Anda juga akan dapat melakukan beberapa praktik penyembunyian dasar dengan mengganti nilai dengan acak atau. Cari/ganti - untuk mempertahankan konsistensi - menggunakan komponen peta.

Tetapi jika Anda mencari alat masking data nyata saya belum menemukan alat open source yang cocok. Jika Anda memiliki anggaran yang sangat moderat untuk alat saya sarankan Data Masker tetapi Anda perlu melakukan impor dan ekspor melalui MS SQL atau Oracle karena hanya terhubung melalui protokol tersebut.

Lihatlah http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset untuk info tentang penutupan data, penutupan data metodologi, penemuan data dan uji manajemen data. Ada juga blog yang bermanfaat di http://www.dataobfuscation.com.a

2
user25272

Cara saya melakukan ini:

  1. Buat database baru dengan hanya melihat dan memilih hak untuk pengguna
  2. Membuat tampilan ke tabel yang harus dapat dilihat di database lain
  3. Topeng kolom yang perlu ditutup oleh: repeat ('*', char_length (column to be masked))
2

Yang paling saya sukai adalah IRI FieldShield ( https://www.iri.com/products/fieldshield ) dalam hal fleksibilitas (sebagian besar fungsi penutupan data), kecepatan (kecepatan mesin CoSort untuk pergerakan data di dalamnya) , dan ergonomi (pekerjaan 4GL sederhana yang didukung dalam GUI Eclipse dengan banyak koneksi DB dan file). Dari segi harga, ini sekitar setengah dari IBM dan Informatica, meskipun juga tersedia dalam rangkaian integrasi data yang lebih besar untuk transformasi, migrasi, dan BI data 'besar' juga. Jadi tidak gratis juga, tetapi menggunakan beberapa sumber terbuka (IDE, dan dapat menggunakan OpenSSL dan GPG) dan skrip dijalankan pada Windows, Linux, dan citarasa Unix lainnya.

1
Urvashi Saxena

Tahun ini saya memiliki kesempatan untuk bekerja dengan IBM Optim yang mengklaim melakukan apa yang diminta. Tidak gratis, tetapi berfungsi dengan baik.

1
Mendes

Ada alat yang tersedia di Pasar dari Informatica yang disebut Informatica ILM (TDM). Ini menggunakan PowerCenter sebagai backone untuk ETL dan menyamarkan data dengan berbagai opsi masking yang tersedia. Meskipun Anda memerlukan analis data atau SME yang dapat memahami bagaimana data harus ditutup. Alat itu sendiri tidak memberikan informasi bidang mana yang harus ditutup, namun ada algoritma internal atau prosedur atau proses untuk mengidentifikasi bidang data pasif seperti Nama, kolom ID dengan nomor, kartu kredit, nomor SSN, Nomor Akun dll.

1
Awadhesh Yona