如何确保数据,信息的准确性,完整性,可靠性,及时性,安全性和保密性

2024-12-18 14:50:10
推荐回答(2个)
回答1:

数据完整性(Data Integrity)是

指数据的精确性(Accuracy) 和可靠性(Reliability)。它是应防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而提出的。数据完整性分为四类:实体完整性(Entity Integrity)、域完整

性(Domain Integrity)、参照完整性(Referential Integrity)、用户定义的完整性(User-definedIntegrity)。


保证数据的完整性:

  1. 用约束而非商务规则强制数据完整性

如果你按照商务规则来处理需求,那么你应当检查商务层次/用户界面:如果商务规则以后发生变化,那么只需要进行更新即可。


假如需求源于维护数据完整性的需要,那么在数据库层面上需要施加限制条件。


如果你在数据层确实采用了约束,你要保证有办法把更新不能通过约束检查的原因采用用户理解的语言通知用户界面。除非你的字段命名很冗长,否则字段名本身还不够。 — Lamont Adams


只要有可能,请采用数据库系统实现数据的完整性。这不但包括通过标准化实现的完整性而且还包括数据的功能性。在写数据的时候还可以增加触发器来保证数据的正确性。不要依赖于商务层保证数据完整性;它不能保证表之间(外键)的完整性所以不能强加于其他完整性规则之上。


— Peter Ritchie


2. 分布式数据系统


对分布式系统而言,在你决定是否在各个站点复制所有数据还是把数据保存在一个地方之前应该估计一下未来5 年或者10 年的数据量。当你把数据传送到其他站点的时候,最好在数据库字段中设置一些标记。在目的站点收到你的数据之后更新你的标记。为了进行这种数据传输,请写下你自己的批处理或者调度程序以特定时间间隔运行而不要让用户在每天的工作后传输数据。本地拷贝你的维护数据,比如计算常数和利息率等,设置版本号保证数据在每个站点都完全一致。


— Suhair TechRepublic


3. 强制指示完整性


没有好办法能在有害数据进入数据库之后消除它,所以你应该在它进入数据库之前将其剔除。激活数据库系统的指示完整性特性。这样可以保持数据的清洁而能迫使开发人员投入更多的时间处理错误条件。


— kol


4. 关系


如果两个实体之间存在多对一关系,而且还有可能转化为多对多关系,那么你最好一开始就设置成多对多关系。从现有的多对一关系转变为多对多关系比一开始就是多对多关系要难得多。


— CS Data Architect


5. 采用视图


为了在你的数据库和你的应用程序代码之间提供另一层抽象,你可以为你的应用程序建立专门的视图而不必非要应用程序直接访问数据表。这样做还等于在处理数据库变更时给你提供了更多的自由。


— Gay Howe


6. 给数据保有和恢复制定计划


考虑数据保有策略并包含在设计过程中,预先设计你的数据恢复过程。采用可以发布给用户/开发人员的数据字典实现方便的数据识别同时保证对数据源文档化。编写在线更新来“更新查询”供以后万一数据丢失可以重新处理更新。


— kol


7. 用存储过程让系统做重活


解决了许多麻烦来产生一个具有高度完整性的数据库解决方案之后,我所在的团队决定封装一些关联表的功能组,提供一整套常规的存储过程来访问各组以便加快速度和简化客户程序代码的开发。在此期间,我们发现3GL 编码器设置了所有可能的错误条件,比如以下所示:


SELECT Cnt = COUNT (*)


FROM [

]


WHERE [] =


IF Cnt = 0


BEGIN


INSERT INTO [

]


( [< primary key column>] )


VALUES ( )


END


ELSE


BEGIN



END


而一个非3GL 编码器是这样做的:


INSERT INTO [

]


( [< primary key column>] )


VALUES


( )


IF @@ERROR = 2627 -- Literal error code for Primary Key Constraint


BEGIN



END


第2 个程序简单多了,而且事实上,利用了我们给数据库的功能。虽然我个人不喜欢使用嵌入文字(2627)。但是那样可以很方便地用一点预先处理来代替。数据库不只是一个存放数据的地方,它也是简化编码之地。


— a-smith


8. 使用查找


控制数据完整性的最佳方式就是限制用户的选择。只要有可能都应该提供给用户一个清晰的价值列表供其选择。这样将减少键入代码的错误和误解同时提供数据的一致性。某些公共数据特别适合查找:国家代码、状态代码等

回答2:

数据的准确性无非就是两个方面:1、数据源本身准确无误;2、使用数据源的逻辑准确无误
1、对于数据源本身质量,由于数据分析师接触到的数据基本上是经过了数据清洗、数仓建模之后的数据,换言之,已经是加工后的数据,已经处于数据链的下游,所以数据准确性更多的是数仓层面保证,数据分析师要做的就是根据自己的业务sense对数据做核验,发现数据中是否有异常数据

2、对于计算逻辑,还可以分为数据表逻辑和清洗规则了解,以及自己算的指标准确性,具体来说:1)要清楚所用数据表的逻辑和清洗规则,保证取了对的数据;2)要保证自己的计算逻辑无误,比如数据是否可累加,保证自己算对了指标。