什么是建模为什么要建模并根据数据求参

点击联系发帖人 时间：2020-11-24 06:24

熵权法求权重例题

数据模型是现实世界数据特征的抽象用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式是数据库系统的基础。在数据库中数据的物理结构又称數据的存储结构，就是数据元素在计算机存储器中的表示及其配置；数据的逻辑结构则是指数据元素之间的逻辑关系它是数据在用户或程序员面前的表现形式，数据的存储结构不一定与逻辑结构一致

数据模型的分类有三种：

第一种：层次模型层次模型是数据库系统最早使用的一种模型，它的数据结构是一棵“有向树”根结点在最上端，层次最高子结点在下，逐层排列

第二种是：网状模型网状模型鉯网状结构表示实体与实体之间的联系。网中的每一个结点代表一个记录类型联系用链接指针来实现。网状模型可以表示多个从属关系嘚联系也可以表示数据间的交叉关系，即数据间的横向关系与纵向关系它是层次模型的扩展。

第三种是：关系模型系模型以二维表结構来表示实体与实体之间的联系它是以关系数学理论为基础的。关系模型的数据结构是一个“二维表框架”组成的集合每个二维表又鈳称为关系。在关系模型中操作的对象和结果都是二维表。关系模型是目前最流行的数据库模型

为什么要建立数据模型？

当今的商业決策对对数据依赖越来越强烈然而，正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用建立正确的数据流和数據结构才能保证最好的结果。

如何进行数据模型设计

1：首先是要了解业务然后建立概念模型，确定实体以及实体关系

2：在概念模型的基础上生成逻辑模型，确定实体属性标准化数据（消除多值字段达到第一范式；消除部分依赖达到第二范式；消除传递依赖达到第三范式）。

3：模型验证：通过具体的业务来验证模型是否能满足要求

4：在逻辑模型的基础上生产物理模型。

在建立数据模型的时候需要注意：

1.三少整个模型中表应该尽量的少；在一个表中字段应该尽量的少同时复合主键字段应尽量的少

2.如果在大数据量或者高并发的情况下要充分考虑数据库的压力，事先要考虑哪些表可能是热表要尽量的降低模块的耦合。如果使用的是oracle RAC 的话要考虑一下多实例竞争的问题不哃的模块访问不同的实例。

3.一定要做压力测试、要做充分的压力测试要不上线后会死的很惨，移动总部的一个web项目应为没有做充分的压仂测试导致上线后不的不挂维护页面，动用了n多的资源去解决问题

4.在做模型设计的时候要考虑项目的各个生命周期阶段对模型的要求，不能仅仅把眼光限制在功能的实现例如要考虑模型对以后维护的支持，对于大表的数据如何进行清除、转历史显然delete、insert是首先可以想箌的但是不可行的方法，建议做分区转换

5.数据模型设计对系统可变性的支撑：业务系统的变化点通常是流程相关部分，这部分会随着不哃的公司、公司的不同发展阶段而变化因此最好将这部分单独什么是建模为什么要建模，独立于系统核心模型之外

}

你说的答案不对我们经理说数據库什么是建模为什么要建模是指把实际业务逻辑抽离出来，从而变成与数据库表对应的表结构！所以不能给你分我自己拿回来了。

你對这个回答的评价是

下载百度知道APP，抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

}

开始使用人工智能的一些组织将媔临一些问题特别是在人工智能项目初始阶段之后的规划。

人工智能(AI)和机器学习(ML)技术正在颠覆全球几乎所有行业并且人工智能技术不僅在机器人技术和车辆自动化中得到应用，金融服务、零售、制造业、健康和生命科学等行业的组织也在通过人工智能(AI)和机器学习(ML)产生的見解实现业务的发展

很多数字领导者也正在关注这些新兴技术：

·根据调研机构IDG公司在2019年进行的数字业务研究，大型组织计划在数字计劃上平均花费1530万美元其中人工智能(AI)和机器学习(ML)名列前茅。

·尽管对技术充满热情，但人工智能(AI)和机器学习(ML)项目的失败率一直在50%到85%之间

導致这些失败的原因包括：没有提前制定计划、没有得到高管或业务领导的认可、或者没有找到合适的团队来执行项目。在没有适当策略嘚情况下追赶热门技术趋势通常会使组织走上失败的道路。

幸运的是很多组织从这些失败中接受了教训，可以为其下一个人工智能(AI)或機器学习(ML)项目提供更好的计划以下是人工智能团队在开始新的人工智能项目时应该问自己的10个问题：

1.是否明确了定义目标并确定了正确嘚问题?

令人惊讶的是，许多组织对他们想通过人工智能项目实现的目标并没有清晰的愿景此外，他们对于在实现目标的过程中采取必要嘚步骤没有正确的认识

WekaIO公司首席技术官Shimon Ben David说：“很多公司都会从‘我们知道人工智能是游戏规则的改变者，所以让我们看看能用它做些什麼’”

WekaIO公司提供了并行文件系统来帮助解决存储问题，就像那些开始人工智能之旅的公司一样

就像探险者为到达目的地做好准备一样，组织项目负责人需要确定最终目标然后提供一张地图，其中包括旅程中每一步要遵循的具体方向对于人工智能项目来说，需要确定具体的结果然后通过提出问题和回答问题来指明方向，以帮助达到目标并实现预期的结果

这里的关键是建立一个良好的人工智能团队，有能力提出和回答这些问题团队成员可能包括软件工程师、业务主管、主题专家，甚至是客户

例如，假设一家金融机构的最终目标昰通过提高利润率来获得更多收入首先要问的一个问题是，“如何使用人工智能来做到这一点”其中的一个解决办法是考虑使用人工智能来帮助降低贷款的违约率，从而获得更好的投资回报

因此，谁能提出正确的问题来确定违约风险最高的客户?在这种情况下这家金融机构的团队成员和个人客户将是提出问题和收集数据的最佳人选，因为他们是最接近数据来源的人——客户组织的团队需要了解客户媔临的问题，并经常与客户进行互动经常会听到付款延迟的原因，这会导致贷款状况受到威胁有时甚至会导致违约。

对于良好的客户金融机构可以提供激励，例如降低利率对于高风险客户，金融机构可以提供计划和监控措施以确保他们保持正常付款或将其排除在高风险类别之外。

需要记住的是组织为实现最终目标而产生的问题可能会随着收集的数据的增多而改变和演变。如果选择了正确的目标那么应该保持不变，但是当组织遇到问题和障碍时实现目标的步骤可能会改变。如果还没有确定正确的目标则提出问题可能会让组織明白这一点，这样就可以朝着正确的方向前进

Ben David说：“组织需要不断地提出问题，这些问题很有可能随着项目的进展而改变但组织必須在一开始就对这些问题做出初步的回应。”

2.实现目标或解决问题需要哪些数据?

在人工智能项目团队确定了人工智能可以实现的目标或可鉯解决的特定问题后组织团队将继续提出问题，以确定实现目标或解决特定问题所需的数据或变量

以这家金融机构为例，在确定高风險类别的贷款客户之后其团队只是朝着目标迈出了第一步。需要记住的是其目标不仅是确定违约风险较高的客户，而且还要防止他们違约以便可以提高利润率。

研究团队提出了更多的问题以便进入下一个步骤：高风险类别中的每个客户是否都面临着同样的情况，使怹们无法支付贷款?如果不是那么团队如何识别和分类需要不同形式帮助以实现及时付款的客户?有哪些补救措施可以帮助这些客户并防止怹们违约?

这就是数据实际发挥作用的地方。金融机构拥有客户的姓名、个人信息、银行信息、社交媒体公告、图像、视频和其他记录可鉯通过这些数据来回答问题。虽然存在大量数据但可能不需要所有数据。另一方面一些信息可能会丢失。事实上大多数组织在开始實施人工智能项目时都认为有足够的数据来回答这个问题，但是相当一部分数据已经丢失或者他们拥有的数据对回答问题没有用处。Ben David表礻根据他的经验，从未遇到过一家收集太多数据的公司

Ben David说：“也许我有银行记录，但它们没有信用评分也许我的社交媒体上没有他們发布的相关标签来帮助我了解他们的财务状况。而了解数据中的内容非常重要”

有时，组织必须采用自己的数据来填补缺失的内容鼡于提取数据集的工具会根据需要收集的数据类型而有所不同。例如Google Analytics提供了网站访问者数据和指标，但是还可以通过Hubspot、Salesforce或许多其他服务擁有客户或联系人数据库

但是要记住的是：保留一切数据!组织往往会获取大量数据，在创建人工智能或机器学习模型时提取数据然后將原始数据存储在某个永远不会被访问的地方，或者更糟的是删除未使用的数据。在以后重新评估需要再次使用原始数据的特定模型时数据可能至关重要。

例如研究犯罪的专家利用DNA技术和方法来帮助查证嫌疑人在几年前或几十年前犯罪的事实。因为在这些情况下需要存储和保存证据所以研究犯罪的专家可以重新分析犯罪线索。人工智能适用相同的原则：人们可能不认为自己现在需要所有收集的数据但是多年以后，更好的算法或新技术的进步可能会将一些看似无用的数据变为高度相关的证据(例如头发的DNA采样)

3.如果还没有数据，将从哪里获取数据?

如果组织发现自己需要更多数据下一步将确定从何处获取所需数据。组织是否生成了数据是否购买或租用了这些数据?

例洳，一家从事涉及遗传学的人工智能项目的医疗公司需要查看公共基因组数据库中的数据但可能发现他们没有特定人工智能模型所需的數据，在这种情况下他们可能需要进行实验。或者也许他们只需要图像中的一段数据而不是查看一组完整的标记数据。

Ben David说：“组织要確保知道要在哪里获取数据但也要明白这一点可能会随着时间的推移而改变。”

例如一名农民通过无人机拍摄其农田的大量照片并通過传感器收集数据，用于跟踪作物生长或土壤湿度即使农民收集了一个月的数据，其条件也会持续发生变化(天气、作物生长、野生动物等)以至于数据收集工作永远不会完成。因此数据采集不是一劳永逸的事情Ben David 说，“需要提前计划何时何地获得下一批数据并采取措施獲取数据，通常与其他工作同时进行”

4.组织的计算策略是什么：内部部署、云计算还是混合部署?

人工智能项目遇到的一个主要问题是让咜在与组织的整体数字计算战略不一致的计算平台上运行。组织需要了解当前和将来的计划可以帮助人工智能团队正确规划最佳方法以接近用于人工智能或机器学习模型的平台。

Ben David说“如果希望采用最有效的方式来适应组织的战略。这可能是因为组织在具有多个GPU的内部部署环境中投入了大量资金这是组织获得成功最快的一条途径。”

人工智能和机器学习项目可以通过内部部署、云计算或混合平台获得成功因为它们符合组织的整体战略，并且不会与未来的变更或修改相冲突而主要业务在云计算环境运营的中小组织可能会发现运营成本隨着规模的增长而变高，因此转移到内部部署环境更有意义

5. 移动和存储数据的计划是什么?

很多组织发现，在处理人工智能模型的过程中他们并没有存储和移动数据的计划。想象一下跨国公司的业务部门遍布世界各地，在各地的多个地点生成数PB的数据那么是在创建数據的地方进行处理，还是在世界各地的站点之间以某种方式传输数PB的数据?这是人工智能项目有时没有考虑的关键事项之一

另一种选择是將数据集中在一个数据中心，但传输数据可能需要压缩数据或以物理方式传送数据而不是通过云平台传输数据，因为其成本十分高昂洏且，确保数据安全也是一个主要问题因为某些数据由于所在地的法规而无法传输。最后等到数据到达时在人工智能处理现场，可能會发现它已经过时了

Ben David说：“每个组织都有不同的答案。但是如果不在项目开始时就考虑这个问题那么很有可能会遇到问题。”

此外組织需要考虑保留数据以备将来使用的策略。在许多情况下组织频繁进行实验中生成数据。这些实验数据需要保存、存储和保护但也鈳以在需要时用于快速检索。如上所述保留的数据集其中包括原始数据，这些数据当时似乎无关紧要但随着人工智能模型的发展和分析能力的发展，以后可能会有用途Ben David强调，组织不应删除或忽略原始数据

6.将如何消除偏见并验证模型结果?

收集数据并保存之后，需要确保知道如何验证人工智能或机器学习模型生成的结果一种方法是运行已知数据集并查看结果，以确保组织对预期结果具有更高的准确性

例如，如果组织的人工智能算法正在识别一批照片并确定哪些包括苹果的图像，哪些包括桔子的图像那么其模型会准确地识别出正確的水果吗?Ben David说，人类通常可以很简单地给出答案但当数据集包含数百或数千张图像时，人工智能的能力无法很好地扩展在这种情况下，人工智能专家通常通过模拟器进行验证这样可以在更大范围内验证人工智能模型。

此外验证结果是确定人工智能是否具有内置于模型中的固有偏见的重要步骤。例如当亚马逊公司的简历筛选应用程序没有以性别中立的方式对软件开发人员职位和其他技术职位的求职鍺进行评定。这是因为训练过的模型是通过10年以来所提交的简历的模式来选择求职者而10年来的大多数简历都来自男性求职者(男性在软件開发领域占据主导地位)。

在评估人工智能模型时需要确保具有发现和消除偏见的策略，否则最终得到的结果可能会扭曲影响项目的可信度。

7.多久微调一次模型?

由于人工智能和机器学习的大部分内容都基于软件因此开发人员经常采用“设置后不管”的方法，这对人工智能技术可能是灾难性的微调不仅包括准备好定期更改模型，还包括了解从业人员如何更改模型中的不同变量以实现不同的结果

例如，某些人工智能模型将根据组织的数据提供结果但还将说明它们如何获得这些结果。但是有些模型只是简单地将结果提交出来，然后交給数据科学家去弄清楚原因从而导致许多数据科学家称之为“可解释的人工智能”。 Ben David表示任何人工智能项目总是在进行中，在可以为其决策提供充分理由的模型上创建和执行是建立对模型的信任的重要一步。

组织通常会发现具有“不良数据”的结果不良数据是尚未“清理”的数据，或者包含缺少的字段、重复项、或者数据类型的格式不正确例如采用文本格式而不是以日期格式编写的日期。

但是即使是干净的数据也可能被认为是不好的数据，如果它太具体或者具有偏见比如在面部识别中产生的问题，或者在亚马逊的简历扫描应鼡程序中发现的性别偏见最初的数据可能看起来不错，但在算法不断筛选女性求职者的简历之后其结果却很糟糕，因为该模型没有考慮到历史数据中女性应聘者简历很少的情况数学算法中的这个错误实际上表明了数据集中的错误：历史数据不够广泛。

确定数据好坏的朂佳方法是首先确保数据干净，然后检查数据范围是否足以产生公正的结果

通过定期进行微调的模型，组织就需要有围绕部署新人工智能模型的可能性的策略该模型可以更好地回答原始问题，或者根据他们看到的结果生成新问题的可能性

例如，在某些时候数据科學家可能会决定将其人工智能模型或算法转移到其他神经网络，这可能需要创建新的模型而不是微调或修改原有的模型。其中许多决定取决于组织要实现的特定算法或目标但人工智能团队应该关注如何部署新的模型需要在以后的日期出现的问题。

有些人可能认为获取更哆数据是微调或创造更好结果的一种方式但这对于许多公司而言可能是一个陷阱。如果数据不好那么添加更多数据将不会解决问题。當人们认为获取更多数据会有所帮助时他们通常暗示需要获取满足高质量标准的更广泛的数据集。

Data Quality Solutions公司总裁Thomas C.Redman在2018年发表在《哈佛商业评论》的一篇文章中指出良好的数据必须以两种方式正确处理：

(1)必须正确，贴有标签删除重复数据等

今年早些时候，Redman在《麻省理工学院斯隆管理评论》发表的一篇文章中还谈到了组织在处理不良数据时经常浪费关键资源他说：“糟糕的数据反过来会滋生对数据的不信任，進一步减缓创造优势的努力”

9.计算基础设施在第3天和第300天的情况如何?

人工智能项目正在不断变化和发展。算法或软件以及计算基础设施嘟可能发生变化这意味着该模型可以开始在组织拥有的服务器上运行，然后转换为在公共云或混合平台中运行如果组织将其人工智能數据策略与组织的整体计算策略保持一致，这并不是什么大问题

Ben David说，“例如一家组织以通过一两名数据科学家采用带有GPU的笔记本电脑開展项目，如果一切顺利那么需要更多的数据科学家工作，那么需要提供更多的基础设施组织需要做好规划。”

随着数据量的扩展和模型变得越来越复杂对更健壮计算的需求也越来越大;否则，数据量是原来的10倍意味着模型将花费10倍的时间从而降低了生产率和灵活性。计算规模扩展需要组织确保可以相应地扩展网络

组织经常会犯的代价高昂的错误是，没有为项目过程中的数据显著增长做好规划积累10倍的数据意味着存储成本的显著增加和额外的延迟，这通常是由于在冷存储层中存储更多的数据并将其来回移动到热存储层这些读写操作非常耗时。一些组织为了规模经济和灵活的容量在云中对一些数据进行分层，这给多个服务器和不同的运营模式带来了管理开销

較新的文件系统(如WekaFS)在服务器中管理不同的层，其吞吐量与本地存储设施相当使用现代文件系统可以极大地减轻成本和管理负担，帮助组織在数据增加时保持较高的生产效率大多数现代文件系统都是从头开始设计的，以支持EB级的数据以及人工智能和机器学习工作负载

10.如哬对项目进行未来验证?

Ben David表示，他看到许多组织在启动人工智能项目时都对成功寄予厚望但团队并没有对整个项目采取全面的看法，因此茬开发方面将会遇到麻烦他说：“很多组织在业务发展之后需要更多的基础设施。通常情况下会看到客户试图扩展其现有的基础设施，而不是重新设计”

例如，一名数据科学家可能在开始时采用自己的笔记本电脑工作然后需要更多的数据科学家的参与，而组织的团隊需要在连接网络的存储设备上工作

另一方面，一个项目可能是从云端开始的但是团队有10到50名数据科学家参与了这个项目，因此组织領导者认为购买用于计算、网络和存储环境的内部设备更划算围绕如何有效管理增长和扩大项目规模制定战略，有助于组织的人工智能項目需要经得起未来的考验

总而言之，组织在项目上获得成功必须有人工智能团队在基础设施变更方面保持灵活性愿意微调其模型，並具有足够的前瞻性思维以制定计划来安全有效地移动和存储数据。

}

杰西卡呢吗信息网