这篇是月小升的翻译文章 人们一致的认识是大数据需要被定义特别的属性,大多数大数据圈子里,人们说4V volume 数量,variety 种类,velocity 速度,veracity 精确度 (你会考虑第一个V value 价格) VOLUME 使数据“大”的主要特征是巨大的信息量。关注最小存储单元是没有意义的,因为信息总量每年都呈指数增长。2010年,汤森路透(Thomson Reuters)在其年度 More
目录 1.大数据的定义 2.大数据特点 3.大数据关联技术 4.大数据误区 5.经典的大数据案例 大数据的定义 什么是“大数据”,目前并没有统一的定义。 大数据,指的是所涉及的数据量规模巨大到无法通过主流的工具,在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息 “。 大,多大算大,月小升觉得所谓得大都是相对的,如果mysql还 More
以下为月小升博客总结的Network性能调试文档,欢迎交流 一、Chrome浏览器版本 二、功能区 2.1 启动,停止 2.2 清除记录 2.3 录像浏览器 2.4 关闭开启下一行菜单 2.5 搜索 2.6 View查看更多数据 2.7 时间序列 2.8 分组展示 2.9 URL跳转前历史记录 2.10 是否禁止缓存 2.11 断网和限速测试 三、数据分组区 3.1 Hide data URLS 3.2 All 3.3 More
1.目标 没有目标的挖掘,不是数据挖掘。要不为了提高用户下单,要不为了提高用户注册。 2.业务知识 这项业务到底在如何影响我的数据挖掘。比如我们的系统是电子商务,用户下单之前经过了多少个步骤,每一个步骤的转化率是什么,那些成单的客户和不成单的客户有什么行为区别。 3.数据准备 收集数据,定义收集什么样的数据,在数据挖掘之前比什 More
yum install mysqlreport mysqlreport --host=java-er.com --user=admin --password=**** MySQL 5.1.73 uptime 0 6:39:54 Thu Jul 12 01:08:23 2018 __ Key _________________________________________________________________ # 在my.cnf文件中的key_buffer_size定义索引缓存的大小, 缺省是8M, 可考虑设置为512M [mysqld More
1.硬件负载均衡 一种是通过硬件来进行进行,常见的硬件有比较昂贵的NetScaler、F5、Radware和Array等商用的负载均衡器,它的优点就是有专业的维护团队来对这些服务进行维护、缺点就是花销太大,所以对于规模较小的网络服务来说暂时还没有需要使用; 2.软件负载均衡 LVS/HAProxy、Nginx的基于Linux的开源免费的负载均衡软件策略,这些都是通过软件级别 More
CSDN网友问: 目前有一个需求,用户需要在短时间内将几万条数据导入 MSSQL 数据库。 如果有一条无法导入,需要知道是哪条数据出的错。 导入之前最好还要根据条件验证一下数据是否存在,存在就删除。 现在我一条一条判断导入,非常缓慢。 请问有什么好的思路么? 月小升答: 你慢在搜索上。每次检查会相当消耗资源 1.如果数据有关键字段, More
曾经以为在my.cnf写入max_connections = 2000 就可以改变mysql的最大并发量,今天查到一个命令,发现服务器的mysql最大连接数为151. 控制台,连接上mysql show variables; 这条命令可以看到所有基础配置 如果单独看max_connections可以这样 show variables like 'max%'; +----------------------------+------------+ | Varia More