标签 SQL 下的文章 - 自我成长

登录

标签搜索

少年

累计撰写 189 篇文章
累计收到 48 条评论

搜索到 2 篇与的结果

2022-11-24
Oracle常用函数一、Oracle 表空间一个数据库可以有多个表空间，一个表空间里可以有多个表。表空间就是存多个表的物理空间；可以指定表空间的大小位置等。创建表空间create tablespace ts1 datafile 'C:\tablespace\ts1.dbf' size 50M;自动扩展大小create tablespace ts2 datafile 'C:\tablespace\ts2.dbf' size 50M autoextend on next 10M;设置最大空间create tablespace ts3 datafile 'C:\tablespace\ts3.dbf' size 50M autoextend on next 10M maxsize 1024M;更改用户默认表空间alter database default tablespace ts1;表空间改名alter tablespace ts1 rename to tss1;删除表空间drop tablespace ts2 including contents and datafiles;二：虚拟表dual 表Dual 表是sys 用户下的一张虚表；提供一些运算和日期操作时候用到；例如，查询系统日期时间select sysdate from dual;三、序列序列作为数据库里的对象，主要作用是生成唯一的主键值；创建序列create sequence 序列名称；重要属性：序列名称.currval 当前值nextval 下一个值指定初始值： start with xx序列属性Minvalue maxvalue 最大值和最小值默认最小值1 最大值10 的27 次方； Increment by 属性序列增长步长默认值1 Cycle 设置循环；（了解即可，不使用）； Cache 缓存设置；一次获取序列的多个连续值，默认20 ，放到内存中，方便下次快速获取；四、CRUD1、表的CRUD创建表create table 表名 ( 字段名1 字段类型默认值是否为空，字段名2 字段类型默认值是否为空，字段名3 字段类型默认值是否为空， … );示例：create table T_BOOK_LOG ( operusers VARCHAR2(10) not null, optertype VARCHAR2(10), optertime DATE )修改表名rename 旧表名 to 新表名；示例：rename t_book to t_books;删除表删除所有数据，会删除表结构drop table 表名；示例：drop table T_BOOKs;修改表添加新字段alter table 表名 add(字段名字段类型默认值是否为空);示例：alter table t_book add(booknum number(6) default 0 null);字段添加注释comment on column 表明.字段 is '注释内容';示例：comment on column t_book.booknum is '书本数量';修改字段类型属性alter table 表名 modify (字段名字段类型默认值是否为空);示例：alter table t_book modify (booknum varchar2(20) default 'hello');修改字段名alter table 表名 rename column 列名 to 新列名;示例：alter table t_book rename column booknum to remark;删除字段alter table 表名 drop column 字段名；示例：alter table t_book drop column remark;2、数据的CRUDinsert给指定列插入数据：insert into dept(deptno,dname) values(50,'xx'); 插入全部列数据：insert into dept(deptno,dname,loc) values(60,'xx','lll'); 简写insert into dept values(70,'xxx','llll');update更新指定数据：update dept set dname='司法部' where deptno=50; update dept set dname='司法部' ,loc='china' where deptno=50;delete删除指定数据：delete from dept where deptno=70; 删除指定条件的数据：delete from dept where deptno>40;truncatetruncate是一次性删掉所有数据，不删除表结构。注意：如果表中有identity产生的自增id列，truncate后，会恢复初始值。truncate table 表名；查询所有select * from emp;指定字段查询select ename,sal from emp;where 条件查询select * from emp where sal>=800; select * from emp where sal>=1500 and job='SALESMAN';Distinct去重复记录Group by分组查询select job,count(ename) as num from EMP t group by job;Having 过滤分组select job,count(ename) as num from EMP t group by job having count(ename)>=2;Order by 排序select * from emp order by sal desc;子查询查询出基本工资大于平均工资的员工select * from emp where sal>(select avg(sal) from emp)union并集（去重复）select * from t_user1 union select * from t_user2;union all并集（不去重）select * from t_user1 union all select * from t_user2;intersect交集select * from t_user1 intersect select * from t_user2;minus差集select * from t_user1 minus select * from t_user2;inner内连接select * from emp t,dept d where t.deptno=d.deptno;和这个一样，inner join效率更高select * from emp e inner join dept d on e.deptno=d.deptno;left join左外连接select * from emp e left join dept d on e.deptno=d.deptno;right join右外连接select * from emp e right join dept d on e.deptno=d.deptno;五、数据类型1、字符串类型及函数字符类型分3 种，char(n) 、varchar(n)、varchar2(n) ；char(n)：固定长度字符串，假如长度不足n，右边空格补齐；varchar(n)：可变长度字符串，假如长度不足n，右边不会补齐；varchar2(n)：可变长度字符串，Oracle 官方推荐使用，向后兼容性好；char(n) VS varchar2(n)： char(n)查询效率相对较高，varchar2(n)存储空间相对较小；字符串常用方法lpad() 向左补全字符串：select lpad(stuno,6,'0') from t_user3; rpad() 向右补全字符串：select rpad(stuno,6,'0') from t_user3; lower() 返回字符串小写：select lower(userName) from t_user3; upper() 返回字符串大写：select upper(userName) from t_user3; initcap() 单词首字符大写：select initcap(userName) from t_user3; length() 返回字符串长度：select length(password) from t_user3; substr() 截取字符串：select substr(userName,1,2) from t_user3; instr() 获取字符串出现的位置：select instr(password,'23',2,2) from t_user3; ltrim() 删除左侧空格:select ltrim(userName) from t_user3; rtrim() 删除右侧空格:select rtrim(userName) from t_user3; trim() 删除两侧空格:select trim(userName) from t_user3; concat() 串联字符串：select concat(userName,password) from t_user3; reverse() 反转字符串：select reverse(userName) from t_user3;2、数值类型number：是oracle 中的数据类型；number(precision,scale)；Precision，scale 均可选；Precision 代表精度，sacle 代表小数位的位数；Precision 范围[1,38] scale 范围[-84,127]举例： 12345.678 Precision 是8 scale 是3；数值类型常用方法abs() 求绝对值；select abs(n1) from t_number where id=1; round() 四舍五入：select round(n1,2) from t_number where id=1; ceil() 向上取整：select ceil(n1) from t_number where id=2; floor 向下取整：select floor(n1) from t_number where id=2; Mod()取模：select mod(5,3) from dual; Sign()正负性：select sign(n1) from t_number where id=1; Sqrt() 求平方根：select sqrt(9) from dual; Power()求乘方：select power(2,3) from dual; Trunc()截取：select trunc(123.456,2) from dual; To_char() 格式化数值：常见的字符匹配有0、9、，、$、FM、L、CTo_char() 格式化数值To_char() 格式化数值：常见的字符匹配有0、9、，、$、FM、L、C select to_char(123.45,'0000.000') from dual; select to_char(123.45,'9999.999') from dual; select to_char(123123,'99,999,999.99') from dual; select to_char(123123.3,'FM99,999,999.99') from dual; select to_char(123123.3,'$99,999,999.99') from dual; select to_char(123123.3,'L99,999,999.99') from dual; select to_char(123123.3,'99,999,999.99C') from dual;3、日期类型Date 和timestamp（时间戳）Date ：包含信息century（世纪信息） year 年month 月day 日hour 小时minute 分钟second 秒Timestamp ：一般用于日期时间要求非常精确的情况，精确到毫秒级；insert into t_date values(1,sysdate,systimestamp);日期类型常用方法select sysdate from dual; select systimestamp from dual; Add_months 添加月份select add_months(d1,2) from t_date where id=1; Last_day 返回指定日期月份的最后一天select last_day(d1) from t_date where id=1; update t_date set d3=to_date('2016-12-20','YYYY-MM-DD') where id=1; update t_date set d3=to_date('2016-12-20 18:31:34','YYYY-MM-DD HH24:MI:SS') where id=1; Months_between 返回两个日期的相差月数select months_between(d1,d3) from t_date where id=1; next_day 返回特定日期之后的一周内的日期：select next_day(d1,2) from t_date where id=1;Trunc 截取日期select trunc(d1,'YYYY') from t_date where id=1; select trunc(d1,'MM') from t_date where id=1; select trunc(d1,'DD') from t_date where id=1; select trunc(d1,'HH') from t_date where id=1; select trunc(d1,'MI') from t_date where id=1;Extract 返回日期的某个域select extract(year from sysdate) from dual; select extract(month from sysdate) from dual; select extract(day from sysdate) from dual; select extract(Hour from systimestamp) from dual; select extract(minute from systimestamp) from dual; select extract(second from systimestamp) from dual;To_char 将日期转换成字符串select to_char(d1,'YYYY-MM-DD') from t_date where id=1; select to_char(d1,'YYYY-MM-DD HH24:MI:SS') from t_date where id=1;4、其他常用处理函数常用的聚合函数Max 求最大值select max(sal) from emp ;Min 求最小值select min(sal) from emp ;Avg 求平均值select avg(sal) from emp ;Sum 求和select sum(sal) from emp ;Count 统计记录数select count(ename) from emp ;Nvl 空值处理select ename,nvl(sal,0) from emp;rownum 分页select * from (select a.*,rownum rn from (select * from emp) A where rownum<=10) where rn>5;Oracle 中的运算select 2+1 from dual; select 2-1 from dual; select 2*1 from dual; select 2/1 from dual;Between and条件判断式Between and 范围查询：select * from emp where sal between 900 and 1500; select * from emp where sal>=900 and sal<=1500;In 集合范围select ename,hiredate from emp where ename in (select distinct ename from bonus)Like 模糊查询select * from emp where ename like '%M%' select * from emp where ename like 'M%' select * from emp where ename like '_M%'
- 2022年11月24日
- 402 阅读
- 0 评论
- 2 点赞
2022-04-14
MyCat MyCat一、基础知识1、分布式系统分布式系统是指其组件分布在网络上，组件之间通过传递消息进行通信和动作协调的系统。它的核心理念是让多台服务器协同工作，完成单台服务器无法处理的任务，尤其是高并发或者大数据量的额任务。它的特点是：透明性：分布式系统对于用户是透明的，一个分布式系统在用户面前的表现就像一个传统的单处理机分时系统，可用用户不必了解其内部结构就能使用; 扩展性：分布式系统的最大特点是可扩展性，它能够根据需求的增加而扩展，可以通过横向扩展使集群的整体性能得到线性提升，也可以通过纵向扩展单台服务器的性能使服务器集群的性能得到提升; 可靠性：分布式系统不允许单点失效的问题存在，它的基本思想是，如果一台机器坏了，则其他机器能够接替它进行工作，具有持续服务的特性; 高性能：高性能才是设计分布式系统的初衷. 分布式系统的缺点： 1、在节点通信部分的开销比较大，线程安全问题也变得复杂，需要在保证数据完整性的同时兼顾性能 2、过分依赖网络，网络信息的丢失和饱和将会抵消分布式系统的大部分优势 3、有潜在的数据安全和网络安全等安全性问题。2、分布式数据库随着技术的发展，各个行业所产生的数据量呈爆炸式增长，动辄就达到数百TB或者PB的级别，已经远远超过了传统单机数据库的处理能力，因此分布式数据库已经成为了最最迫切的需求。分布式数据库是指数据在物理上分步而在逻辑上集中管理的数据库系统。物理上分步是指分布式数据库的数据分步在物理位置不同并由网络连接的节点或站点上；逻辑上集中是指各数据库节点之间在逻辑上是一个整体，并由统一的数据库管理系统管理，不同的节点分步可以跨不同的机房、城市甚至国家。分布式数据库的特点: 透明性：用户不必关系数据的逻辑分区和物理位置分步的细节，也不必关系重复副本的一致性问题，同时不必关系在局部场地上数据库支持哪种数据模型，对于开发工程师而言，当数据库从一个场地移到另一个场地时必须改写应用程序，使用起来如果一个数据库。数据冗余性：分布式数据库通过冗余实现系统的可靠性、可用性，并改善其性能。多个节点存储数据副本，当某一个节点的数据遭到破坏时，冗余的副本可保证数据的完整性；当工作的节点受损害时，可通过心跳等机制进行切换，系统整体不被破坏。还可以通过热点数据的就近分步原则减少网络通信的消耗，加快访问速度，改善性能。易于扩展性：在分布式数据库中能够方便地通过水平扩展提高系统的整体性能，也能够通过垂直扩展来提高性能，扩展并不需要修改系统程序。自治性：各节点上的数据由本地的DBMS管理，具有自治处理能力，完成本场地的应用或局部应用分布式数据库还具有经济、性能优越、响应速度更快、灵活的体系结构、易于继承现有系统等特点。3、分布式数据库的实现原理分布式数据库具有逻辑整体性、物理分布式，正是因为其物理分布性才使得分布式数据库的实现变得更加复杂，因为数据划分后存储在不同的节点上，而为了保证可靠性，需要存储多个副本，所以产生了数据复制的问题。为了保证良好的性能，分布式数据库必须易于扩展，具体来讲分布式数据库应有4个优势：数据分片及复制管理、具有事务的可靠性存取、良好的性能、易于扩展，所以分布式数据库在设计上需要实现数据库数据库的目录管理、数据分片、分布式查询处理、分布式并发控制、分布式锁管理、分布式存储、分布式网络架构、分布式安全管理等。 1、分布式数据库的目录管理分布式数据库的目录存放着系统元数据及数据库的元数据的全部信息，这些数据的存在是为了正确、有效地访问数据。数据的增删改查操作都需要用到目录，用户授权、安全管理及并发控制等也都需要用到目录，目录结构的合理性直接影响数据库的性能。目录一般包括各级的描述、访问方法的描述、关于数据库的统计数据和一致性信息等，系统根据这些信息将用户查询转换为物理数据库上的查询，选择一条最佳的存取路径进行事务管理及安全性、完整性检查等。分布式数据库的目录课分为全局目录、分布式目录、全局与本地混合目录。 2、数据分片当数据库过于庞大，尤其是写入过于频繁且很难由一台主机支撑时，我们还是会面临扩展瓶颈。我们将存放在同一个数据库实例中的数据分散存放到多个数据库实例上，进行多台设备存取以提高性能，在切分数据的同时可以提高系统整体的可用性。数据分片是指将数据全局地划分为相关的逻辑片段，有水平切分、垂直切分、混合切分三种类型。水平切分：按照某个字段的某种规则分散到多个节点库中，每个节点中包含一部分数据。可以将数据的水平切分简单理解为按照数据行进行切分，就是将表中的某些行却分到一个节点，将另外某些行切分到其他节点，从分布式的整体来看它们是一个整体的表垂直切分：一个数据库由很多表构成，每个表对应不同的业务，垂直切分是指按照业务将表进行分类并分不到不同的节点上，垂直拆分简单明了，拆分规则明确，应用程序模块清晰、明确、容易整合，但是某个表的数据量达到一定程度后扩展起来比较困难。混合切分：水平切分和垂直切分的结合 3、分布式查询处理分布式查询处理的任务就是把一个分布式数据库上的高层次查询映射为在本地数据库上的操作，查询的解析必须拆分为代数查询的关系运算序列，将要查询的数据定位到各节点，使得查询在各节点进行，最后通过网络通信的操作汇聚查询结果。 4、分布式并发控制并发控制是分布式事务管理的基本任务之一，其目的是保证分布式数据库中的多个事务并发高效、正确的执行。并发控制用来保证事务的可串行性，也就是说事务的并发执行等价于它们按某种次序的串行执行，从而为用户提供并发的透明性。进行并发控制的方法主要有三种：加锁并发控制、时间戳控制、乐观并发控制。加锁并发控制应用广泛，但是容易发生死锁；时间戳控制消除了死锁，一旦发生冲突变回重启而不是等待，需要有全局的统一时钟；乐观并发控制对于冲突较少的系统较为合适，对于冲突多的系统则效率低下。4、OLTP和OLAP 在互联网时代，海量数据的存储和访问成为系统设计与使用的瓶颈，对于海量数据处理，按照使用场景，主要分为两种类型：联机事务处理（OLTP）和联级分析处理（OLAP）。联机事务处理也称为面向事务的处理系统，其基本特征是原始数据可以立即传送到计算中心进行处理，在很短的时间内给出处理结果。联级分析处理是指通过多维的方式对数据进行分析、查询和报表，可以同数据挖掘工具、统计分析工具配合使用，增强决策分析功能。两者之间的区别: OLTPOLAP系统功能日常交易处理统计、分析、报表DB设计面向实时交易类应用面向统计分析类应用数据处理当前的，最新的细节的，历史的、聚集的、多维的、集成的实时性实时读写要求高实时要求读写低事务强一致性弱事务分析要求低，简单高，复杂5、关系型数据库和NoSQL 关系型数据库是建立在关系模型基础上的数据库，其借助于集合代数等数学概念和方法来处理数据库中的数据，主流的是Oracle，DB2,SQL Server,MySQL NoSQL数据库，全称为Not Only SQL,意思就是适用关系型数据库的时候就是用关系型数据库，不适用的时候也没必要非使用关系型数据库不可，可以考虑更加合适的数据存储，主要分为临时性键值存储（Memcached，Redis），永久性键值存储（Redis），面向文档的数据库（MongoDB,CouchDB）,面向列的数据库（Cassandra，HBase），每种NoSQL都有其特有的使用场景及优点。关系型数据库NoSQL数据库特点数据关系模型基于关系模型，结构化存储，完整性约束基于二维表及其之间的联系，需要连接、并、交、差等操作采用结构化的查询语言做数据读写操作需要数据的一致性，需要事务甚至强一致性非结构化的存储基于多维关系模型具有特色的使用场景优点保证数据的一致性可以进行join等复杂查询通用化，技术成熟高并发、大数据下读写能力强支持分布式，易于扩展，可伸缩简单，弱结构化存储缺点数据读写必须经过sql解析，大量数据、高并发读写性能不足对数据做读写，或修改数据结构时需要加锁，影响并发操作无法适应非结构化存储扩展困难昂贵、复杂join等复杂操作能力较弱事务支持较弱通用性差无完整约束复杂业务场景支持较差二、MyCat介绍1、MyCat是什么 MyCat 是什么？从定义和分类来看，它是一个开源的分布式数据库系统，是一个实现了 MySQL 协议的Server，前端用户可以把它看作是一个数据库代理，用 MySQL 客户端工具和命令行访问，而其后端可以用MySQL 原生（Native）协议与多个 MySQL 服务器通信，也可以用 JDBC 协议与大多数主流数据库服务器通信，其核心功能是分表分库，即将一个大表水平分割为 N 个小表，存储在后端 MySQL 服务器里或者其他数据库里。 MyCat 发展到目前的版本，已经不是一个单纯的 MySQL 代理了，它的后端可以支持 MySQL、 SQL Server、Oracle、 DB2、 PostgreSQL 等主流数据库，也支持 MongoDB 这种新型 NoSQL 方式的存储，未来还会支持更多类型的存储。而在最终用户看来，无论是那种存储方式，在 MyCat 里，都是一个传统的数据库表，支持标准的SQL 语句进行数据的操作，这样一来，对前端业务系统来说，可以大幅降低开发难度，提升开发速度，在测试阶段，可以将一个表定义为任何一种 MyCat 支持的存储方式，比如 MySQL 的 MyASIM 表、内存表、或者MongoDB、 LevelDB 以及号称是世界上最快的内存数据库 MemSQL 上。试想一下，用户表存放在 MemSQL 上，大量读频率远超过写频率的数据如订单的快照数据存放于 InnoDB 中，一些日志数据存放于 MongoDB 中，而且还能把 Oracle 的表跟 MySQL 的表做关联查询，你是否有一种不能呼吸的感觉？而未来，还能通过 MyCat 自动将一些计算分析后的数据灌入到 Hadoop 中，并能用 MyCat+Storm/Spark Stream 引擎做大规模数据分析，看到这里，你大概明白了， MyCat 是什么？ MyCat 就是 BigSQL， Big Data On SQL Database。对于不同的角色，MyCat到底是个啥？对于DBA而言，可以这么理解MyCat： MyCat就是MySQL Server,而Mycat后面连接的MySQL Server,就好像是MySQL的存储引擎，如InnoDB,MyISAM等，因此，MyCat本身并不存储数据，数据是再后端的MySQL上存储的，因此数据可靠性以及事务都是MySQL保证的，简单说，MyCat就s是MySQL最佳伴侣，它再一定程度上让MySQL拥有了能跟Oracle PK的能力。对于软件工程师来说，可以这么理解MyCat: MyCat就是一个近似等于MySQL的数据库服务器，你可以用连接MySQL的方式去连接MyCat，除了端口不同，默认的MyCat端口是8066而不是MySQL的3306，因此需要再连接字符串上增加端口信息，大多数情况下，可以用你熟悉的对象映射框架使用MyCat，但建议对于分片表，尽量使用基础的SQL语句，因为这样能达到最佳性能，特别是几千万甚至几百亿条记录的情况下。对于架构师来说，可以这么理解MyCat： MyCat是一个强大的数据库中间件，不仅仅可以用作读写分离、以及分库分表、容灾备份，而且可以用于多租户应用开发，云平台基础设施，让你的架构具备很强的适应性和灵活性，借助于即将发布的mycat只能优化模块，系统的数据访问瓶颈和热点一目了然，根据这些统计分析数据，你可以自动或手工调整后端存储，将不同的表映射到不同的存储引擎上，而整个应用的代码一行也不用改变。2、MyCat的原理 MyCat的原理并不复杂，复杂的是代码，如果代码也不复杂，那么早就成为了一个传说了。 MyCat的原理中最重要的一个动作是“拦截”，它拦截了用户发送过来的SQL语句，首先对SQL语句做了一些特定的分析：如分片分析、路由分析、读写分离分析、缓存分析等，然后将此SQL发送后端的真实数据库，并将返回的结果做适当的处理，最终再返回给用户。上述图片里，orders表被分为了三个分片DataNode（简称dn），这三个分片是分布在两台MySQL Server上（Datahost），即datanode=database@datahost方式，因此你可以用一台到N台服务器来分片，分片规则为（sharding rule）典型的字符串枚举分片规则，一个规则的定义是分片字段（sharding column）+分片函数（rule function）,这里的分片字段为prov而分片函数为字符串枚举方式。当MyCat收到一个SQL时，会先解析这个SQL,查找涉及到的表，然后看此表的定义，如果有分片规则，则获取到SQL里分片字段的值，并分配分片函数，得到该SQL对应的分片列表，然后将SQL发往这些分片去执行，最后收集和处理所有分片返回的结果数据，并输出到客户端，以select * from orders where prov = ?语句为例，查到prov=wuhan,按照分片函数，wuhan返回dn1,于是sql就发给了mysql1，去取db1上的查询结果，并返回给用户。如果上述sql改为select * from orders where prov in (wuhan,beijing),那么，sql就会发给MySQL1和MySQL2去执行，然后结果集合并后输出给用户。但通常业务中我们的SQL会有order by以及limit翻页语法，此时就设计到结果集在MyCat端的二次处理，这部分代码也比较复杂，而最复杂的则属两个表的join，为此，MyCat提出了创新性的ER分片，全局表，HBT（human brain tech）人工智能的Catlet，以及结合Storm/Spark引擎等十八般武艺的解决办法，从而称为目前业界最强大的方案，这就是开源的力量。3、应用场景 MyCat发展到现在，使用的场景已经很丰富，而且不断有新用户给出新的创新性的方案，以下是典型的应用场景： 1、单纯的读写分离，此时配置最为简单，支持读写分离，主从切换 2、分库分表，对于超过1000万的表进行分片，最大支持1000亿的单表分片 3、多租户应用，每个应用一个库，但应用程序只连接MyCat，从而不改造程序本身，实现多租户化 4、报表系统，借助MyCat的分表能力，处理大规模报表的统计 5、整合多数据源 6、作为海量数据实时查询的一种简单有效方案，比如100亿条频繁查询的记录需要在3秒内查询出来结果，除了基于主键的查询，还可能存在范围查询或其他属性查询，此时MyCat可能是最简单有效的选择 7、数据库路由器，MyCat基于MySQL实例的连接池复用机制，可以让每一个应用最大程度地共享一个MySQL实例的所有连接池，让数据库的并发访问能力大大提升4、为什么使用MyCat 1、java与数据库紧耦合 2、高访问量高并发对数据库的压力 3、读写请求数据不一致5、数据库中间件对比对比项目mycatmangocobarheisenbergaltasamoeba数据切片支持支持支持支持支持支持读写分离支持支持支持支持支持支持宕机自动切换支持不支持支持不支持半支持，影响写不支持mysql协议前后端支持JDBC前端支持前后端支持前后端支持JDBC支持的数据库mysql，oracle，mongodb，postgresqlmysqlmysqlmysqlmysqlmysql，mongodb社区活跃度高活跃停滞低中等停滞文档资料极丰富较齐全较齐全较少中等缺少是否开源开源开源开源开源开源开源是否支持事务弱XA支持单库强一致，分布式弱事务单库强一致，多库弱事务单库强一致，分布弱事务不支持三、MyCat的核心概念 MyCat是数据库中间件，就是介于数据库与应用之间，进行数据处理和交互的中间服务。从原有的一个库，被切分为多个分片数据库，所有的分片数据库集群构成了整个完整的数据库存储。如上图所示，数据被分到多个分片数据库之后，应用如果需要读取数据，就要处理多个数据源的数据。如果没有数据库中间件，那么应用将直接面对分片集群，数据源切换、事务处理、数据聚合都需要应用直接处理，原本该是专注于业务的应用，将会话大量的工作来处理分片后的问题，最重要的是每个应用处理将是完全的重复造轮子。1、逻辑库对于实际应用而言，其实并不需要知道中间件的存在，开发人员只需要知道数据库的概念即可，所以数据库中间件可以被看作是一个或多个数据库集群构成的逻辑库。在云计算时代，数据库中间件可以以多租户的形式给一个或多个应用提供服务，每个应用访问的可能是一个独立或者共享的物理库，常见的如阿里云数据库服务器RDS2、逻辑表既然有逻辑库，那么就应该有逻辑表，在分布式数据库中，对应用来说，读写数据的表就是逻辑表。逻辑表可以使数据切分后，分步在一个或多个分片库中，也可以不做数据切分，不分片，只有一个表构成3、分片表分片表，是指哪些原有的很大数据的表，需要切分到多个数据库的表，这样每一个分片都会有一部分数据，所有分片构成了完整的数据。4、非分片表一个数据库中并不是所有的表都很大，某些表是可以不用进行切分的，非分片是相对分片表来说的，就是那些不需要进行数据切分的表。5、ER表关系型数据库是基于实体关系模型之上，通过其描述了真实世界中事物与关系，MyCat中的ER表既是来源于此。根据这一思路，提出了基于ER关系的数据分片策略，子表的记录与所关联的父表记录存放在同一个数据分片上，即子类依赖于父类，通过表分组保证数据join不会跨库操作。表分组是解决跨分片数据join的一种很好的思路，也是数据切分规划的重要一条规则。6、全局表一个真实的业务系统中，往往存在大量的类似字典表的表，这些表基本上很少变动，字典表具有以下几个特点： 1、变动不频繁 2、数据量总体变化不大 3、数据规模不大，很少有超过数十万条记录对于这类的表，在分片的情况下，当业务表因为规模而进行分片以后，业务表与这些附属的字典表之间的关联，就成了比较棘手的问题，所以MyCat中通过数据冗余来解决这类表的join，即所有的分片都有一份数据的拷贝，所有将字典表或者符合字典表特性的一些表定义为全局表。数据冗余是解决跨分片数据join的一种很好思路，也是数据切分规划的另外一条重要原则7、分片节点（dataNode）数据切分后，一个大表被分到不同的分片数据库上面，每个表分片所在的数据库就是分片节点（dataNode）8、节点主机（dataHost）数据切分后，每个分片节点（dataNode）不一定都会独占一台机器，同一机器上面可以有多个分片数据库，这样一个或多个分片节点（dataNode）所在的机器就是节点主机（dataHost）,为了规避单节点主机并发数限制，尽量将读写压力高的分片节点（dataNode）均衡的放在不同的节点主机（dataHost）。9、分片规则数据切分是指一个大表被分成若干个分片表，就需要一定的规则，这样按照某种规则把数据分到某个分片的规则就是分片规则，数据切分选择合适的分片规则非常重要，将极大的避免后续数据处理的难度。10、全局序列号数据切分后，原有的关系数据库中的主键约束在分布式条件下将无法使用，因此需要引入外部机制保证数据唯一性标识，这种保证全局性的数据唯一标识的机制就是全局序列号。11、多租户多租户技术或称多重租赁技术，是一种软件架构技术，它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件，并且扔可确保各用户间数据的隔离性。在云计算时代，多租户技术在共用的数据中心以单一系统架构与服务提供多数客户端相同甚至可定制化的服务，并且仍然可以保障客户的数据隔离。目前各种各样的云计算服务就是这类技术范畴，例如阿里云数据库服务（RDS），阿里云服务器等等。多租户在数据存储上存在三种主要的方案，分别是：1、独立数据库一个租户一个数据库，这种方案的用户数据隔离级别最高，安全性最好，但成本也高。优点：为不同的租户提供独立的数据库，有助于简化数据模型的扩展设计，满足不同租户的独特需求，如果出现故障，恢复数据比较简单。缺点：增大了数据库的安装数量，随之带来维护成本和购置成本的增加2、共享数据库，隔离数据架构多个或者所有租户共享database，但是每一个租户一个schema 优点：为安全性要求较高的租户提供了一定程度的逻辑数据隔离，并不是完全隔离；每个数据库可以支持更多的租户数量缺点：如果出现故障，数据恢复比较困难，因此恢复数据库将牵扯到其他租户的数据，如果需要跨租户统计数据，存在一定困难3、共享数据库，共享数据结构租户共享同一个database，同一个schema，但在表中通过tenantID区分租户的数据。这是共享程度最高、隔离级别最低的模式优点：维护和购置成本最低，运行每个数据库支持的租户数量最多缺点：隔离级别最低，安全性最低，需要在设计开发时加大对安全的开发量，数据备份和恢复最困难，需要逐表逐条备份和还原。
- 2022年04月14日
- 808 阅读
- 0 评论
- 3 点赞