数据开发

2025/1/31 6:46:46

360大数据面试题及参考答案

数据清理有哪些方法? 数据清理是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。常见的数据清理方法有以下几种: 去重处理:数据中可能存在重复的记录,这不仅会占用存储空间,还可能影响分析结果。通过对比每条记录的关键属性,若所有关键…

大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)

大数据相关职位介绍之一 随着大数据、人工智能(AI)和机器学习的快速发展,数据分析与管理已经成为各行各业的重要组成部分。从互联网公司到传统行业的数字转型,数据相关职位在中国日益成为推动企业创新和提升竞争力的关键力量。以…

实时数据开发|简单理解Flink流计算中解决乱序的机制--水位线

今天继续学习Flink的关键机制–水位线,虽然看文字有种浮于表面、难以理解的感觉,但是我觉得等开发中使用到的时候就会融会贯通了。 定义 Fink 相比其他流计算技术的一个重要特性是支持基于事件时间(event time)的窗口操作。但是事件时间来自于源头系统…

如何预防数据打架?数据仓库如何保持指标数据一致性开发指南(持续更新)

大数据开发人员最经常遇到尴尬和麻烦的事是,指标开发好了,以为万事大吉了。被业务和运营发现这个指标在不同地方数据打架,显示不同的数值。为了保证指标数据一致性,要从整个开发流程做好。 目录 一、数据仓库架构规划 二、数据抽取与转换 三、数据存储管理 四、指标管…

汇量科技大数据面试题及参考答案

如何在 SQL 中处理三个字段完全一样的去重?在 Scala 中又该如何实现? 在 SQL 中,可以使用多种方法来处理三个字段完全一样的去重。一种常见的方法是使用 DISTINCT 关键字结合多个字段来实现。例如,假设有表 table_name,包含字段 field1、field2 和 field3,可以使用以下 S…

mysql学习教程,从入门到精通,SQL 删除数据(DELETE 语句)(19)

1、SQL 删除数据(DELETE 语句) 在SQL中,TRUNCATE TABLE 语句用于删除表中的所有行,但不删除表本身。这个操作通常比使用 DELETE 语句删除所有行要快,因为它不记录每一行的删除操作到事务日志中,而是直接重…

数据研发基础 | 什么是流批一体

流批一体的概念是可能出现在大厂的面试题中的,虽然就算大厂实习也没机会实操这样的高级操作,学一点概念,面试多少是能说上一两句的。大致就是希望一套代码能同时在批处理和流处理中运行(同时做离线计算和实时计算)。下…

新浪微博大数据面试题及参考答案(数据开发和数据分析)

介绍一下你所掌握的计算机网络和操作系统相关知识 计算机网络:计算机网络是将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。我掌握了网络协议…

大数据开发工程师的岗位技能要求及自我介绍参考(持续更新)

目录 岗位技能要求 一、编程语言 二、大数据框架 三、数据库知识 四、数据处理和 ETL 技能 五、数仓开发技能和经验要求 六、分布式系统和云计算 分布式系统原理 七、其他技能 自我介绍重点介绍方面 一、突出自己处理数据量级别大: 二、突出自己有实时数仓的经…

mysql学习教程,从入门到精通,SQL导入数据(43)

1、SQL导入数据 以下是一个关于如何使用SQL导入数据的详细指南。这通常涉及将数据从一个源文件(如CSV文件)导入到数据库表中。在这个例子中,我们将使用MySQL数据库和一个CSV文件作为数据源。 1.1、前提条件 MySQL数据库服务器已安装并运行…

Flink难点和高频考点:Flink的反压产生原因、排查思路、优化措施和监控方法

目录 反压定义 反压影响 WebUI监控 Metrics指标 backPressureTimeMsPerSecond idleTimeMsPerSecond busyTimeMsPerSecond 反压可视化 资源优化 算子优化 数据倾斜优化 复杂算子优化 背压机制 反压预防 性能调优 内置工具 第三方工具 反压定义 在探讨Flink的性…

mysql学习教程,从入门到精通,SQL FULL JOIN 语句(25)

1、SQL FULL JOIN 语句 在SQL中,FULL JOIN(也被称为全外连接)是一种结合了两个表中的所有行的操作,包括两个表中匹配的行以及那些不匹配的行。如果在一个表中有行在另一个表中没有匹配,那么这些行将出现在结果集中&am…

数据中台的价值框架与架构

目录 一、数据中台的价值框架 1.1 业务数据化、数据业务化 1.2 数据中台的组织地位 1.3 数据中台的战略地位 二、数据中台架构 2.1 概述 2.2 数据汇聚 2.3 数据开发 2.4 数据体系 2.5 数据资产管理 2.6 数据应用 2.7 数据运营体系和数据安全管理 一、数据中台的价值…

doris基本操作,01-创建表,插入数据

创建表 -- 创建表 -- create table t001 {siteid int default 0,citycode smallint,username varchar(32) default ,-- 预聚合 --pv bigint sum default 0 } -- 预处理用的,插入相同siteid, citycode, username的记录不会新增行,而将sum的pv增加 -- agg…

doris基本操作,03-导入数据-Broker Load

简述 Broker load 是异步导入方式,支持的数据源取决于 Broker 进程支持的数据源。 因为 Doris 表里的数据是有序的,所以 Broker load 在导入数据的时是要利用doris 集群资源对数据进行排序,相对于 Spark load 来完成海量历史数据迁移&#…

面试复盘记录(数据开发)

一、apple外包1.矩阵顺时针旋转遍历2.两表取差集 二、 一、apple外包 没问理论,就两个算法题。 1.矩阵顺时针旋转遍历 Given an m x n matrix, return all elements of the matrix in spiral order.Example 1:Input: matrix [[1,2,3],[4,5,6],[7,8,9]] Output: …