小知识：Linux 内核静态追踪技术的实现

%小知识：Linux 内核静态追踪技术的实现-猿站网-插图

前言：最近在探索 Node.js 调试和诊断方向的内容，因为 Node.js 提供的能力有时候可能无法解决问题，比如堆内存没有变化，但是 rss 一直上涨。所以需要深入一点去了解更多的排查问题方式。而这些方向往往都涉及到底层的东西，所以就自然需要去了解内核提供的一些技术，内核提供的能力，经过多年的发展，可谓是百花齐放，而且非常复杂。本文简单分享一下内核的静态追踪技术的实现。追踪，其实就是收集代码在执行时的一些信息，以便协助排查问题。

1 Tracepoint

Tracepoints 是一种静态插桩的技术，实现虽然复杂，但是概念上比较简单。比如我们打日志的时候，就类似这种情况，我们在业务代码里，写了很多 log 用来记录进程在运行时的信息。Tracepoints 则是内核提供的一种基于钩子的插桩技术。不过和打日志不一样的是，我们想在哪里打就在哪里加对应的代码，而 Tracepoints 则几乎是依赖于内核决定哪里可以插桩，说几乎是因为我们也可以写内核模块注册到内核来通知插桩点。下面来通过一个例子看一下 Tracepoint 的使用和实现(例子来自内核文档 tracepoints.rst)。分析之前先看一下两个非常重要的宏。第一个是 DECLARE_TRACE。

#define DECLARE_TRACE(name, proto, args) \ __DECLARE_TRACE(name, PARAMS(proto), PARAMS(args), \ cpu_online(raw_smp_processor_id()), \ PARAMS(void *__data, proto), \ PARAMS(__data, args))

我们只需要关注主体的实现，而不需要关注参数，继续展开。

#define __DECLARE_TRACE(name, proto, args, cond, data_proto, data_args) \ extern struct tracepoint __tracepoint_##name; \ // 执行钩子函数 static inline void trace_##name(proto) \ { \ if (static_key_false(&__tracepoint_##name.key)) \ __DO_TRACE(&__tracepoint_##name, \ TP_PROTO(data_proto), \ TP_ARGS(data_args), \ TP_CONDITION(cond), 0); \ } \ // 注册钩子函数 static inline int \ register_trace_##name(void (*probe)(data_proto), void *data) \ { \ return tracepoint_probe_register(&__tracepoint_##name, \ (void *)probe, data); \ } \ // 注销钩子函数 static inline int \ unregister_trace_##name(void (*probe)(data_proto), void *data) \ { \ return tracepoint_probe_unregister(&__tracepoint_##name,\ (void *)probe, data); \ } \ static inline bool \ trace_##name##_enabled(void) \ { \ return static_key_false(&__tracepoint_##name.key); \ }

__DECLARE_TRACE 主要是实现了几个函数，我们只需要关注注册钩子和执行钩子函数(格式是 register_trace_${yourname} 和 trace_${yourame})。接下来看第二个宏 DEFINE_TRACE。

#define DEFINE_TRACE_FN(name, reg, unreg) \ struct tracepoint __tracepoint_##name#define DEFINE_TRACE(name) \ DEFINE_TRACE_FN(name, NULL, NULL);

我省略了一些代码，DEFINE_TRACE 主要是定义了一个 tracepoint 结构体。了解了两个宏之后，来看一下如何使用 Tracepoint。

1.1 使用

include/trace/events/subsys.h

#include DECLARE_TRACE(subsys_eventname, TP_PROTO(int firstarg, struct task_struct *p), TP_ARGS(firstarg, p));

首先在头文件里通过 DECLARE_TRACE 宏定义了一系列函数。subsys/file.c

#include DEFINE_TRACE(subsys_eventname);void somefct(void){ … trace_subsys_eventname(arg, task); … } // 实现自己的钩子函数并注册到内核 void callback(…) {} register_trace_subsys_eventname(callback);

然后在实现文件里通过 DEFINE_TRACE 定义一个 tracepoint 结构体。接着调用 register_trace_subsys_eventname 函数把自定义的钩子函数注册到内核，然后在需要收集信息的地方调用处理钩子的函数 trace_subsys_eventname。

1.2 实现

了解了使用之后，接下来看看实现。首先看一下注册钩子函数。

int tracepoint_probe_register(struct tracepoint *tp, void *probe, void *data){ return tracepoint_probe_register_prio(tp, probe, data, TRACEPOINT_DEFAULT_PRIO); } int tracepoint_probe_register_prio(struct tracepoint *tp, void *probe, void *data, int prio){ struct tracepoint_func tp_func; int ret; mutex_lock(&tracepoints_mutex); tp_func.func = probe; tp_func.data = data; tp_func.prio = prio; ret = tracepoint_add_func(tp, &tp_func, prio); mutex_unlock(&tracepoints_mutex); return ret; }

tracepoint_probe_register_prio 中定义了一个 tracepoint_func 结构体用于表示钩子信息，然后调用 tracepoint_add_func，其中 tp 就刚才自定义的 tracepoint 结构体。

staticint tracepoint_add_func(struct tracepoint *tp, struct tracepoint_func *func, int prio){ struct tracepoint_func *old, *tp_funcs; int ret; // 拿到钩子列表 tp_funcs = rcu_dereference_protected(tp->funcs, lockdep_is_held(&tracepoints_mutex)); // 插入新的钩子到列表 old = func_add(&tp_funcs, func, prio); rcu_assign_pointer(tp->funcs, tp_funcs); return 0;}static struct tracepoint_func * func_add(struct tracepoint_func **funcs, struct tracepoint_func *tp_func, int prio){ struct tracepoint_func *new; int nr_probes = 0; int pos = -1; /* + 2 : one for new probe, one forNULL func */ new = allocate_probes(nr_probes + 2); pos = 0; new[pos] = *tp_func; new[nr_probes + 1].func = NULL; *funcs = new; }

注册函数的逻辑其实就是往自定义的结构体的队列里插入一个新的节点。接下来再看一下处理钩子的逻辑。

#define __DO_TRACE(tp, proto, args, cond, rcuidle) \ do { \ struct tracepoint_func *it_func_ptr; \ void *it_func; \ void *__data; \ int __maybe_unused __idx = 0; \ // 拿到队列 it_func_ptr = rcu_dereference_raw((tp)->funcs); \ // 非空则执行里面的节点的回调 if (it_func_ptr) { \ do { \ it_func = (it_func_ptr)->func; \ __data = (it_func_ptr)->data; \ ((void(*)(proto))(it_func))(args); \ } while ((++it_func_ptr)->func); \ } \ } while (0)

逻辑上和我们在应用层的类似。在执行钩子，也就是我们的回调时，我们可以通过内核接口把信息写到 ring buffer，然后应用层可以通过 debugfs 获取到这个信息。

2 trace event

有了 Tracepoint 机制后，我们就可以写模块加载到内核中实现自己的插桩点。但是内核也为我们内置提供了非常多的插桩点。具体是通过 trace event 来实现的。下面看一个例子。

#define TRACE_EVENT(name, proto, args, struct, assign, print) \ DECLARE_TRACE(name, PARAMS(proto), PARAMS(args))TRACE_EVENT(consume_skb, TP_PROTO(struct sk_buff *skb), TP_ARGS(skb), TP_STRUCT__entry( __field( void *, skbaddr ) ), TP_fast_assign( __entry->skbaddr = skb; ), TP_printk(“skbaddr=%p”, __entry->skbaddr));

上面定义了一个宏 TRACE_EVENT，它本质上是对 DECLARE_TRACE 的封装，所以这里是定义了一系列的函数(注册钩子、处理钩子)。然后在 consume_skb 函数中处理了注册的钩子。

void consume_skb(struct sk_buff *skb){ trace_consume_skb(skb); __kfree_skb(skb); }

3. 总结

内核提供了非常丰富但是也非常复杂的机制，从而用户可以通过内核的能力获取到更底层的数据，用以排查问题和做性能优化。我们可以看到插桩的这种机制是一种静态的机制，我们通常需要依赖当前版本的内核所支持的桩，从而获得对应的信息，但其实内核也提供了动态追踪的能力，可以实现热插拔获取信息的能力。总的来说，Linux 下的追踪技术多种多样，虽然非常复杂，但是上层也提供了各种更方便的工具，这些能力是我们深入排查问题的利器。

原文链接：https://mp.weixin.qq.com/s/RSvLb95tG2-1GVide5tmRg

声明： 猿站网有关资源均来自网络搜集与网友提供，任何涉及商业盈利目的的均不得使用，否则产生的一切后果将由您自己承担！本平台资源仅供个人学习交流、测试使用所有内容请在下载后24小时内删除，制止非法恶意传播，不对任何下载或转载者造成的危害负任何法律责任！也请大家支持、购置正版！。本站一律禁止以任何方式发布或转载任何违法的相关信息访客发现请向站长举报，会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。本网站的资源部分来源于网络，如有侵权烦请发送邮件至：2697268773@qq.com进行处理。

{{userData.name}}已认证

小知识：Linux 内核静态追踪技术的实现

1 Tracepoint

1.1 使用

1.2 实现

2 trace event

3. 总结

小知识：Linux中使用crontab命令启用自定义定时任务实例

小知识：如何更新 Linux 的符号链接

支持亿级连接并开源的分布式MQTT消息服务器分享

Nginx配置同时支持http和https的两种方式

Docker搭建Redis Cluster集群

如何基于Docker镜像逆向生成Dockerfile

服务器配置参数怎么看？服务器配置参数详解

访问nginx显示未找到站点的问题分析及解决方案

{{userData.name}}已认证

1 Tracepoint

1.1 使用

1.2 实现

2 trace event

3. 总结

小知识：Linux中使用crontab命令启用自定义定时任务实例

小知识：如何更新 Linux 的符号链接

小知识：IO多路复用之epoll全面总结(必看篇)

小知识：Linux内核设备驱动之字符设备驱动笔记整理

小知识：linux下用户程序同内核通信详解（netlink机制）

小知识：Linode Xen 下 grsecurity >= 4.3 崩溃问题