浅析Linux内核数调用过程

电子说

1.3w人已加入

描述

应用程序顺序调用接收数进行接收数数据时,内核数调用过程如下

sys_recv
 -> sys_recvfrom
    -> sock_recvmsg  
       -> __sock_recvmsg
          -> sock->ops->recvmsg => sock_common_recvmsg
             -> sk->sk_prot->recvmsg => tcp_recvmsg

最后协议栈通过调 使用tcp_recvmsg 从接收队列中获取数据采集到用户文件夹中。

TCP

tcp_recvmsg

//把数据从接收队列中复制到用户空间中
int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
        size_t len, int nonblock, int flags, int *addr_len)
{
    struct tcp_sock *tp = tcp_sk(sk);
    int copied = 0;
    u32 peek_seq;
    u32 *seq;
    unsigned long used;
    int err;
    int target;     /* Read at least this many bytes */
    long timeo;
    struct task_struct *user_recv = NULL;
    int copied_early = 0;
    //先对传输层上锁,以免在读的过程中,软中断操作传输层,对数据不同步造成后果
    lock_sock(sk);

    TCP_CHECK_TIMER(sk);
    //初始化错误码
    err = -ENOTCONN;
    //TCP_LISTEN状态 不允许读
    if (sk->sk_state == TCP_LISTEN)
        goto out;

     // 获取阻塞超时时间,若非阻塞读取,超时时间为0
    timeo = sock_rcvtimeo(sk, nonblock);

    /* Urgent data needs to be handled specially. */
    ///若读取外带数据,则跳转处理
    if (flags & MSG_OOB)
        goto recv_urg;

    /*判断是从缓冲区读取数据还是只是查看数据: 若是读取数据到用户空间,会更新copied_seq,
    而只是查看数据,不需更新copied_seq,所以在这里先判断是读缓冲区数据还是只是查看数据*/
    seq = &tp->copied_seq;
    if (flags & MSG_PEEK) {
        peek_seq = tp->copied_seq;
        seq = &peek_seq;
    }

    /* 根据是否设置MSG_WAITALL来确定本次调用需要接收数据的长度,
    若设置该标志,则读取数据的长度为用户调用时的输入参数len */
    target = sock_rcvlowat(sk, flags & MSG_WAITALL, len);


    do {
        struct sk_buff *skb;
        u32 offset;

        /* Are we at urgent data? Stop if we have read anything or have SIGURG pending. 
           通过urg_data 和 urg_seq 来检测当前是否读取到外带数据。
        */
        if (tp->urg_data && tp->urg_seq == *seq) {
            //若在读取到外带数据之前已经读取了部分数据,则终止本次正常数据的读取。
            if (copied)
                break;
            //若用户进程有信号待处理,则也终止本次的读取
            if (signal_pending(current)) {
                copied = timeo ? sock_intr_errno(timeo) : -EAGAIN;
                break;
            }
        }

        /* Next get a buffer. */
        //获取下一个待读取的段
        skb = skb_peek(&sk->sk_receive_queue);
        do {
            //若队列为空,这只能接着处理prequeue或后备队列
            if (!skb)
                break;

            /* Now that we have two receive queues this
             * shouldn't happen.
             */
            //若接收队列中段序号大,说明也获取不到待读取的段,只能接着处理prequeue或后备队列
            if (before(*seq, TCP_SKB_CB(skb)->seq)) {
                printk(KERN_INFO "recvmsg bug: copied %X "
                       "seq %X\\n", *seq, TCP_SKB_CB(skb)->seq);
                break;
            }
            //计算该段读取数据的偏移位置,该偏移位置必须在该段的数据长度范围内才有效
            offset = *seq - TCP_SKB_CB(skb)->seq;
            ///SYN标志占用了一个序号,因此若存在SYN,则调整偏移
            if (skb->h.th->syn)
                offset--;
            //偏移位置必须在该段的数据长度范围内才有效
            if (offset < skb->len)
                goto found_ok_skb;
            //若存在fin标志,跳转处理
            if (skb->h.th->fin)
                goto found_fin_ok;
            BUG_TRAP(flags & MSG_PEEK);
            skb = skb->next;
        } while (skb != (struct sk_buff *)&sk->sk_receive_queue);

        /* Well, if we have backlog, try to process it now yet. */
        //只有在读取完数据后,才能在后备队列不为空的情况下,去处理接收到后备队列中的tcp段,否则终止本次读取
        if (copied >= target && !sk->sk_backlog.tail)
            break;
        /*接收队列中可读的段已读完,在处理prequeue或后备队列之前需要检测是否有导致返回的事件、状态等*/

        if (copied) {
            if (sk->sk_err || //有错误发送
                sk->sk_state == TCP_CLOSE ||
                (sk->sk_shutdown & RCV_SHUTDOWN) || //shutdown后不允许接收数据
                !timeo || //非阻塞
                signal_pending(current) || //收到信号
                (flags & MSG_PEEK)) //只是查看数据
                break; //上面检测条件只要有成立立即退出本次读取
        } else {
            //检测tcp会话是否即将终结
            if (sock_flag(sk, SOCK_DONE))
                break;
            ///有错误发生,返回错误码
            if (sk->sk_err) {
                copied = sock_error(sk);
                break;
            }

            if (sk->sk_shutdown & RCV_SHUTDOWN)
                break;
            //tcp状态处于close,而套接口不在终结状态,则进程可能是在读一个没有建立起连接的套接口,则返回ENOTCONN
            if (sk->sk_state == TCP_CLOSE) {
                if (!sock_flag(sk, SOCK_DONE)) {
                    /* This occurs when user tries to read
                     * from never connected socket.
                     */
                    copied = -ENOTCONN;
                    break;
                }
                break;
            }
            //未读到数据,且是非阻塞读,返回EAGAIN
            if (!timeo) {
                copied = -EAGAIN;
                break;
            }
            //检测是否收到数据,同时获取相应的错误码
            if (signal_pending(current)) {
                copied = sock_intr_errno(timeo);
                break;
            }
        }
        //检测是否有确认需要立即发送
        tcp_cleanup_rbuf(sk, copied);

        //在未启用sysctl_tcp_low_latency情况下,检查tcp_low_latency,默认其为0,表示使用prequeue队列
        if (!sysctl_tcp_low_latency && tp->ucopy.task == user_recv) {
            /* Install new reader */
            /*若是本次读取的第一此检测处理prequeue队列,则需要设置正在读取的进程描述符、缓存地址信息。这样当
            读取进程进入睡眠后,ESTABLISHED状态的接收处理就可能直接把数据复制到用户空间*/
            if (!user_recv && !(flags & (MSG_TRUNC | MSG_PEEK))) {
                user_recv = current;
                tp->ucopy.task = user_recv;
                tp->ucopy.iov = msg->msg_iov;
            }
            //更新当前可以使用的用户缓存大小
            tp->ucopy.len = len;

            BUG_TRAP(tp->copied_seq == tp->rcv_nxt ||
                 (flags & (MSG_PEEK | MSG_TRUNC)));


            //若prequeue不为空,跳转处理prequeue队列
            if (!skb_queue_empty(&tp->ucopy.prequeue))
                goto do_prequeue;

            /* __ Set realtime policy in scheduler __ */
        }
        //若数据读取完,调用release_sock 解锁传输控制块,主要用来处理后备队列
        if (copied >= target) {
            /* Do not sleep, just process backlog. */
            release_sock(sk);
            //锁定传输控制块,在调用lock_sock时进程可能会出现睡眠
            lock_sock(sk);
        } else
            /*若数据未读取,且是阻塞读取,则进入睡眠等待接收数据。在这种情况下,tcp_v4_do_rcv处理
              tcp段时可能会把数据直接复制到用户空间*/
            sk_wait_data(sk, &timeo);



        if (user_recv) {
            int chunk;

            /* __ Restore normal policy in scheduler __ */
            //更新剩余的用户空间长度和已复制到用户空间的数据长度
            if ((chunk = len - tp->ucopy.len) != 0) {
                NET_ADD_STATS_USER(LINUX_MIB_TCPDIRECTCOPYFROMBACKLOG, chunk);
                len -= chunk;
                copied += chunk;
            }
            /*若接收到接收队列中的数据已经全部复制到用户进程空间,但prequeue队列不为空,则需继续处理prequeue队列,
            并更新剩余的用户空间长度和已复制到用户空间的数据长度*/
            if (tp->rcv_nxt == tp->copied_seq &&
                !skb_queue_empty(&tp->ucopy.prequeue)) {
do_prequeue:
                tcp_prequeue_process(sk);

                if ((chunk = len - tp->ucopy.len) != 0) {
                    NET_ADD_STATS_USER(LINUX_MIB_TCPDIRECTCOPYFROMPREQUEUE, chunk);
                    len -= chunk;
                    copied += chunk;
                }
            }
        }
        //处理完prequeue队列后,若有更新copied_seq,且只是查看数据,则需要更新peek_seq
        if ((flags & MSG_PEEK) && peek_seq != tp->copied_seq) {
            if (net_ratelimit())
                printk(KERN_DEBUG "TCP(%s:%d): Application bug, race in MSG_PEEK.\\n",
                       current->comm, current->pid);
            peek_seq = tp->copied_seq;
        }
        //继续获取下一个待读取的段作处理
        continue;

    found_ok_skb:
        /* Ok so how much can we use? */
        /*获取该可读取段的数据长度,在前面的处理中已由tcp序号得到本次读取数据在该段中的偏移offset*/
        used = skb->len - offset;
        if (len < used)
            used = len;

        /* Do we have urgent data here? */
        //若段内包含带外数据,则获取带外数据在该段中的偏移
        if (tp->urg_data) {
            u32 urg_offset = tp->urg_seq - *seq;
            if (urg_offset < used) {
                //若偏移为0,说明目前需要的数据正是带外数据,且带外数据不允许进入正常的数据流
                if (!urg_offset) {
                    if (!sock_flag(sk, SOCK_URGINLINE)) {
                        ++*seq;
                        offset++;
                        used--;
                        if (!used)
                            goto skip_copy;
                    }
                } else
                    //若偏移不为0,则需要调整本次读取的正常数据长度直到读到带外数据为止
                    used = urg_offset;
            }
        }
        //处理读取数据的情况
        if (!(flags & MSG_TRUNC)) {
            {
                //将数据复制到用户空间
                err = skb_copy_datagram_iovec(skb, offset,
                        msg->msg_iov, used);
                if (err) {
                    /* Exception. Bailout! */
                    if (!copied)
                        copied = -EFAULT;
                    break;
                }
            }
        }

        *seq += used; //调整已读取数据的序号
        copied += used;//调整已读取数据的长度
        len -= used;//调整剩余的可用空间缓存大小

        //调整合理的tcp接收缓冲区大小
        tcp_rcv_space_adjust(sk);

skip_copy:
        //若对带外数据处理完毕,则将标志清零,
        if (tp->urg_data && after(tp->copied_seq, tp->urg_seq)) {
            tp->urg_data = 0;
            //设置首部标志,下一个接收段又可以通过首部预测执行快慢速路径
            tcp_fast_path_check(sk, tp);
        }
        //若该段还有数据未读取(如带外数据),则是能继续处理该段,而不能把该段从接收队列中删除
        if (used + offset < skb->len)
            continue;

        if (skb->h.th->fin)
            goto found_fin_ok;
        if (!(flags & MSG_PEEK)) {
            sk_eat_skb(sk, skb, copied_early);
            copied_early = 0;
        }
        //继续处理后续的段
        continue;

    found_fin_ok:
        /* Process the FIN. */
        //由于fin标志占用一个序号,因此当前读取的序号需递增
        ++*seq;
        if (!(flags & MSG_PEEK)) {
            sk_eat_skb(sk, skb, copied_early);
            copied_early = 0;
        }
        //接收到fin标志,无需继续处理后续的段
        break;
    } while (len > 0);

    if (user_recv) {
        //不空,处理prequeue
        if (!skb_queue_empty(&tp->ucopy.prequeue)) {
            int chunk;

            tp->ucopy.len = copied > 0 ? len : 0;

            tcp_prequeue_process(sk);
            //若在处理prequeue队列过程中又有一部分数据复制到用户空间,则调整剩余的可用空间缓存大小和已读数据的序号
            if (copied > 0 && (chunk = len - tp->ucopy.len) != 0) {
                NET_ADD_STATS_USER(LINUX_MIB_TCPDIRECTCOPYFROMPREQUEUE, chunk);
                len -= chunk;
                copied += chunk;
            }
        }

    /*清零,表示用户当前没有读取数据。这样当处理prequeue队列时不会将数据复制到用户空间,
        因为只有在未启用tcp_low_latency下,用户主动读取时,才有机会将数据直接复制到用户空间*/
        tp->ucopy.task = NULL;
        tp->ucopy.len = 0;
    }


    /*在完成读取数据后,需再次检测是否有必要立即发送ack,并根据情况确定是否发送ack段*/
    tcp_cleanup_rbuf(sk, copied);

    TCP_CHECK_TIMER(sk);
    //返回前解锁传输控制块
    release_sock(sk);
    //返回已读取的字节数
    return copied;

/*若在读取过程中发生了错误,则会跳转到此,解锁传输层后返回错误码*/
out:
    TCP_CHECK_TIMER(sk);
    release_sock(sk);
    return err;

/*若是接收带外数据,则调用tcp_recv_urg接收*/
recv_urg:
    err = tcp_recv_urg(sk, timeo, msg, len, flags, addr_len);
    goto out;
}

以上调使用排除带外数据只分析正常的数据的话,处理过程如下:

1、根据尚未从内核空间复制到用户空间的最前面一个字节的序号,找到待贝的数据块。

2、将数据从数据块中选择贝到用户空间。

3、调整合理的TCP接收绑定冲区大小

4、跳到第一步循环处理,直达到满足用户读取数量的条件。

审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分